“大模型”橫空出世點燃人工智能產(chǎn)業(yè)發(fā)展新高潮
數(shù)據(jù)、算法、算力人工智能“三駕馬車”齊頭并進
數(shù)據(jù)標注人工智能背后“人工”的力量
從知識學習到交通出行人工智能改變你我的生活
前言:隨著中國數(shù)字經(jīng)濟的深入發(fā)展,產(chǎn)業(yè)數(shù)字化進程不斷加速,大數(shù)據(jù)在產(chǎn)業(yè)決策中的比重越來越高。天眼查數(shù)據(jù)研究院特此推出“天眼新知”專欄,以天眼查大數(shù)據(jù)為依托,梳理產(chǎn)業(yè)格局及發(fā)展脈絡,解讀產(chǎn)業(yè)領(lǐng)域最新動態(tài)和投融資風向,為各方?jīng)Q策提供參考。
本文為天眼新知·產(chǎn)業(yè)分析系列,第三十四篇。
人工智能,源于一篇繞口令式的科技論文《神經(jīng)活動中內(nèi)在思想的邏輯演算》、源于赫赫有名的“圖靈測試”、源于20世紀50年代具備長遠眼光的科技先賢們一次“不經(jīng)意”的討論。
人工智能,起始于對人類自身理解的深入挖掘,對人的意識、思維的信息過程的模擬。今時今日,人工智能不再是科幻電影中無法觸及的概念,它已成為家喻戶曉的“現(xiàn)實”,在減輕人類的體力負擔和腦力負擔方面已漸漸顯示出優(yōu)勢,比如在極端天氣預測等層面顯露頭角。
隨著深度學習,大模型等關(guān)鍵技術(shù)的深入發(fā)展,以Chat-GPT爆發(fā)為新起點,人工智能將快速邁入下一個“未知”的階段。
一、人工智能:工具屬性與思維能力的深度融合
人工智能從標準的定義來講,可參考《人工智能標準化白皮書(2018)》中所提。人工智能是利用數(shù)字計算機或者數(shù)字計算機控制的機器模擬、延伸和擴展人的智能,感知環(huán)境、獲取知識并使用知識獲得最佳結(jié)果的理論、方法、技術(shù)及應用系統(tǒng)。
在大多人的眼中,人工智能是一位非常給力的助手,工具,可以實現(xiàn)處理工作過程的自動化,提升工作效率,比如執(zhí)行與人類智能有關(guān)的智能行為,如判斷、推理、證明、識別、感知、理解、通信、設(shè)計、思考、規(guī)劃、學習和問題求解等思維活動。
但與之其工具屬性,能力屬性相比,人工智能更為重要的是一種思維,是用來描述模仿人類與其他人類思維相關(guān)聯(lián)的“認知”功能的機器,如“學習”和“解決問題”。
人工智能產(chǎn)業(yè)在20世紀50年代提出后,限于當時的技術(shù)能力,多限于理論知識的討論,而真正開始爆發(fā)還是自2012年的AlexNet模型問世。
1.人工智能1.0時代(2012年-2018年)
人工智能概念于1956年被提出,AI產(chǎn)業(yè)的第一輪爆發(fā)源自2012年,2012年AlexNet模型問世開啟了CNN在圖像識別的應用,2015年機器識別圖像的準確率首次超過人(錯誤率低于4%),開啟了計算機視覺技術(shù)在各行各業(yè)的應用,帶動了人工智能1.0時代的創(chuàng)新周期,AI+開始賦能各行各業(yè),帶動效率提升。但是,人工智能1.0時代面臨著模型碎片化,AI泛化能力不足等問題。
2.人工智能2.0時代(2017年-至今)
2017年Google Brain團隊提出Transformer架構(gòu),奠定了大模型領(lǐng)域的主流算法基礎(chǔ),從2018年開始大模型迅速流行,2018年谷歌團隊的模型參數(shù)首次過億,到2022年模型參數(shù)達到5400億,模型參數(shù)呈現(xiàn)指數(shù)級增長,“預訓練+微調(diào)”的大模型有效解決了1.0時代AI泛化能力不足的問題。新一代AI技術(shù)有望開始全新一輪的技術(shù)創(chuàng)新周期。
天眼查數(shù)據(jù)顯示,截至目前,人工智能相關(guān)企業(yè)近267.4萬余家,其中,2023年一季度新增注冊企業(yè)17萬余家,與2022年同期相比,上漲6.8%;
從地域分布來看,廣東以39.9萬余家位列區(qū)域首位;江蘇、北京分列二、三位,分別擁有22.4萬余家以及21.8萬余家;
從成立時間來看,53.6%的相關(guān)企業(yè)成立于1-5年內(nèi),成立于1年以內(nèi)的相關(guān)企業(yè)占比27.7%;
二、數(shù)據(jù)、算法、算力:人工智能的“三駕馬車”
1.數(shù)據(jù):“巧婦難為無米之炊”
人工智能的快速發(fā)展推動數(shù)據(jù)規(guī)模不斷提升。據(jù)IDC測算,2025年全球數(shù)據(jù)規(guī)模將達到 163ZB,其中80%-90%是非結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)服務進入深度定制化的階段,百度、阿里巴巴、京東等公司根據(jù)不同場景和需求推出數(shù)據(jù)定制的服務;企業(yè)需求的數(shù)據(jù)集從通用簡單場景向個性化復雜場景過渡,例如語音識別數(shù)據(jù)集從普通話向小語種、方言等場景發(fā)展,智能對話數(shù)據(jù)集從簡答問答、控制等場景向應用場景、業(yè)務問答等方向發(fā)展。
各方積極探索建立高質(zhì)量知識集,推動知識驅(qū)動的未來人工智能應用發(fā)展。知識集中包含語音、圖像、文本等傳統(tǒng)數(shù)據(jù)和定義、規(guī)則、邏輯關(guān)系等,是知識的數(shù)據(jù)化呈現(xiàn),業(yè)界著名知識集有Wordnet、Hownet等。例如阿里巴巴聯(lián)合香港理工大學基于服裝設(shè)計知識開發(fā)FashionAI知識集,加速了AI在服裝設(shè)計產(chǎn)業(yè)落地應用。
2.算法(模型、軟件):“困難”總比方法多
根據(jù)中國信通院《人工智能白皮書(2022年)》,超大規(guī)模預訓練模型持續(xù)推動技術(shù)升級,繼續(xù)朝著大規(guī)模、多模態(tài)方向發(fā)展。自2020年OpenAI推出GPT-3后,谷歌、華為、智源研究院、中科院、阿里巴巴等企業(yè)和研究機構(gòu)也相繼發(fā)力,陸續(xù)推出超大規(guī)模預訓練模型,包括Switch Transformer、DALL·EMT-NLG、盤古、悟道2.0、紫東太初和M6等。當前,預訓練模型參數(shù)數(shù)量、訓練數(shù)據(jù)規(guī)模按照300倍/年的趨勢增長,增大模型和增加訓練數(shù)據(jù)仍是短期內(nèi)演進方向;跨模態(tài)預訓練大模型逐漸普遍,如今已經(jīng)能夠處理文本、圖像、語音三種模態(tài)數(shù)據(jù),未來能夠使用更多類型數(shù)據(jù)的預訓練模型將會涌現(xiàn)。
輕量化深度學習技術(shù)顯著提升計算效率。復雜的深度學習模型需要耗費大量的存儲空間和計算資源,在端邊等資源受限的情況下難以應用。輕量化深度學習成為解決這一難題的重要技術(shù),具備低內(nèi)存和低計算量優(yōu)勢,技術(shù)包括設(shè)計更加緊湊和高效的神經(jīng)網(wǎng)絡結(jié)構(gòu)、對大模型“裁剪”掉部分模型結(jié)構(gòu),以及對網(wǎng)絡參數(shù)進行量化從而減少計算量等。例如,緊湊模型的典型代表有谷歌提出的MobileNet和曠視提出ShufleNet等,百度推出的輕量化PaddleOCR模型規(guī)模減小至2.8Mb,在GitHub上開源后受到熱捧“生成式人工智能”技術(shù)不斷成熟,未來聽、說、讀、寫等能力將有機結(jié)合。目前,“生成式人工智能”技術(shù)被廣泛應用于智能寫作、語音導航、代碼生成、新聞播報、有聲閱讀、影像修復等領(lǐng)域,通過機器自動合成文本、視頻、圖像、語音等推動互聯(lián)網(wǎng)數(shù)字內(nèi)容生產(chǎn)的變革。聽、說、讀、寫等能力的有機結(jié)合成為未來發(fā)展趨勢。例如央視、新華社、光明網(wǎng)等均推出了數(shù)字人主播。
據(jù)天眼查知識產(chǎn)權(quán)不完全統(tǒng)計,人工智能相關(guān)的專利申請自2023年1月以來,已有1610余項,其中,發(fā)明專利占比超過7成。
3.算力(硬件):日行千里 事半功倍
人工智能算力應需求驅(qū)動不斷突破,訓練用和推斷用的芯片仍在加速發(fā)展。一方面在模型訓練階段,根據(jù)Open AI數(shù)據(jù),模型計算量增長速度遠超人工智能硬件算力增長速度,存在萬倍差距。另一方面,由于推斷的泛在性,推斷用算力需求持續(xù)增長。與此同時,新的算力架構(gòu)也在不斷探索中,類腦芯片、存內(nèi)計算、量子計算等備受關(guān)注。
訓練芯片創(chuàng)新加速,推斷芯片朝著專用定制化發(fā)展。基于GPU的訓練芯片持續(xù)增多,面向GPU創(chuàng)新的企業(yè)開始發(fā)力,出現(xiàn)了摩爾線程、天數(shù)智芯、壁仞科技等一批專注GPU賽道的初創(chuàng)公司?;贏SIC等架構(gòu)云端訓練芯片能力提升顯著,寒武紀的思元370、原科技的“邃思 2.0”以及百度的昆侖2等相對上一代產(chǎn)品均有3-4倍以上的算力提升。
專用定制的端側(cè)推理芯片百花齊放,面向手機應用的智能芯片成為亮點。2021年1月,聯(lián)發(fā)科推出了高端手機芯片 Dimensity 1200,可邊緣處理5G、AI和圖像數(shù)據(jù)等。8月,谷歌為其Pixel系列手機專門推出了首款智能手機芯片Tensor。類腦芯片、存內(nèi)計算、量子計算等依舊是重點探索方向。類腦芯片、存內(nèi)計算、量子計算等技術(shù)在理論層面可實現(xiàn)高算力、低功耗等優(yōu)點,雖然取得了一些進展,但總體而言目前技術(shù)成熟度相對較低。
據(jù)天眼查投融資數(shù)據(jù)不完全統(tǒng)計,與GPU相關(guān)的融資事件合計發(fā)生98起,融資金額超280億元;其中,2023年融資事件合計發(fā)生3起,融資金額超4億元。
4.數(shù)據(jù)標注:人工智能背后“人工”的力量
人工智能,其實是部分替代人的認知功能。人工智能算法是數(shù)據(jù)驅(qū)動型算法,也就是說,如果想實現(xiàn)人工智能,首先需要把人類理解和判斷事物的能力教給計算機,讓計算機學習到這種識別能力。
類比機器學習,我們要教它認識一只貓,直接給它一張貓的圖片,它是完全不知道這是什么。我們得先有貓的圖片,上面標注著“貓”這個字,然后機器通過學習了大量的圖片中的特征,這時候再給機器任意一張貓的圖片,它就能認出來這是貓了。
所以目前人工智能需要標注大量數(shù)據(jù),即對原始信息進行數(shù)據(jù)標注。數(shù)據(jù)標注是大部分人工智能算法得以有效運行的關(guān)鍵環(huán)節(jié)。數(shù)據(jù)標注是把需要機器識別和分辨的數(shù)據(jù)貼上標簽,然后讓計算機不斷地學習這些數(shù)據(jù)的特征,最終實現(xiàn)計算機能夠自主識別。這類工作量極大、過程極其枯燥且耗時的手動數(shù)據(jù)標記過程,已經(jīng)成為AI經(jīng)濟體系中的重要組成部分。
據(jù)天眼查知識產(chǎn)權(quán)不完全統(tǒng)計,與數(shù)據(jù)標注有關(guān)的專利申請,自2023年1月以來,已有34項,均屬于發(fā)明專利。
三、應用領(lǐng)域:從知識學習、到交通出行改變你我的生活
1.大模型
3月14日,Open AI正式發(fā)布多模態(tài)大模型GPT-4,迭代速度較快。創(chuàng)始人 Sam Altman 表示,GPT-4是迄今為止功能最強大、最一致的大型多模態(tài)模型,能夠接受圖像和文本輸入,在各種專業(yè)和學術(shù)基準上均表現(xiàn)出了人類水平。人工智能的發(fā)展已經(jīng)進入了認知智能領(lǐng)域,文本智能、圖像智能、音頻智能、視頻智能以及多模態(tài)認知智能,將會逐步誕生,未來為了應對復雜和多變的應用場景,多模態(tài)智能的發(fā)展方向?qū)⒊蔀楸厝弧?/p>
2.自動駕駛
自動駕駛技術(shù)是一個涉及多個領(lǐng)域的復雜技術(shù),人工智能技術(shù)是其中重要的一環(huán)。在自動駕駛中,人工智能主要負責實現(xiàn)自主決策和智能感知。其中,自主決策涉及到在各種不同的駕駛情境下,根據(jù)各種因素做出最佳的決策。這些因素包括道路情況、交通情況、天氣情況、行人和其他車輛的行動,以及其他各種因素。而智能感知則主要負責實現(xiàn)對周圍環(huán)境的感知,包括車輛和行人的位置、速度、方向等信息的獲取和分析,這些信息將為自動駕駛汽車用來做出最佳的決策和行動提供支持。
3.生命科學
人工智能不止在工程領(lǐng)域取得了了不起的建樹,在生命科學領(lǐng)域也有著不俗的戰(zhàn)績,比如:Alphafold。2022年,DeepMind公司與歐洲生物信息研究所的合作團隊公布了生物學領(lǐng)域的一項重大飛躍。他們利用人工智能(AI)系統(tǒng)AlphaFold預測出超過100萬個物種的2.14億個蛋白質(zhì)結(jié)構(gòu),幾乎涵蓋了地球上所有已知蛋白質(zhì)。這一突破將加速新藥開發(fā),并為基礎(chǔ)科學帶來全新革命。預測蛋白質(zhì)形狀的能力對科學家很有用,因為它對于了解其在體內(nèi)的作用以及診斷和治療被認為由錯誤折疊的蛋白質(zhì)引起的疾病至關(guān)重要,例如阿爾茨海默氏癥,帕金森氏癥,亨廷頓氏癥和囊性纖維化。
四、前景預測
1.政策層面:鼎力支持
人工智能是引領(lǐng)未來的新興戰(zhàn)略性技術(shù),是驅(qū)動新一輪科技革命和產(chǎn)業(yè)變革的重要力量。
近年來,中國人工智能行業(yè)受到國家的高度重視和重點支持,國家推出多項政策,保障我國人工智能產(chǎn)業(yè)長期發(fā)展。
從數(shù)據(jù)要素層面來看,十四屆全國人大會議提出成立國家數(shù)據(jù)局、重組科學技術(shù)部等有力舉措。國家數(shù)據(jù)局的成立有望加速數(shù)據(jù)要素市場化。
從自主創(chuàng)新層面來看,重組科學技術(shù)部、健全新型舉國體制有利于推動我國科技自主創(chuàng)新發(fā)展。
2.應用層面:前景廣闊
AIGC領(lǐng)域目前呈現(xiàn)出的內(nèi)容類型不斷豐富、內(nèi)容質(zhì)量不斷提升、技術(shù)的通用性和工業(yè)化水平越來越強等趨勢,這使得AIGC在消費互聯(lián)網(wǎng)領(lǐng)域日趨主流化,涌現(xiàn)了寫作助手、AI繪畫、對話機器人、數(shù)字人等爆款級應用,支撐著傳媒、電商、娛樂、影視等領(lǐng)域的內(nèi)容需求。目前AIGC也正在向產(chǎn)業(yè)互聯(lián)網(wǎng)、社會價值領(lǐng)域擴張應用。
天眼查研究院認為,未來,人工智能是否會真正替代人的討論仍將持續(xù)。人工智能,是一場關(guān)于知識學習的革命,機器學習、深度學習、大模型等讓人望而卻步的概念不過是機器理解世界的范式。與其杞人憂天,擔心自己被機器所替代,不如與“機器”同行,學習它,掌握它,用好它,成為為我所用的工具。
鄭重聲明:此文內(nèi)容為本網(wǎng)站轉(zhuǎn)載企業(yè)宣傳資訊,目的在于傳播更多信息,與本站立場無關(guān)。僅供讀者參考,并請自行核實相關(guān)內(nèi)容。