感謝本站網(wǎng)友三庫(kù)的線索傳遞!
一般的人工智能,還是得看DeepMind這一次,只有一個(gè)型號(hào),使用同樣的重量,不僅讓王牌雅達(dá)利游戲飛了起來(lái)
和人類(lèi)聊天,看圖寫(xiě)字也不在話下。你甚至可以在真實(shí)環(huán)境中控制機(jī)械臂,讓它按照指令完成任務(wù)!
這個(gè)模特名叫加托,在西班牙語(yǔ)中是貓的意思。
DeepMind稱,這只貓可以使用相同權(quán)重的相同神經(jīng)網(wǎng)絡(luò)來(lái)適應(yīng)各種環(huán)境。
具體來(lái)說(shuō),DeepMind對(duì)它進(jìn)行了604項(xiàng)不同任務(wù)的訓(xùn)練這些任務(wù)有完全不同的模式,要遵守的要素和行為規(guī)則也不一樣
加托不僅在450個(gè)任務(wù)中超過(guò)了50%的專(zhuān)家水平,還在23個(gè)雅達(dá)利游戲中超過(guò)了人類(lèi)的平均分?jǐn)?shù)。
Deep Mind的CEO哈薩比斯直接說(shuō):
這是目前我們最通用的代理。
這一最新成果一發(fā)布,立刻在AI圈掀起熱議。
一些人工智能研究人員指出:
加托令人印象深刻你只需要在云上花費(fèi)50,000美元就可以完成它的訓(xùn)練
這筆錢(qián)只是PaLM 1100萬(wàn)美元培訓(xùn)費(fèi)用的一小部分以PaLM的預(yù)算,加托可以擴(kuò)大100倍,這很可能是有效的
PaLM是Google發(fā)布的5400億參數(shù)語(yǔ)言模型。
有人直接犧牲了AlphaStar架構(gòu)和加托架構(gòu)的對(duì)比:
Zoom AI杰出科學(xué)家Awni Hannun直接感嘆Google/DeepMind過(guò)去五周密集發(fā)布的成果。
那么這只來(lái)自DeepMind的貓到底是怎么回事呢。
變壓器負(fù)責(zé)一切。
對(duì)于研究方法,DeepMind只用了一句話來(lái)解釋:
受大語(yǔ)言模型的啟發(fā),我們使用類(lèi)似的方法將模型能力擴(kuò)展到文本之外的領(lǐng)域。
沒(méi)錯(cuò)這次是大語(yǔ)言模型中常用的Transformer架構(gòu)
Transformer的本質(zhì)是將一個(gè)序列轉(zhuǎn)換成另一個(gè)序列。
因此,為了讓它掌握各種任務(wù),首先需要將各種數(shù)據(jù)編碼成序列。
不用說(shuō),文本是序列信息,可以通過(guò)經(jīng)典的句子片段進(jìn)行編碼。
圖像,維特,已經(jīng)打好了先分成16x16的像素,然后對(duì)每個(gè)像素進(jìn)行編號(hào),處理成序列
游戲過(guò)程中的按鍵輸入也是一個(gè)序列,屬于離散值,比如上,下,左,右,左,右巴巴。
機(jī)器人操縱過(guò)程中的傳感器信號(hào)和關(guān)節(jié)力矩是連續(xù)值,它們也通過(guò)一系列采樣和編碼處理成離散序列。
最后,所有串行數(shù)據(jù)都交給同一個(gè)轉(zhuǎn)換器進(jìn)行處理。
整個(gè)加托模型使用的訓(xùn)練數(shù)據(jù)普遍偏向于游戲和機(jī)器人控制任務(wù),596個(gè)任務(wù)占85.3%而視覺(jué)和自然語(yǔ)言任務(wù)只占14.7%
在模型架構(gòu)上,為了簡(jiǎn)潔和可擴(kuò)展,在最經(jīng)典的原Transformer基礎(chǔ)上進(jìn)行修改。具體參數(shù)如下:
在Google的16x16 Cloud TPUv3切片上對(duì)4層11.8億參數(shù)的加托進(jìn)行了4天左右的訓(xùn)練。
在部署階段,加托像傳統(tǒng)的Transformer和ViT一樣運(yùn)行視覺(jué)和語(yǔ)言任務(wù)。
游戲和機(jī)器人控制的行為模式可以理解為一步一個(gè)腳印。
首先給出一個(gè)任務(wù)提示,比如游戲操作或者機(jī)器人動(dòng)作,作為輸出序列的開(kāi)始。
接下來(lái),加托會(huì)觀察當(dāng)前的環(huán)境,對(duì)運(yùn)動(dòng)向量進(jìn)行自回歸采樣,動(dòng)作執(zhí)行后環(huán)境會(huì)發(fā)生變化,然后重復(fù)這個(gè)過(guò)程...
那么,這樣訓(xùn)練出來(lái)的加托在各種任務(wù)中表現(xiàn)如何呢。
成為只有12億參數(shù)的通才
在玩游戲方面,加托的表現(xiàn)可以用一張圖來(lái)概括。
x軸是訓(xùn)練集中專(zhuān)家水平的百分比,其中0表示隨機(jī)參數(shù)模型的水平。
y軸是加托超過(guò)或達(dá)到相應(yīng)專(zhuān)家水平的任務(wù)數(shù)。
最終,604項(xiàng)加托任務(wù)中有450項(xiàng)超過(guò)了專(zhuān)家水平的50%。
更詳細(xì)的結(jié)果如下:
在雅達(dá)利游戲測(cè)試中,加托在23場(chǎng)比賽中超過(guò)了人類(lèi)的平均得分,在11場(chǎng)比賽中得分是人類(lèi)的兩倍。
這些游戲包括經(jīng)典的乒乓球,賽車(chē),射擊,格斗等類(lèi)型。
在Bengio團(tuán)隊(duì)發(fā)起的BabyAI測(cè)試中,加托幾乎在所有級(jí)別都達(dá)到了80%的專(zhuān)家水平,最難的Boss水平達(dá)到了75%它與BabyAI列表中的前兩個(gè)模型不相上下,但這兩個(gè)模型都經(jīng)過(guò)了數(shù)百萬(wàn)次演示的訓(xùn)練
BabyAI檢查點(diǎn)示例
在元世界中,加托的全部45個(gè)任務(wù)中,有44個(gè)超過(guò)了專(zhuān)家水平的50%,35個(gè)超過(guò)了80%,3個(gè)超過(guò)了90%。
元世界任務(wù)示例
在操控真實(shí)機(jī)器人方面,和之前的型號(hào)沒(méi)什么區(qū)別。
至于視覺(jué)和文字任務(wù),DeepMind至少給出了一些例子而不是跑分來(lái)驗(yàn)證通用模型的可行性。
描述圖像
閑談
最后,DeepMind還對(duì)加托模型的可擴(kuò)展性進(jìn)行了評(píng)估。
雖然目前的加托無(wú)法在每一個(gè)單項(xiàng)任務(wù)上與SOTA結(jié)果相提并論,但實(shí)驗(yàn)結(jié)果表明,伴隨著參數(shù),數(shù)據(jù)和硬件的增加,加托模型的性能仍有成比例提升的空間。
此外,加托在小樣本學(xué)習(xí)方面也顯示出一些潛力。
DeepMind認(rèn)為,這樣的通用模型可以通過(guò)提示或微調(diào)快速學(xué)習(xí)新任務(wù),不再需要為每個(gè)任務(wù)訓(xùn)練一個(gè)大型模型。
通用人工智能還有多遠(yuǎn)。
看過(guò)加托的表演后,網(wǎng)友們大為震驚也就不足為奇了。
有些人甚至認(rèn)為AGI就在眼前。
當(dāng)然反對(duì)/質(zhì)疑的聲音也不小。
比如總是搶著給人工智能潑冷水的馬庫(kù)斯,這次第一次開(kāi)炮了:
仔細(xì)看第10頁(yè)無(wú)論模型有多大,大語(yǔ)言模型標(biāo)志性的不可靠和錯(cuò)誤信息依然存在
但無(wú)論如何,DeepMind在通用人工智能方向的努力正在不斷產(chǎn)生新的成果。
事實(shí)上,無(wú)論是2013年讓谷歌大吃一驚的雅達(dá)利游戲AI,還是舉世聞名的AlphaGo和AlphaStar,DeepMind想要通過(guò)這些階段性成果達(dá)到的終極目標(biāo),一直都引出了通用人工智能這個(gè)關(guān)鍵詞。
去年,DeepMind首席研究科學(xué)家,倫敦大學(xué)學(xué)院教授大衛(wèi)·西爾弗也主導(dǎo)發(fā)表了一篇同樣引起大量討論的文章:獎(jiǎng)勵(lì)就夠了。
論文認(rèn)為,強(qiáng)化學(xué)習(xí)作為基于報(bào)酬最大化的人工智能分支,足以推動(dòng)一般人工智能的發(fā)展。
據(jù)加托團(tuán)隊(duì)成員稱,這只貓貓已經(jīng)在DeepMind培育了2年。
這種加托是以有監(jiān)督的方式進(jìn)行離線訓(xùn)練的,但論文也強(qiáng)調(diào),原則上也可以通過(guò)離線或在線強(qiáng)化學(xué)習(xí)的方式進(jìn)行訓(xùn)練。
就在一周前,DeepMind發(fā)布了一個(gè)新視頻,視頻中寫(xiě)道:
我們接下來(lái)要做一件大事,這意味著我們需要嘗試很多人們認(rèn)為太難的事情但是我們必須嘗試一下
現(xiàn)在,似乎下一個(gè)大事件是指AGI。
論文地址:
鄭重聲明:此文內(nèi)容為本網(wǎng)站轉(zhuǎn)載企業(yè)宣傳資訊,目的在于傳播更多信息,與本站立場(chǎng)無(wú)關(guān)。僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。