當(dāng)前位置： 蘇州資訊網(wǎng) >快訊 >

DeepMind兩年研究一朝公開(kāi)，通用人工智能最新突破：一個(gè)模型、一套權(quán)

時(shí)間：2023-02-06 13:45 閱讀量：7615

感謝本站網(wǎng)友三庫(kù)的線索傳遞！

一般的人工智能，還是得看DeepMind這一次，只有一個(gè)型號(hào)，使用同樣的重量，不僅讓王牌雅達(dá)利游戲飛了起來(lái)

和人類(lèi)聊天，看圖寫(xiě)字也不在話下。你甚至可以在真實(shí)環(huán)境中控制機(jī)械臂，讓它按照指令完成任務(wù)！

這個(gè)模特名叫加托，在西班牙語(yǔ)中是貓的意思。

DeepMind稱，這只貓可以使用相同權(quán)重的相同神經(jīng)網(wǎng)絡(luò)來(lái)適應(yīng)各種環(huán)境。

具體來(lái)說(shuō)，DeepMind對(duì)它進(jìn)行了604項(xiàng)不同任務(wù)的訓(xùn)練這些任務(wù)有完全不同的模式，要遵守的要素和行為規(guī)則也不一樣

加托不僅在450個(gè)任務(wù)中超過(guò)了50%的專(zhuān)家水平，還在23個(gè)雅達(dá)利游戲中超過(guò)了人類(lèi)的平均分?jǐn)?shù)。

Deep Mind的CEO哈薩比斯直接說(shuō):

這是目前我們最通用的代理。

這一最新成果一發(fā)布，立刻在AI圈掀起熱議。

一些人工智能研究人員指出:

加托令人印象深刻你只需要在云上花費(fèi)50，000美元就可以完成它的訓(xùn)練

這筆錢(qián)只是PaLM 1100萬(wàn)美元培訓(xùn)費(fèi)用的一小部分以PaLM的預(yù)算，加托可以擴(kuò)大100倍，這很可能是有效的

PaLM是Google發(fā)布的5400億參數(shù)語(yǔ)言模型。

有人直接犧牲了AlphaStar架構(gòu)和加托架構(gòu)的對(duì)比:

Zoom AI杰出科學(xué)家Awni Hannun直接感嘆Google/DeepMind過(guò)去五周密集發(fā)布的成果。

那么這只來(lái)自DeepMind的貓到底是怎么回事呢。

變壓器負(fù)責(zé)一切。

對(duì)于研究方法，DeepMind只用了一句話來(lái)解釋:

受大語(yǔ)言模型的啟發(fā)，我們使用類(lèi)似的方法將模型能力擴(kuò)展到文本之外的領(lǐng)域。

沒(méi)錯(cuò)這次是大語(yǔ)言模型中常用的Transformer架構(gòu)

Transformer的本質(zhì)是將一個(gè)序列轉(zhuǎn)換成另一個(gè)序列。

因此，為了讓它掌握各種任務(wù)，首先需要將各種數(shù)據(jù)編碼成序列。

不用說(shuō)，文本是序列信息，可以通過(guò)經(jīng)典的句子片段進(jìn)行編碼。

圖像，維特，已經(jīng)打好了先分成16x16的像素，然后對(duì)每個(gè)像素進(jìn)行編號(hào)，處理成序列

游戲過(guò)程中的按鍵輸入也是一個(gè)序列，屬于離散值，比如上，下，左，右，左，右巴巴。

機(jī)器人操縱過(guò)程中的傳感器信號(hào)和關(guān)節(jié)力矩是連續(xù)值，它們也通過(guò)一系列采樣和編碼處理成離散序列。

最后，所有串行數(shù)據(jù)都交給同一個(gè)轉(zhuǎn)換器進(jìn)行處理。

整個(gè)加托模型使用的訓(xùn)練數(shù)據(jù)普遍偏向于游戲和機(jī)器人控制任務(wù)，596個(gè)任務(wù)占85.3%而視覺(jué)和自然語(yǔ)言任務(wù)只占14.7%

在模型架構(gòu)上，為了簡(jiǎn)潔和可擴(kuò)展，在最經(jīng)典的原Transformer基礎(chǔ)上進(jìn)行修改。具體參數(shù)如下:

在Google的16x16 Cloud TPUv3切片上對(duì)4層11.8億參數(shù)的加托進(jìn)行了4天左右的訓(xùn)練。

在部署階段，加托像傳統(tǒng)的Transformer和ViT一樣運(yùn)行視覺(jué)和語(yǔ)言任務(wù)。

游戲和機(jī)器人控制的行為模式可以理解為一步一個(gè)腳印。

首先給出一個(gè)任務(wù)提示，比如游戲操作或者機(jī)器人動(dòng)作，作為輸出序列的開(kāi)始。

接下來(lái)，加托會(huì)觀察當(dāng)前的環(huán)境，對(duì)運(yùn)動(dòng)向量進(jìn)行自回歸采樣，動(dòng)作執(zhí)行后環(huán)境會(huì)發(fā)生變化，然后重復(fù)這個(gè)過(guò)程...

那么，這樣訓(xùn)練出來(lái)的加托在各種任務(wù)中表現(xiàn)如何呢。

成為只有12億參數(shù)的通才

在玩游戲方面，加托的表現(xiàn)可以用一張圖來(lái)概括。

x軸是訓(xùn)練集中專(zhuān)家水平的百分比，其中0表示隨機(jī)參數(shù)模型的水平。

y軸是加托超過(guò)或達(dá)到相應(yīng)專(zhuān)家水平的任務(wù)數(shù)。

最終，604項(xiàng)加托任務(wù)中有450項(xiàng)超過(guò)了專(zhuān)家水平的50%。

更詳細(xì)的結(jié)果如下:

在雅達(dá)利游戲測(cè)試中，加托在23場(chǎng)比賽中超過(guò)了人類(lèi)的平均得分，在11場(chǎng)比賽中得分是人類(lèi)的兩倍。

這些游戲包括經(jīng)典的乒乓球，賽車(chē)，射擊，格斗等類(lèi)型。

在Bengio團(tuán)隊(duì)發(fā)起的BabyAI測(cè)試中，加托幾乎在所有級(jí)別都達(dá)到了80%的專(zhuān)家水平，最難的Boss水平達(dá)到了75%它與BabyAI列表中的前兩個(gè)模型不相上下，但這兩個(gè)模型都經(jīng)過(guò)了數(shù)百萬(wàn)次演示的訓(xùn)練

BabyAI檢查點(diǎn)示例

在元世界中，加托的全部45個(gè)任務(wù)中，有44個(gè)超過(guò)了專(zhuān)家水平的50%，35個(gè)超過(guò)了80%，3個(gè)超過(guò)了90%。

元世界任務(wù)示例

在操控真實(shí)機(jī)器人方面，和之前的型號(hào)沒(méi)什么區(qū)別。

至于視覺(jué)和文字任務(wù)，DeepMind至少給出了一些例子而不是跑分來(lái)驗(yàn)證通用模型的可行性。

描述圖像

閑談

最后，DeepMind還對(duì)加托模型的可擴(kuò)展性進(jìn)行了評(píng)估。

雖然目前的加托無(wú)法在每一個(gè)單項(xiàng)任務(wù)上與SOTA結(jié)果相提并論，但實(shí)驗(yàn)結(jié)果表明，伴隨著參數(shù)，數(shù)據(jù)和硬件的增加，加托模型的性能仍有成比例提升的空間。

此外，加托在小樣本學(xué)習(xí)方面也顯示出一些潛力。

DeepMind認(rèn)為，這樣的通用模型可以通過(guò)提示或微調(diào)快速學(xué)習(xí)新任務(wù)，不再需要為每個(gè)任務(wù)訓(xùn)練一個(gè)大型模型。

通用人工智能還有多遠(yuǎn)。