誰(shuí)在「吊打」ChatGPT？

時(shí)間：2023-11-10 13:59 閱讀量：19319

AI行業(yè)的“百模大戰(zhàn)”已經(jīng)打了大半年。從上半年的火熱，到下半年的漸冷，勝負(fù)難分。

GPT成了國(guó)內(nèi)廠商的靶子。幾乎每家在發(fā)布大模型時(shí)，都要把GPT拉出來(lái)對(duì)比一波，而且他們總能找到一個(gè)指標(biāo)把GPT超越——比如，中文能力。

測(cè)評(píng)類的榜單太多了。從英文的MMLU，到中文的SuperCLUE，再到借鑒游戲排位賽機(jī)制的ChatbotArena，各種大模型榜單讓人眼花繚亂。很多時(shí)候，榜單上的排名成為廠商對(duì)外宣傳的工具。

但奇怪的是，用戶在體驗(yàn)后發(fā)現(xiàn)，號(hào)稱超越ChatGPT的一些大模型產(chǎn)品，實(shí)際表現(xiàn)不盡如人意。各種不同的統(tǒng)計(jì)排名口徑，更是讓人感到迷惑。以至于“*”太多，榜單都快不夠用了。

比如最近，昆侖萬(wàn)維開源「天工」系列大模型，號(hào)稱多榜超越Llama 2；李開復(fù)的零一萬(wàn)物公司發(fā)布開源大模型“Yi”，“*”全球多項(xiàng)榜單；vivo發(fā)布自研AI“藍(lán)心”大模型，是國(guó)內(nèi)“首家”開源7B大模型的手機(jī)廠商。

如此之多的大模型，跑馬圈地這半年，大家做得怎么樣？我們又該如何評(píng)價(jià)孰優(yōu)孰劣？

1、“刷榜”，大模型公開的秘密

就像當(dāng)年手機(jī)廠商流行跑分打榜，現(xiàn)在的大模型廠商，也熱衷于沖上各種榜單。

大模型相關(guān)的榜單很多，學(xué)術(shù)圈、產(chǎn)業(yè)界、媒體智庫(kù)、開源社區(qū)，都在今年推出了各種各樣的評(píng)測(cè)榜單。這其中，國(guó)內(nèi)廠商常常引用的是SuperCLUE和C-Eval，這倆都由國(guó)人自己推出。

5月6日科大訊飛發(fā)布星火認(rèn)知大模型，三天后SuperCLUE發(fā)布榜單，星火排在國(guó)產(chǎn)*；6月13日360集團(tuán)發(fā)布360智腦大模型，六天后SuperCLUE更新榜單，360成了*。

再后來(lái)的7月、8月、9月、10月榜單，拿下國(guó)產(chǎn)*的分別是百度、百川智能、商湯、vivo?！暗琼敗薄皧Z冠”“國(guó)內(nèi)*”，出現(xiàn)在這些廠商的宣傳中。

當(dāng)時(shí)，SuperCLUE只用了幾百道題進(jìn)行測(cè)試，被人質(zhì)疑不夠客觀。而在國(guó)外，早就有一個(gè)叫做SuperGLUE的權(quán)威榜單，二者名稱相似度極高，讓人傻傻分不清楚。后來(lái)，SuperCLUE對(duì)測(cè)評(píng)標(biāo)準(zhǔn)和題目數(shù)量進(jìn)行了完善，日漸成為國(guó)內(nèi)知名度較高的測(cè)評(píng)榜。

大模型測(cè)評(píng)領(lǐng)域的業(yè)內(nèi)人士趙小躍對(duì)「定焦」說(shuō)，一些測(cè)評(píng)機(jī)構(gòu)有題庫(kù)，用接入各家廠商API的方式來(lái)測(cè)試，但其實(shí)測(cè)一遍之后，廠商就知道測(cè)過(guò)什么題，除非下輪測(cè)試換題，否則廠商可以用定向爆破的方式得高分。

在他看來(lái)，一套題只要測(cè)過(guò)一家模型，題目就廢了，因?yàn)槟Ｐ涂梢酝ㄟ^(guò)API獲取題目，題目的可重復(fù)性為零。這是模型評(píng)測(cè)最有挑戰(zhàn)的一件事情。

C-Eval榜單剛推出時(shí)，業(yè)內(nèi)是認(rèn)可的。它由上海交通大學(xué)、清華大學(xué)、愛(ài)丁堡大學(xué)共同完成，有13948道題目。

但很快，大家就發(fā)現(xiàn)，一些原本知名度不高的大模型，突然沖到了榜首，甚至把GPT4踩在腳下使勁摩擦。

在9月初的榜單中，云天勵(lì)飛大模型總分排*，360排第八，GPT4居然排第十。再后來(lái)，拿過(guò)榜單*的還有度小滿金融大模型、作業(yè)幫銀河大模型，業(yè)內(nèi)公認(rèn)最強(qiáng)的GPT4被它們無(wú)情甩在了身后。

成績(jī)墊底，到底是GPT錯(cuò)了還是榜錯(cuò)了？

顯然，榜單有問(wèn)題，因?yàn)樗庥隽恕安唤】档乃瘛薄?/p>

這三種方法，前兩種可以視為間接作弊，第三種相當(dāng)于直接作弊。

大模型從業(yè)者李健對(duì)「定焦」說(shuō)，間接作弊，就是知道考試大概的類型，然后花較多精力把可能的題目都找出來(lái)或叫專業(yè)的人造出來(lái)，答案也給出來(lái)，用這樣的數(shù)據(jù)訓(xùn)練模型。

他指出，業(yè)內(nèi)現(xiàn)在常用的手段是，讓GPT4來(lái)“造答案”，然后得到訓(xùn)練數(shù)據(jù)。

李健分析，直接作弊，就是知道考試題目，然后稍微改改，得到新的很多份題目，之后直接拿來(lái)訓(xùn)練模型。

“在清楚榜單任務(wù)的情況下，很多類型的任務(wù)，很容易刷榜?！彼f(shuō)。

這樣得到的分?jǐn)?shù)是沒(méi)有意義的。“直接作弊基本對(duì)提升模型的泛化能力沒(méi)用，間接作弊有點(diǎn)像做題家，對(duì)提升學(xué)生真實(shí)的素質(zhì)弊大于利?！?/p>

為了讓“用戶謹(jǐn)慎看待以下榜單”，C-Eval團(tuán)隊(duì)不得不將榜單拆分成兩個(gè)，一個(gè)是模型已公開的，一個(gè)是未公開的。結(jié)果，那些得分高的基本全是未公開的大模型。而這些模型的真實(shí)表現(xiàn)，人們是無(wú)法體驗(yàn)的。

復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院教授邱錫鵬說(shuō)，C-Eval本身質(zhì)量還挺高，但被刷榜后導(dǎo)致學(xué)術(shù)價(jià)值不大了?，F(xiàn)在很多企業(yè)去刷榜，但又不公開數(shù)據(jù)，也不具體說(shuō)怎么做，這是一種不公平的競(jìng)爭(zhēng)。

多位大模型從業(yè)者對(duì)「定焦」說(shuō)，刷榜在大模型行業(yè)很常見。

躍盟科技創(chuàng)始人王冉對(duì)「定焦」打了一個(gè)比方:“先射完箭再畫靶子”。他認(rèn)為今天的某些測(cè)評(píng)手段，是有一些大模型公司為了表現(xiàn)自己牛而專門設(shè)計(jì)的。

盛景嘉成董事總經(jīng)理劉迪認(rèn)為，有答案或者評(píng)分標(biāo)準(zhǔn)，就有人能鉆空子。單靠數(shù)據(jù)集和問(wèn)題集的評(píng)判方式，很難評(píng)出大模型在應(yīng)用層面的好壞。

“一個(gè)丹一個(gè)煉法，哪個(gè)對(duì)癥還得吃下去看。”他對(duì)「定焦」說(shuō)。

2、考試拿*，不是好學(xué)生？

大模型評(píng)測(cè)，作為評(píng)估大模型綜合實(shí)力的一個(gè)手段，還有參考價(jià)值嗎？

趙小躍認(rèn)為，在核心的通用能力上，比如語(yǔ)言理解、邏輯推理等，學(xué)術(shù)數(shù)據(jù)集的榜單測(cè)評(píng)能反映七八成。這其中*的問(wèn)題是，開源的榜單結(jié)果跟大家用大語(yǔ)言模型的場(chǎng)景之間有鴻溝。

“測(cè)評(píng)只能反映模型某一部分的能力，大家其實(shí)都是從不同的維度盲人摸象，很難知道它的能力邊界在哪里。”他說(shuō)。

對(duì)于大語(yǔ)言模型，首先在語(yǔ)言上，分為英文和中文兩大語(yǔ)種。國(guó)外大模型的訓(xùn)練語(yǔ)料以英文為主，所以英文很強(qiáng)，但中文不一定比國(guó)內(nèi)大模型強(qiáng)。這也是為什么國(guó)內(nèi)很多大模型，都在“超越ChatGPT”之前加一個(gè)“中文能力”的定語(yǔ)。

其次在考察科目上，評(píng)測(cè)數(shù)據(jù)集通常會(huì)設(shè)置很多個(gè)方面，從百科知識(shí)到角色扮演，從上下文對(duì)話到閑聊。但這些能力只能單一評(píng)價(jià)，然后得分加總。

這跟評(píng)價(jià)一個(gè)人很像。任何一道考卷，都只能測(cè)試出這個(gè)人某方面的能力。即便是全套試卷的成績(jī)，也不等同于這個(gè)人的能力。就像ChatGPT的榜單排名不一定能比過(guò)國(guó)內(nèi)的一些大模型，但使用體驗(yàn)上就是更好。

王冉認(rèn)為，如果將大模型比作一個(gè)人的大腦，如何評(píng)測(cè)一個(gè)人的大腦好用，如果只給他做題，其實(shí)是充滿偏見的。“大模型的測(cè)評(píng)不應(yīng)該用考試來(lái)做，而應(yīng)該用應(yīng)用來(lái)做?！?/p>

人工智能公司開放傳神創(chuàng)始人、CEO陳冉認(rèn)為，通用性的評(píng)測(cè)，看綜合得分，沒(méi)有一個(gè)大模型超過(guò)GPT4，但是在特定領(lǐng)域，可能有些指標(biāo)GPT4得分不一定高。

問(wèn)題在于，有些廠商拿特定領(lǐng)域的得分，去宣傳整體超過(guò)了GPT4。“這就是以偏概全，我覺(jué)得有些廠商在對(duì)外宣傳時(shí)，還是要對(duì)生態(tài)公司給到正確的指引，具體哪個(gè)指標(biāo)在哪個(gè)領(lǐng)域得分高，要說(shuō)清楚?！彼麑?duì)「定焦」表示。

而一旦測(cè)評(píng)成績(jī)進(jìn)入排名賽，有了功利的成分，有些廠商就會(huì)有刷榜的動(dòng)機(jī)?！皬乃竦慕嵌龋惶鼙ＷC中小廠不會(huì)把這部分?jǐn)?shù)據(jù)拿去訓(xùn)練，這是大家對(duì)公開數(shù)據(jù)集*的顧慮?！壁w小躍說(shuō)。

綜合多位業(yè)內(nèi)人士的觀點(diǎn)，目前國(guó)內(nèi)還沒(méi)有一個(gè)特別好的數(shù)據(jù)集，能綜合反映大模型的能力，各方都在探索。

李健在今年做了“CLiB中文大模型能力評(píng)測(cè)榜單”，為了避免泄題，他盡量參考業(yè)界好的方案，自己出題?！爸饕菢I(yè)界和學(xué)術(shù)界的榜單，不太讓人滿意，公開程度不高，都是各說(shuō)各話?！?/p>

還有一些非商業(yè)性質(zhì)的機(jī)構(gòu)相信，測(cè)評(píng)榜單*的意義在于，從模型演化的角度，能夠幫助廠商監(jiān)控模型生產(chǎn)過(guò)程中能力的變化，糾正訓(xùn)練模型的方法，有針對(duì)性提高模型能力。

比如OpenCompass，它是Meta官方推薦的開源大模型評(píng)測(cè)框架，利用分布式技術(shù)支持上百個(gè)數(shù)據(jù)集的評(píng)測(cè)，提供了大模型評(píng)測(cè)的所有技術(shù)細(xì)節(jié)，同時(shí)給大家提供了統(tǒng)一的測(cè)試基準(zhǔn)，方便各家模型在公平公正的情況下開展對(duì)比。

3、開源:先賺吆喝再賺錢

對(duì)大模型做出全面評(píng)價(jià)是困難的。除了打榜的方式，有一些廠商通過(guò)開源，獲得了巨大的關(guān)注。

開源是一種經(jīng)營(yíng)策略，需要對(duì)自家產(chǎn)品足夠自信。相比之下，敢于放開注冊(cè)讓公眾體驗(yàn)的閉源大模型，要比那些無(wú)法體驗(yàn)的強(qiáng)，開源大模型則又往前邁了一步。

*個(gè)被大范圍使用、好評(píng)度最高的開源大語(yǔ)言模型，是由Meta在今年2月推出的Llama。當(dāng)時(shí)全球科技公司都盯著OpenAI，試圖追趕閉源的ChatGPT。但開源讓Meta坐上了牌桌，吸引了大量開發(fā)者，一時(shí)名聲大噪。

國(guó)內(nèi)公司很快跟上，搶抓*波關(guān)注度。智譜AI、智源研究院、百川智能，是動(dòng)作最快的三家。

在Llama開源之后，號(hào)稱全面對(duì)標(biāo)OpenAI、有著清華背景的智譜AI，迅速在國(guó)內(nèi)*個(gè)開源了自己的大模型ChatGLM-6B。這個(gè)時(shí)間點(diǎn)非常早，當(dāng)時(shí)國(guó)內(nèi)廠商的大模型都還沒(méi)發(fā)布，百度文心一言兩天后才推出，而王小川的百川智能公司還沒(méi)成立。

三個(gè)月后的6月9日，跟智譜AI有著很深淵源的智源研究院，宣布開源“悟道·天鷹”Aquila。它比智譜AI更進(jìn)一步——可商用，于是拿下“國(guó)內(nèi)*開源可商用語(yǔ)言大模型”的頭銜。

是否支持商用，是判斷模型能力的一個(gè)關(guān)鍵指標(biāo)。GPT 3.5的水平，通常被認(rèn)為是大模型商用的標(biāo)準(zhǔn)線。不過(guò)，智源是一個(gè)非營(yíng)利機(jī)構(gòu)，它更多的用意是為公用發(fā)展提供技術(shù)支持。

智源主動(dòng)開源之后，開源大模型的軍備競(jìng)賽正式打響。

這其中值得一提的是百川智能。作為一家今年4月才成立的初創(chuàng)公司，百川獲得的關(guān)注度甚至超過(guò)很多互聯(lián)網(wǎng)大廠。

從時(shí)間上來(lái)看，百川是智源之后*家開源的創(chuàng)業(yè)公司，且*個(gè)宣布可免費(fèi)商用。它開源不可商用的版本時(shí)，比智譜AI早九天；后來(lái)開源免費(fèi)可商用的版本時(shí)，又比智譜AI早三天。

時(shí)間點(diǎn)很重要。當(dāng)時(shí)Llama1只被允許用作研究，但市場(chǎng)有傳聞可商用的Llama 2即將開源。百川不僅搶在Llama 2之前，還卡在智譜AI之前宣布了免費(fèi)可商用，贏得了巨大的關(guān)注度，一周之內(nèi)下載量破百萬(wàn)。

趙小躍認(rèn)為，百川在那個(gè)時(shí)間發(fā)布一個(gè)開源模型，作為自己的*槍，是一個(gè)很對(duì)的決策?！百嵙艘徊ㄟ汉??！?/p>

支持商用的Llama 2比百川和智譜AI晚了一周，即便如此，它還是在全球引發(fā)巨震。在同等參數(shù)規(guī)模下，Llama 2能力超過(guò)所有的開源大模型，是目前全球公認(rèn)的開源大模型的代表。

因?yàn)長(zhǎng)lama的帶動(dòng)，國(guó)內(nèi)廠商踩上了開源熱潮的風(fēng)口。它們急著秀肌肉，爭(zhēng)奪大眾注意力。但從技術(shù)角度，尚不能說(shuō)明它們就跑在了前面。

有觀點(diǎn)認(rèn)為，開源模型雖多，但大多數(shù)都是從Llama派生出來(lái)。簡(jiǎn)單來(lái)說(shuō)，就是用了Llama作為基模型，然后選用其它不同的訓(xùn)練方法微調(diào)。因?yàn)長(zhǎng)lama原生在中文方面相對(duì)較弱，給了國(guó)產(chǎn)開源大模型宣傳的發(fā)力點(diǎn)。

6月中旬百川開源*版Baichuan-7B時(shí)，公司只成立剛兩個(gè)月。當(dāng)時(shí)有人質(zhì)疑其模型架構(gòu)跟Llama很相似?！敖柚呀?jīng)開源的技術(shù)和方案，百川是站在了巨人的肩膀上?！币晃淮竽Ｐ蛣?chuàng)業(yè)者評(píng)價(jià)。

本質(zhì)上，開源也是一種商業(yè)模式。賺完吆喝后，廠商的目的還是賺錢。

陳冉向「定焦」舉了個(gè)例子，開源就像一些化妝品品牌推出試用裝，免費(fèi)給用戶用，但不會(huì)透露配方和成分。用戶試用完如果覺(jué)得好想繼續(xù)用，就得付費(fèi)買商業(yè)版。另外它可能透露配方，如果有廠商想基于這個(gè)配方去創(chuàng)造一個(gè)新的產(chǎn)品，就需要交授權(quán)費(fèi)。

百川在9月下旬推出了兩款閉源大模型，API接口對(duì)外開放，進(jìn)入ToB領(lǐng)域，開啟商業(yè)化進(jìn)程。

“它已經(jīng)通過(guò)開源賺了一波吆喝，接下來(lái)一定會(huì)推閉源大模型做商業(yè)化，它*進(jìn)的模型是一定不會(huì)開源的。”趙小躍說(shuō)。

4、大家都沒(méi)有護(hù)城河？

“百模大戰(zhàn)”發(fā)展到今天，各家廠商通過(guò)各種方式博取關(guān)注度，那么誰(shuí)做到了真正的*？

趙小躍認(rèn)為，從主觀感受層面來(lái)看，國(guó)內(nèi)的大模型，無(wú)論是開源還是閉源，本質(zhì)上沒(méi)有核心的技術(shù)代差。因?yàn)闊o(wú)論是模型大小，還是數(shù)據(jù)質(zhì)量，大家都沒(méi)有飛躍式的突破?！霸贕PT3.5的指引下，國(guó)內(nèi)廠商只要模型容量達(dá)到一定地步，再配合一批高質(zhì)量數(shù)據(jù)，大家都不會(huì)太差?！?/p>

但跟GPT4相比，技術(shù)代差是存在的?！耙?yàn)殚]源，大家不知道GPT4背后真正的技術(shù)方案是什么，如何把這么大的模型用專家結(jié)構(gòu)訓(xùn)練出來(lái)，目前大家還都在探索。”

在陳冉看來(lái)，國(guó)內(nèi)的大語(yǔ)言模型完全原創(chuàng)的較少，有些是在transformer架構(gòu)上做了一個(gè)整體調(diào)優(yōu)，本質(zhì)是在算子上做了調(diào)優(yōu)，而沒(méi)有本質(zhì)上的改變。還有一些走開源路線的廠商，更多是在中文方面深入研究。

大家都有自己的大模型，但本質(zhì)上沒(méi)有顯著的區(qū)別，這就是當(dāng)前國(guó)內(nèi)大模型行業(yè)的特點(diǎn)。

某種程度上，這是由行業(yè)階段決定的。國(guó)內(nèi)的互聯(lián)網(wǎng)大廠、創(chuàng)業(yè)公司、高?？蒲袡C(jī)構(gòu)，真正開始投入大量人力物力做大模型，也就在今年。行業(yè)的技術(shù)路線也還在摸索中，沒(méi)有哪家公司建立起護(hù)城河。

相比純技術(shù)實(shí)力方面的比拼，算力和數(shù)據(jù)層面的比拼更能出效果。

“大家更多的精力是花在數(shù)據(jù)和語(yǔ)料上，誰(shuí)能花錢獲得高質(zhì)量的語(yǔ)料，同時(shí)有足夠的算力，誰(shuí)就能訓(xùn)練出一個(gè)相對(duì)好一點(diǎn)的模型?！标惾秸f(shuō)。

開源讓局面變得更加不可控。去年底ChatGPT亮相后，全球冒出來(lái)上百個(gè)大模型，但今年Meta開源Llama 2之后，很多模型還沒(méi)有投入市場(chǎng)就已經(jīng)過(guò)時(shí)。就連谷歌的工程師都在內(nèi)部直言稱，谷歌和OpenAI都沒(méi)有護(hù)城河。

大模型更新迭代太快了?！敖裉炷阃瞥鲆粋€(gè)大模型，花錢打了榜，有很多人用，可能明天就有個(gè)新的模型迅速替代掉。”陳冉說(shuō)。

多位業(yè)內(nèi)人士對(duì)「定焦」表示，大模型之間真正顯著的區(qū)別，會(huì)在具體的用戶場(chǎng)景或B端的業(yè)務(wù)中體現(xiàn)。

“現(xiàn)實(shí)世界里我們?cè)u(píng)價(jià)某個(gè)人是專家，是因?yàn)樗谔囟I(lǐng)域很厲害。大模型也一樣，要在領(lǐng)域里建立共識(shí)，專業(yè)性一定要放到具體的場(chǎng)景里去體現(xiàn)?！蓖跞秸f(shuō)。

核心的通用能力是基礎(chǔ)，廠商會(huì)根據(jù)自己所在的領(lǐng)域，差異化發(fā)展?！氨热缥覀兏t(yī)院和律所接觸，他們其實(shí)更關(guān)心的是醫(yī)療或法律方面的能力?！壁w小躍說(shuō)。

對(duì)于互聯(lián)網(wǎng)巨頭而言，需要考量的因素相對(duì)更多。

除了要對(duì)外“接單”，巨頭們已經(jīng)開始在內(nèi)部進(jìn)行大模型的應(yīng)用端部署。比如騰訊的廣告、游戲、社交、會(huì)議等業(yè)務(wù)，接入了混元大模型，百度搜索、文庫(kù)、百家號(hào)等產(chǎn)品早已接入文心大模型，阿里把AI作為各大業(yè)務(wù)板塊的驅(qū)動(dòng)力。

大模型對(duì)巨頭內(nèi)部的正面影響究竟有多大，會(huì)更難量化評(píng)估。

綜合來(lái)看，國(guó)內(nèi)大模型還處在起跑的混沌階段，一切都在快速變化中。做出一個(gè)大模型的技術(shù)壁壘不高，但要做好并真的解決問(wèn)題，還有很長(zhǎng)的路要走。

來(lái)源: 投資界編輯: 燕夢(mèng)蝶

鄭重聲明：此文內(nèi)容為本網(wǎng)站轉(zhuǎn)載企業(yè)宣傳資訊，目的在于傳播更多信息，與本站立場(chǎng)無(wú)關(guān)。僅供讀者參考，并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。

熱點(diǎn)資訊