,中文通用大模型綜合性評(píng)測(cè)基準(zhǔn)SuperCLUE正式發(fā)布。
中文通用大模型基準(zhǔn),是針對(duì)中文可用的通用大模型的一個(gè)測(cè)評(píng)基準(zhǔn),它嘗試在一系列國內(nèi)外代表性的模型上使用多個(gè)維度能力進(jìn)行測(cè)試。
它主要回答的問題是:在當(dāng)前通用大模型大力發(fā)展的情況下,中文大模型的效果情況。包括但不限于:這些模型不同任務(wù)的效果情況、相較于國際上的代表性模型做到了什么程度、 這些模型與人類的效果對(duì)比如何?
根據(jù)首個(gè)榜單顯示,國內(nèi)大模型中,近期發(fā)布的星火認(rèn)知大模型最好,總分53.58分,與GPT-4相比有23個(gè)百分點(diǎn)的差距,與gpt-3.5-turbo在總分上有13個(gè)百分點(diǎn)的差距。
值得一提的是,訊飛星火認(rèn)知大模型在對(duì)話、百科知識(shí)、角色模擬、計(jì)算能力、語義理解、邏輯推理方面,已經(jīng)達(dá)到GPT 3.5平齊的水準(zhǔn)。
在語義理解方面,訊飛星火認(rèn)知大模型甚至得到100分的滿分,超過GPT-4。
據(jù)了解,SuperCLUE評(píng)測(cè)榜單由三部分組成:總榜單、基礎(chǔ)能力榜單、中文特性榜單,排行榜會(huì)定期更新,可點(diǎn)此訪問.
基礎(chǔ)能力:包括了常見的有代表性的模型能力,如語義理解、對(duì)話、邏輯推理、角色模擬、代碼、生成與創(chuàng)作等10項(xiàng)能力。
專業(yè)能力:包括了中學(xué)、大學(xué)與專業(yè)考試,涵蓋了從數(shù)學(xué)、物理、地理到社會(huì)科學(xué)等50多項(xiàng)能力。
中文特性能力:針對(duì)有中文特點(diǎn)的任務(wù),包括了中文成語、詩歌、文學(xué)、字形等10項(xiàng)多種能力。
總榜單
鄭重聲明:此文內(nèi)容為本網(wǎng)站轉(zhuǎn)載企業(yè)宣傳資訊,目的在于傳播更多信息,與本站立場(chǎng)無關(guān)。僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。