中文通用大模型評(píng)測(cè)基準(zhǔn)SuperCLUE發(fā)布：GPT居首、訊飛星火國內(nèi)第

時(shí)間：2023-05-11 14:29 閱讀量：14121

，中文通用大模型綜合性評(píng)測(cè)基準(zhǔn)SuperCLUE正式發(fā)布。

中文通用大模型基準(zhǔn)，是針對(duì)中文可用的通用大模型的一個(gè)測(cè)評(píng)基準(zhǔn)，它嘗試在一系列國內(nèi)外代表性的模型上使用多個(gè)維度能力進(jìn)行測(cè)試。

它主要回答的問題是:在當(dāng)前通用大模型大力發(fā)展的情況下，中文大模型的效果情況。包括但不限于:這些模型不同任務(wù)的效果情況、相較于國際上的代表性模型做到了什么程度、這些模型與人類的效果對(duì)比如何？

根據(jù)首個(gè)榜單顯示，國內(nèi)大模型中，近期發(fā)布的星火認(rèn)知大模型最好，總分53.58分，與GPT-4相比有23個(gè)百分點(diǎn)的差距，與gpt-3.5-turbo在總分上有13個(gè)百分點(diǎn)的差距。

值得一提的是，訊飛星火認(rèn)知大模型在對(duì)話、百科知識(shí)、角色模擬、計(jì)算能力、語義理解、邏輯推理方面，已經(jīng)達(dá)到GPT 3.5平齊的水準(zhǔn)。

在語義理解方面，訊飛星火認(rèn)知大模型甚至得到100分的滿分，超過GPT-4。

據(jù)了解，SuperCLUE評(píng)測(cè)榜單由三部分組成:總榜單、基礎(chǔ)能力榜單、中文特性榜單，排行榜會(huì)定期更新，可點(diǎn)此訪問.

基礎(chǔ)能力:包括了常見的有代表性的模型能力，如語義理解、對(duì)話、邏輯推理、角色模擬、代碼、生成與創(chuàng)作等10項(xiàng)能力。

專業(yè)能力:包括了中學(xué)、大學(xué)與專業(yè)考試，涵蓋了從數(shù)學(xué)、物理、地理到社會(huì)科學(xué)等50多項(xiàng)能力。

中文特性能力:針對(duì)有中文特點(diǎn)的任務(wù)，包括了中文成語、詩歌、文學(xué)、字形等10項(xiàng)多種能力。

總榜單

來源: TechWeb 編輯: 柳暮雪

鄭重聲明：此文內(nèi)容為本網(wǎng)站轉(zhuǎn)載企業(yè)宣傳資訊，目的在于傳播更多信息，與本站立場(chǎng)無關(guān)。僅供讀者參考，并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。

熱點(diǎn)資訊

欧美精品一区二区三区_孕妇孕妇aaaaa级真人片视频_在线观看亚洲免费视频_日本亚州视频在线八a