精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>

<abbr id="ixlwe"></abbr>

<form id="tmxqh"><s id="tmxqh"></s></form>

<samp id="tmxqh"></samp>

<sub id="tmxqh"><tr id="tmxqh"><ol id="tmxqh"></ol></tr></sub>

直播
榜單
7x24h快訊

極客網(wǎng) > 友鏈區(qū) >

甲骨易AI研究院推出中文大語言模型評測集合-LucyEval，讓智能有跡可循！

人閱讀
2023-08-31 11:01:50
來源：電子工程網(wǎng)

夕小瑤科技說分享
Lucy，是距今320萬年最早的人類祖先，也是被輸入某種“物質(zhì)”后大腦開發(fā)到100%的超智能人類，能感知宇宙萬物，擁有人類所有知識。如果大模型是Lucy，那么LucyEval即是助力其更智能的奇妙”物質(zhì)“。

隨著大語言模型不斷調(diào)優(yōu)，大模型擁有了更優(yōu)越的理解人類話語、指令并且生成類似人類語言文本的能力。機器和人類終歸不同，如何最快速地判斷機器是否能正確理解人類的知識和語言，成為我們共同關(guān)注的問題。

由此，甲骨易AI研究院推出了中文大語言模型成熟度評測——LucyEval，能夠通過對模型各方面能力的客觀測試，找到模型的不足，幫助設(shè)計者和工程師更加精準(zhǔn)地調(diào)整、訓(xùn)練模型，助力大模型不斷邁向更智能的未來。

Lucy的每一個字母背后都代表了不同的意義，包含著甲骨易AI研究院設(shè)計LucyEval時所考量的維度和堅持的理念。

L - Linguistic Fundamentals: 基礎(chǔ)理解能力
U - Utilization of Knowledge: 知識運用能力
C - Cognitive Reasoning: 推理能力
Y - Yield of Specialized Outputs: 特殊生成能力

"Lucy" 包含以下含義：

Linguistic Fundamentals (基礎(chǔ)理解能力) ：描述模型對基礎(chǔ)語法、詞匯和句子結(jié)構(gòu)的理解程度

Utilization of Knowledge (知識運用能力)：衡量模型在回答問題或生成文本時如何運用其內(nèi)嵌的知識。

Cognitive Reasoning (推理能力)：評價模型是否能從給定的信息中進行邏輯推斷或解決復(fù)雜問題。

Yield of Specialized Outputs (特殊生成能力）：測試模型在生成特定類型或風(fēng)格的文本（例如詩歌、代碼或?qū)I(yè)文章）時的效能。

目前，LucyEval已發(fā)布如下兩項測試集。

大規(guī)模多任務(wù)中文理解能力測試 Massive Multitask Chinese Understanding

2023年4月25日，針對中文大模型理解能力測試缺失且推出高質(zhì)量中文評測數(shù)據(jù)集迫在眉睫這一現(xiàn)狀，甲骨易AI研究院率先發(fā)布（首發(fā)）了一套大規(guī)模多任務(wù)中文大模型理解能力測試。
測試所包含的題目來自醫(yī)療、法律、心理學(xué)和教育四個科目的11900個問題，包含單項選擇和多項選擇題，目的旨在使測試過程中模型更接近人類考試的方式，覆蓋學(xué)科面廣，專業(yè)知識難度高，適合用來評估大模型的綜合理解能力。

論文鏈接：
https://arxiv.org/abs/2304.12986

中文大模型多學(xué)科生成能力自動化評測基準(zhǔn) Chinese Generation Evaluation

目前領(lǐng)域內(nèi)的評測大多都只針對模型的中文理解能力，通過選擇題由模型直接生成答案，或者提取模型對各個答案選項的輸出概率。從評測大模型的生成能力的角度，這些評測基準(zhǔn)就存在很大的局限性。

在率先發(fā)布國內(nèi)首個中文大模型理解能力測試后，甲骨易AI研究院于8月9日正式發(fā)布一套自動測評中文大模型多學(xué)科生成能力的評測基準(zhǔn)。

基準(zhǔn)包含11000道題目，涵蓋科技工程、人文與社會科學(xué)、數(shù)學(xué)計算、醫(yī)師資格考試、司法考試、注冊會計師考試等科目下的55個子科目。題型分為名詞解釋、簡答題和計算題三種類型。同時，甲骨易AI研究院還設(shè)計了一套復(fù)合打分方式Gscore，使評分過程更加合理、科學(xué)。

甲骨易AI研究院使用本評測基準(zhǔn)對以下模型進行了zero-shot測試，包括GPT-4、ChatGLM-Std、訊飛星火Spark Desk、文心一言ERNIE Bot等。

本次受測中文大語言模型

從所有模型在六大類科目的平均分來看，GPT-4取得最高分41.12，比最低分32.28高出8.84分。

本次受測中文大語言模型平均得分

受測模型在其他學(xué)科的表現(xiàn)詳見評測地址：

http://lucyeval.besteasy.com/

未來，甲骨易AI研究院將矢志不移地為提升中文大語言模型能力為目標(biāo)，持續(xù)研究適應(yīng)其發(fā)展的測試集，期待與同樣關(guān)注大語言模型發(fā)展的業(yè)界同仁攜手共建。

論文鏈接：
https://arxiv.org/abs/2308.04823

更多AI相關(guān)資訊，請關(guān)注微信公眾號：甲骨易

極客網(wǎng)企業(yè)會員

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時，應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

下一篇

阿斯麥訂單“腰斬”股價暴跌16%，半導(dǎo)體產(chǎn)業(yè)寒冬來了？

阿斯麥訂單腰斬阿斯麥訂單阿斯麥股價暴跌

極客觀察

專題報道

企業(yè)專欄

簡版
原版
投稿
回頂部

2023-08-31

甲骨易AI研究院推出中文大語言模型評測集合-LucyEval，讓智能有跡可循！

夕小瑤科技說分享Lucy，是距今320萬年最早的人類祖先，也是被輸入某種“物質(zhì)”后大腦開發(fā)到100%的超智能人類，能感知宇宙萬物，擁有人類所有知識。如果大模型是Lucy，那么LucyEval即是助力其更智能的奇妙”物質(zhì)“。隨著大語言模型不斷調(diào)優(yōu)，大模型擁有了更優(yōu)越的理解人類話語、指令...

長按掃碼閱讀全文

<table id="wfodq"></table><small id="wfodq"><optgroup id="wfodq"></optgroup></small>

<samp id="wfodq"><label id="wfodq"><ol id="wfodq"></ol></label></samp>