精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>

<abbr id="ixlwe"></abbr>

<strike id="btmqc"><label id="btmqc"></label></strike>

<font id="btmqc"></font>

直播
榜單
7x24h快訊

極客網(wǎng) > 友鏈區(qū) >

甲骨易AI研究院預(yù)發(fā)布“超越”(MMCU)中文通用大語(yǔ)言模型測(cè)試集

人閱讀
2023-05-12 14:18:28
來(lái)源：電子工程網(wǎng)
相關(guān)關(guān)鍵詞

近期，中文大語(yǔ)言模型蓬勃發(fā)展，但卻一直沒(méi)有出現(xiàn)可應(yīng)用于評(píng)測(cè)大模型能力的測(cè)試。甲骨易AI研究院提出一種衡量中文大模型處理多任務(wù)準(zhǔn)確度的測(cè)試，并在此基礎(chǔ)上制作了一套適配測(cè)試中文大模型的數(shù)據(jù)集，并將其命名為“超越”。

數(shù)據(jù)集的測(cè)試內(nèi)容涵蓋四大領(lǐng)域：醫(yī)療、法律、心理學(xué)和教育。通過(guò)綜合評(píng)估模型在多個(gè)學(xué)科上的知識(shí)廣度和深度，能夠幫助研究者更精準(zhǔn)地找出模型的缺陷，并對(duì)模型的能力進(jìn)行打分。

簡(jiǎn)介

自ChatGPT發(fā)布以來(lái)，大語(yǔ)言模型(LLMs)保持著在計(jì)算機(jī)科學(xué)技術(shù)與自然語(yǔ)言處理領(lǐng)域的熱度，并且仍不斷升溫。ChatGLM、 MOSS、文心一言、通義千問(wèn)、商量、星火等眾多具備中文能力的大模型也接連發(fā)布。這些模型有著龐大的數(shù)據(jù)規(guī)模，通過(guò)廣泛的預(yù)訓(xùn)練以達(dá)到能夠正確理解人類話語(yǔ)和指令并生成類似人類語(yǔ)言的文本的能力。

目前，針對(duì)英文大語(yǔ)言模型已經(jīng)有較為完善的評(píng)測(cè)方式，如2021年由Dan Hendrycks等人發(fā)布的MMLU。然而，針對(duì)中文大語(yǔ)言模型能力的測(cè)試仍然缺失，推出高質(zhì)量中文評(píng)測(cè)數(shù)據(jù)集已經(jīng)迫在眉睫。

于是，甲骨易AI研究院制作了一個(gè)大規(guī)模的多任務(wù)測(cè)試數(shù)據(jù)集——“超越”(Massive Multitask Chinese Understanding)?！俺健钡囊饬x是希望中文大語(yǔ)言模型“超”出多數(shù)模型只能基于英文數(shù)據(jù)集測(cè)試的現(xiàn)狀，通過(guò)發(fā)現(xiàn)大模型的缺陷，從而促進(jìn)大模型理解中文語(yǔ)言的能力，使其“越”來(lái)越強(qiáng)大。

“超越”所包含的題目由來(lái)自不同知識(shí)分支的單項(xiàng)和多項(xiàng)選擇題組成。數(shù)據(jù)集中的問(wèn)題是由專業(yè)人員從公開(kāi)免費(fèi)資源中收集，覆蓋學(xué)科面廣，專業(yè)知識(shí)難度高，適合用來(lái)評(píng)估大模型的綜合能力。

為了測(cè)試數(shù)據(jù)集的可行性和效果，甲骨易AI研究院在正式公開(kāi)前已經(jīng)使用其對(duì)目前開(kāi)源的大模型進(jìn)行了評(píng)測(cè)?！俺健睌?shù)據(jù)集預(yù)計(jì)于2023年5月20日正式公開(kāi)發(fā)布獲取方式，具體發(fā)布相關(guān)信息詳見(jiàn)文末。

接下來(lái)，將對(duì)“超越”數(shù)據(jù)集(MMCU)中所收錄的題目進(jìn)行介紹，并基于測(cè)試結(jié)果分析數(shù)據(jù)在語(yǔ)言模型訓(xùn)練過(guò)程中的重要性。

多任務(wù)測(cè)試

“超越”數(shù)據(jù)集(MMCU)的測(cè)試內(nèi)容來(lái)自醫(yī)療、法律、心理學(xué)和教育四個(gè)大類的題目，包含單項(xiàng)選擇和多項(xiàng)選擇題，目的旨在使測(cè)試過(guò)程中模型更接近人類考試的方式。

數(shù)據(jù)集共收集了11900個(gè)問(wèn)題，將其分成 few-shot開(kāi)發(fā)集和一個(gè)測(cè)試集。few-shot開(kāi)發(fā)集每個(gè)主題有5個(gè)問(wèn)題，共有55個(gè)問(wèn)題；測(cè)試集共有11845個(gè)問(wèn)題。

下面分別對(duì)不同領(lǐng)域測(cè)試題目的學(xué)科和子任務(wù)示例進(jìn)行展示。

醫(yī)療

醫(yī)療類題目來(lái)自大學(xué)醫(yī)學(xué)專業(yè)考試，包括醫(yī)學(xué)三基、藥理學(xué)、護(hù)理學(xué)、病理學(xué)、臨床醫(yī)學(xué)、傳染病學(xué)、外科學(xué)、解剖學(xué)等，共有2819個(gè)問(wèn)題。

示例：

首次急性發(fā)作的腰椎間盤(pán)突出的治療方法首選：

A. 絕對(duì)臥床休息，3 周后戴腰圍下床活動(dòng)

B. 臥床休息，可以站立坐起

C. 皮質(zhì)類固醇硬膜外注射

D. 髓核化學(xué)溶解

法律

法律類題目來(lái)自國(guó)家統(tǒng)一法律職業(yè)資格考試，包括中國(guó)特色社會(huì)主義法治理論、憲法、中國(guó)法律史、國(guó)際法、刑法、民法、知識(shí)產(chǎn)權(quán)法、商法、經(jīng)濟(jì)法、勞動(dòng)與社會(huì)保障法等，共有3695個(gè)問(wèn)題。

示例：

根據(jù)法律規(guī)定，下列哪一種社會(huì)關(guān)系應(yīng)由民法調(diào)整？

A. 甲請(qǐng)求稅務(wù)機(jī)關(guān)退還其多繳的個(gè)人所得稅

B. 乙手機(jī)丟失后發(fā)布尋物啟事稱：“拾得者送還手機(jī)，本人當(dāng)面酬謝”

C. 丙對(duì)女友書(shū)面承諾：“如我在上海找到工作，則陪你去歐洲旅游”

D. 丁作為青年志愿者，定期去福利院做幫工

心理學(xué)

心理學(xué)類題目來(lái)自心理咨詢師考試和研究生入學(xué)考試心理學(xué)專業(yè)基礎(chǔ)綜合考試，包括心理學(xué)概論、人格與社會(huì)心理學(xué)、發(fā)展心理學(xué)、心理咨詢概論、心理評(píng)估、咨詢方法等，共有2000個(gè)問(wèn)題。

示例：

把與自己本無(wú)關(guān)系的事情認(rèn)為有關(guān)，這種臨床表現(xiàn)最可能出現(xiàn)于：

A. 被害妄想

B. 鐘情妄想

C. 關(guān)系妄想

D. 夸大妄想

教育

教育學(xué)題目來(lái)自中國(guó)普通高等學(xué)校招生全國(guó)統(tǒng)一考試（中國(guó)高考），包括語(yǔ)文、數(shù)學(xué)、物理、化學(xué)、政治、歷史、地理、生物，共有3331個(gè)問(wèn)題。

示例：

若圓錐的側(cè)面積等于其底面積的3倍，則該圓錐側(cè)面展開(kāi)圖所對(duì)應(yīng)扇形圓心角的度數(shù)為（）。

A. 60°

B. 90°

C. 120°

D. 180°

評(píng)測(cè)過(guò)程

依靠以上獲取到的優(yōu)質(zhì)數(shù)據(jù)，可以開(kāi)始對(duì)大模型的能力評(píng)測(cè)。下面將介紹本次評(píng)測(cè)的一些模型和評(píng)測(cè)方式。

評(píng)測(cè)模型：

Bloom系列：bloomz_560m、bloomz_1b1、bloomz_3b、bloomz_7b1_mt

清華大學(xué)知識(shí)工程和數(shù)據(jù)挖掘小組：ChatGLM 6B

復(fù)旦大學(xué)：MOSS 16B

OpenAI：GPT-3.5-turbo

評(píng)測(cè)方式：zero-shot和few-shot

zero-shot模式：題目直接輸入到模型以獲取答案并計(jì)算準(zhǔn)確率。

few-shot模式：先給模型提供5個(gè)問(wèn)題和答案的例子，再附上問(wèn)題讓模型給出答案。

評(píng)測(cè)結(jié)果

通過(guò)比較各個(gè)模型的 zero-shot準(zhǔn)確率（如圖1和表1），GPT-3.5-turbo在四個(gè)領(lǐng)域的正確率都遙遙領(lǐng)先；MOSS 16B模型雖然有160億參數(shù)，但準(zhǔn)確率卻只接近隨機(jī)準(zhǔn)確率(大約25%)；bloomz_560m 模型的參數(shù)量最小，表現(xiàn)卻超越了參數(shù)量更大的模型。評(píng)測(cè)結(jié)果體現(xiàn)了大模型的參數(shù)量不是評(píng)價(jià)大模型的唯一標(biāo)準(zhǔn)，在訓(xùn)練過(guò)程中數(shù)據(jù)的質(zhì)量也應(yīng)得到重視。

測(cè)試結(jié)果還表明，所有模型在few-shot模式下都有不同程度的性能下降。例如，與 zero-shot 準(zhǔn)確率相比，GPT-3.5-turbo 在語(yǔ)文、化學(xué)、政治子任務(wù)上的few-shot 準(zhǔn)確率都有下降(見(jiàn)表2和表3)。

表2 所有模型在教育子任務(wù)上的few-shot準(zhǔn)確率

表3 所有模型在教育子任務(wù)上的zero-shot準(zhǔn)確率

結(jié)論

大模型訓(xùn)練通常采用海量互聯(lián)網(wǎng)公開(kāi)數(shù)據(jù)，因此數(shù)據(jù)高效篩選以及垂直領(lǐng)域高質(zhì)量數(shù)據(jù)的標(biāo)注也非常重要。通過(guò)測(cè)試發(fā)現(xiàn)，在四大領(lǐng)域中，所有模型的平均zero-shot的準(zhǔn)確率均未超過(guò)0.5，這就證明了目前所有模型的中文訓(xùn)練數(shù)據(jù)還存在明顯不足。

測(cè)試的結(jié)果表明，更大的模型參數(shù)量不一定帶來(lái)更好的性能，而訓(xùn)練方式和所用數(shù)據(jù)質(zhì)量也是至關(guān)重要的，需要得到更多的重視。研究者們應(yīng)該考慮如何設(shè)計(jì)更好的建模方式以便更好地學(xué)習(xí)文本數(shù)據(jù)中蘊(yùn)含的知識(shí)，并且思考如何準(zhǔn)備或者標(biāo)注優(yōu)質(zhì)的數(shù)據(jù)集，去使中文大模型獲得更準(zhǔn)確的理解能力和文本生成能力。

寫(xiě)在最后

綜上，就目前而言，用于評(píng)測(cè)大模型的高質(zhì)量中文數(shù)據(jù)集仍是稀缺資源，但行業(yè)內(nèi)卻亟需一種公開(kāi)、科學(xué)的方式來(lái)測(cè)試大模型的能力。甲骨易AI研究院率先提出要制作出一套高質(zhì)量的中文數(shù)據(jù)集，并迅速搜集整合數(shù)據(jù)資源完成了“超越”數(shù)據(jù)集，成為國(guó)內(nèi)首家制作中文專門(mén)領(lǐng)域多任務(wù)數(shù)據(jù)集的研究單位。

甲骨易AI研究院致力于推動(dòng)計(jì)算機(jī)信息科技與自然語(yǔ)言處理領(lǐng)域的發(fā)展，希望擴(kuò)大中文語(yǔ)言在大模型中的應(yīng)用，促進(jìn)中文大語(yǔ)言模型的理解力與生成力。“超越”數(shù)據(jù)集(MMCU)正是為了幫助每一位正在LLMs和NLP方向研究的學(xué)者、專家以及工程師，攜手促進(jìn)中文大語(yǔ)言模型向著更準(zhǔn)確、更智能、更優(yōu)質(zhì)的方向發(fā)展。后續(xù)，甲骨易AI研究院也依舊會(huì)根據(jù)反饋持續(xù)優(yōu)化“超越”數(shù)據(jù)集。

甲骨易AI研究院預(yù)計(jì)于2023年5月20日14點(diǎn)甲骨易第三空間舉辦“超越”數(shù)據(jù)集發(fā)布會(huì)，我們誠(chéng)摯地邀請(qǐng)您蒞臨。

如果您對(duì)本次發(fā)布會(huì)和“超越”測(cè)試集感興趣，可通過(guò)郵箱：oder@besteasy.com聯(lián)系我們。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

下一篇

阿斯麥訂單“腰斬”股價(jià)暴跌16%，半導(dǎo)體產(chǎn)業(yè)寒冬來(lái)了？

阿斯麥訂單腰斬阿斯麥訂單阿斯麥股價(jià)暴跌

極客觀察

專題報(bào)道

企業(yè)專欄

簡(jiǎn)版
原版
投稿
回頂部

2023-05-12

甲骨易AI研究院預(yù)發(fā)布“超越”(MMCU)中文通用大語(yǔ)言模型測(cè)試集

甲骨易AI研究院提出一種衡量中文大模型處理多任務(wù)準(zhǔn)確度的測(cè)試，并在此基礎(chǔ)上制作了一套適配測(cè)試中文大模型的數(shù)據(jù)集，并將其命名為“超越”。

長(zhǎng)按掃碼閱讀全文

<font id="tjsdw"></font>

<font id="tjsdw"></font>

<tfoot id="tjsdw"><label id="tjsdw"></label></tfoot>