2024年12月19日,智源研究院發(fā)布并解讀國(guó)內(nèi)外100余個(gè)開(kāi)源和商業(yè)閉源的語(yǔ)言、視覺(jué)語(yǔ)言、文生圖、文生視頻、語(yǔ)音語(yǔ)言大模型綜合及專(zhuān)項(xiàng)評(píng)測(cè)結(jié)果。
相較于今年5月的模型能力全方位評(píng)估,本次智源評(píng)測(cè)擴(kuò)展、豐富、細(xì)化了任務(wù)解決能力內(nèi)涵,新增了數(shù)據(jù)處理、高級(jí)編程和工具調(diào)用的相關(guān)能力與任務(wù);首次增加了面向真實(shí)金融量化交易場(chǎng)景的應(yīng)用能力評(píng)估,測(cè)量大模型的收益優(yōu)化和性能優(yōu)化等能力;首次探索基于模型辯論的對(duì)比評(píng)估方式,對(duì)模型的邏輯推理、觀(guān)點(diǎn)理解、語(yǔ)言表達(dá)等核心能力進(jìn)行深入分析。
智源評(píng)測(cè)發(fā)現(xiàn),2024年下半年大模型發(fā)展更聚焦綜合能力提升與實(shí)際應(yīng)用。多模態(tài)模型發(fā)展迅速,涌現(xiàn)了不少新的廠(chǎng)商與新模型,語(yǔ)言模型發(fā)展相對(duì)放緩。模型開(kāi)源生態(tài)中,除了持續(xù)堅(jiān)定開(kāi)源的海內(nèi)外機(jī)構(gòu),還出現(xiàn)了新的開(kāi)源貢獻(xiàn)者。
多種模態(tài)評(píng)測(cè)綜合榜單 覆蓋文本、語(yǔ)音、圖片、視頻理解與生成
語(yǔ)言模型,針對(duì)一般中文場(chǎng)景的開(kāi)放式問(wèn)答或者生成任務(wù),模型能力已趨于飽和穩(wěn)定,但是復(fù)雜場(chǎng)景任務(wù)的表現(xiàn),國(guó)內(nèi)頭部語(yǔ)言模型仍然與國(guó)際一流水平存在顯著差距。
語(yǔ)言模型主觀(guān)評(píng)測(cè)重點(diǎn)考察模型中文能力,結(jié)果顯示字節(jié)跳動(dòng)Doubao-pro-32k-preview、百度ERNIE 4.0 Turbo位居第一、第二,OpenAI o1-preview-2024-09-12、Anthropic Claude-3-5-sonnet-20241022位列第三、第四,阿里巴巴Qwen-Max-0919排名第五;在語(yǔ)言模型客觀(guān)評(píng)測(cè)中,OpenAI o1-mini-2024-09-12、Google Gemini-1.5-pro-latest 位列第一、第二,阿里巴巴Qwen-max-0919、字節(jié)跳動(dòng)Doubao-pro-32k-preview位居第三、第四,Meta Llama-3.3-70B-Instruct排名前五。
視覺(jué)語(yǔ)言多模態(tài)模型,雖然開(kāi)源模型架構(gòu)趨同(語(yǔ)言塔+視覺(jué)塔),但表現(xiàn)不一,其中較好的開(kāi)源模型在圖文理解任務(wù)上正在縮小與頭部閉源模型的能力差距,而長(zhǎng)尾視覺(jué)知識(shí)與文字識(shí)別以及復(fù)雜圖文數(shù)據(jù)分析能力仍有提升空間。評(píng)測(cè)結(jié)果顯示,OpenAI GPT-4o-2024-11-20與字節(jié)跳動(dòng)Doubao-Pro-Vision-32k-241028先后領(lǐng)先于Anthropic Claude-3-5-sonnet-20241022,阿里巴巴Qwen2-VL-72B-Instruct和Google Gemini-1.5-Pro緊隨其后。
文生圖多模態(tài)模型,今年上半年參評(píng)的模型普遍無(wú)法生成正確的中文文字,但此次參評(píng)的頭部模型已經(jīng)具備中文文字生成能力,但整體普遍存在復(fù)雜場(chǎng)景人物變形的情況,針對(duì)常識(shí)或知識(shí)性推理任務(wù),小于3的數(shù)量關(guān)系任務(wù)表現(xiàn)有所提升,大于3的數(shù)量關(guān)系依然無(wú)法處理,涉及中國(guó)文化和古詩(shī)詞理解的場(chǎng)景對(duì)于模型而言是不小的挑戰(zhàn)。評(píng)測(cè)結(jié)果顯示,騰訊Hunyuan Image位列第一,字節(jié)跳動(dòng)Doubao image v2.1、Ideogram 2.0分居第二、第三,OpenAI DALL·E 3、快手可圖次之。
文生視頻多模態(tài)模型,畫(huà)質(zhì)進(jìn)一步提升,動(dòng)態(tài)性更強(qiáng),鏡頭語(yǔ)言更豐富,專(zhuān)場(chǎng)更流暢,但普遍存在大幅度動(dòng)作變形,無(wú)法理解物理規(guī)律,物體消失、閃現(xiàn)、穿模的情況。評(píng)測(cè)結(jié)果顯示,快手可靈1.5(高品質(zhì))、字節(jié)跳動(dòng)即夢(mèng) P2.0 pro、愛(ài)詩(shī)科技PixVerse V3、MiniMax 海螺AI、Pika 1.5位列前五。
語(yǔ)音語(yǔ)言模型,得益于文本大模型的進(jìn)步,能力提升巨大,覆蓋面更全,但在具體任務(wù)上與專(zhuān)家模型還存在一定差距,整體而言,性能好、通用能力強(qiáng)的開(kāi)源語(yǔ)音語(yǔ)言模型偏少。專(zhuān)項(xiàng)評(píng)測(cè)結(jié)果顯示,阿里巴巴Qwen2-Audio位居第一,香港中文大學(xué)&微軟WavLLM、清華大學(xué)&字節(jié)跳動(dòng)Salmon位列第二、第三,Nvidia Audio-Flamingo,MIT & IBM LTU均進(jìn)入前五。
四大專(zhuān)項(xiàng)評(píng)測(cè)榜單 多維度探索模型能力邊界與應(yīng)用潛能
本次評(píng)測(cè),智源研究院再次聯(lián)合與海淀區(qū)教師進(jìn)修學(xué)校新編了K12全學(xué)段、多學(xué)科試卷,進(jìn)一步考察大模型與人類(lèi)學(xué)生的能力差異,其中,答案不唯一的主觀(guān)題依然由海淀教師親自評(píng)卷。得益于多模態(tài)能力的帶動(dòng)發(fā)展,模型本次K12學(xué)科測(cè)驗(yàn)綜合得分相較于半年前提升了12.86%,但是仍與海淀學(xué)生平均水平存在差距;在英語(yǔ)和歷史文科試題的表現(xiàn)上,已有模型超越了人類(lèi)考生的平均分;模型普遍存在“文強(qiáng)理弱”的偏科情況。
FlagEval大模型角斗場(chǎng),是智源研究院今年9月推出的面向用戶(hù)開(kāi)放的模型對(duì)戰(zhàn)評(píng)測(cè)服務(wù),以反映用戶(hù)對(duì)模型的偏好。目前,F(xiàn)lagEval覆蓋國(guó)內(nèi)外約50款大模型,支持語(yǔ)言問(wèn)答、多模態(tài)圖文理解、文生圖、文生視頻四大任務(wù)的自定義在線(xiàn)或離線(xiàn)盲測(cè)。此次評(píng)測(cè),共有29個(gè)語(yǔ)言模型、16個(gè)圖文問(wèn)答多模態(tài)模型、7個(gè)文生圖模型、14個(gè)文生視頻模型參評(píng)。評(píng)測(cè)發(fā)現(xiàn),用戶(hù)對(duì)模型的響應(yīng)時(shí)間有更高要求,對(duì)模型輸出的內(nèi)容傾向于更結(jié)構(gòu)化、標(biāo)準(zhǔn)化的格式。
作為模型對(duì)戰(zhàn)評(píng)測(cè)服務(wù)FlagEval大模型角斗場(chǎng)的延展,今年10月智源研究院推出了模型辯論平臺(tái)FlagEval Debate,對(duì)模型的邏輯推理、觀(guān)點(diǎn)理解以及語(yǔ)言表達(dá)等核心能力進(jìn)行深入評(píng)估,以甄別語(yǔ)言模型的能力差異。本次評(píng)測(cè)發(fā)現(xiàn),大模型普遍缺乏辯論框架意識(shí),不具備對(duì)辯題以整體邏輯進(jìn)行綜合闡述;大模型在辯論中依然存在“幻覺(jué)問(wèn)題”,論據(jù)經(jīng)不起推敲;大模型更擅長(zhǎng)反駁,各個(gè)模型表現(xiàn)突出的辯論維度趨同,在不同的辯題中,模型表現(xiàn)差距顯著。FlagEval Debate評(píng)測(cè)結(jié)果表明,Anthropic Claude-3-5-sonnet-20241022、零一萬(wàn)物Yi-Lighting、OpenAI o1-preview-2024-09-12為前三名。
此次評(píng)測(cè),智源研究院探索了基于實(shí)際應(yīng)用場(chǎng)景的全新方法,通過(guò)評(píng)測(cè)模型的量化代碼實(shí)現(xiàn)能力,探索模型在金融量化交易領(lǐng)域的潛在應(yīng)用能力和商業(yè)價(jià)值。評(píng)測(cè)發(fā)現(xiàn),大模型已經(jīng)具備生成有回撤收益的策略代碼的能力,能開(kāi)發(fā)量化交易典型場(chǎng)景里的代碼;在知識(shí)問(wèn)答方面,模型整體差異較小,整體分?jǐn)?shù)偏高,但在實(shí)際代碼生成任務(wù)上,模型差異較大,整體能力偏弱;頭部模型能力已接近初級(jí)量化交易員的水平。金融量化交易評(píng)測(cè)結(jié)果顯示,深度求索 Deepseek-chat,OpenAI GPT-4o-2024-08-06,Google Gemini-1.5-pro-latest位列前三。
智源評(píng)測(cè)體系FlagEval再迭代 覆蓋全球800+開(kāi)閉源模型
本次評(píng)測(cè)依托智源研究院自2023年6月上線(xiàn)的大模型評(píng)測(cè)平臺(tái)FlagEval,經(jīng)過(guò)數(shù)次迭代,目前已覆蓋全球800多個(gè)開(kāi)閉源模型,包含20多種任務(wù),90多個(gè)評(píng)測(cè)數(shù)據(jù)集,超200萬(wàn)條評(píng)測(cè)題目。
在評(píng)測(cè)方法與工具上,智源研究院聯(lián)合全國(guó)10余家高校和機(jī)構(gòu)合作共建,探索基于AI的輔助評(píng)測(cè)模型 FlagJudge和靈活全面的多模態(tài)評(píng)測(cè)框架FlagEvalMM,并構(gòu)建面向大模型新能力的有挑戰(zhàn)的評(píng)測(cè)集,包括與北京大學(xué)共建的HalluDial幻覺(jué)評(píng)測(cè)集、與北師大共建的CMMU多模態(tài)評(píng)測(cè)集、多語(yǔ)言跨模態(tài)評(píng)測(cè)集MG18、復(fù)雜代碼評(píng)測(cè)集TACO以及長(zhǎng)視頻理解評(píng)測(cè)MLVU等,其中與北京大學(xué)共建的HalluDial是目前全球規(guī)模最大的對(duì)話(huà)場(chǎng)景下的幻覺(jué)評(píng)測(cè)集,有18000多個(gè)輪次對(duì)話(huà),和14萬(wàn)多個(gè)回答。
為規(guī)避數(shù)據(jù)集泄露風(fēng)險(xiǎn)以及數(shù)據(jù)集飽和度問(wèn)題,本次評(píng)測(cè)吸納了近期發(fā)布的數(shù)據(jù)集并持續(xù)動(dòng)態(tài)更新評(píng)測(cè)數(shù)據(jù),替換了98%的題目,并提升了題目的難度。
智源研究院副院長(zhǎng)兼總工程師林詠華在評(píng)測(cè)發(fā)布會(huì)上表示,F(xiàn)lagEval評(píng)測(cè)體系一直堅(jiān)守科學(xué)、權(quán)威、公正、開(kāi)放的準(zhǔn)則,通過(guò)技術(shù)方法平臺(tái)持續(xù)創(chuàng)新,打造丈量模型能力的標(biāo)尺,為大模型技術(shù)生態(tài)發(fā)展提供洞察。2025年,F(xiàn)lagEval評(píng)測(cè)體系的發(fā)展將進(jìn)一步探索動(dòng)態(tài)評(píng)測(cè)與多任務(wù)能力評(píng)估體系,以評(píng)測(cè)為標(biāo)尺感知大模型的發(fā)展趨勢(shì)。(Suky)
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長(zhǎng)
- 智源發(fā)布FlagEval“百?!痹u(píng)測(cè)結(jié)果 丈量模型生態(tài)變局
- 投資者為極越員工善后,網(wǎng)友:CEO光道歉就夠了嗎?
- TechWeb微晚報(bào):特斯拉下月量產(chǎn)改款Model Y,網(wǎng)紅收入超千萬(wàn)報(bào)稅竟未達(dá)5000元
- 美光推出速率與能效領(lǐng)先的 60TB SSD,能效比同類(lèi)產(chǎn)品高出20%
- 消息稱(chēng)極越員工補(bǔ)償方案確定:按照“N+1”標(biāo)準(zhǔn),百度吉利出錢(qián)
- 歐洲車(chē)市11月銷(xiāo)量再度下滑,特斯拉銷(xiāo)量暴跌40.9%
- 網(wǎng)紅偷稅漏稅事件上熱搜,“收入超千萬(wàn)報(bào)稅竟未達(dá)5000元”引發(fā)熱議
- 美國(guó)最高法院計(jì)劃于1月10日對(duì)TikTok禁令進(jìn)行辯論
- 美國(guó)以國(guó)家安全為由調(diào)查路由器品牌TP-Link,后者回應(yīng):其安全實(shí)踐符合行業(yè)標(biāo)準(zhǔn)
- 字節(jié)跳動(dòng)自主研發(fā)AI GPU,旨在減少對(duì)英偉達(dá)依賴(lài)
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。