12月21日消息,據(jù)外媒報道,在發(fā)布o(jì)1滿血版、視頻生成模型Sora等之后,OpenAI連續(xù)12天的直播活動在當(dāng)?shù)貢r間周五進(jìn)入了最后1天,他們在當(dāng)天的發(fā)布會上宣布了更強的o3系列人工智能模型。
同第1天、第3天和第5天的直播一樣,OpenAI CEO 薩姆·奧爾特曼(Sam Altman)也參與了他們第12天的直播,o3系列大模型也是由他在直播中宣布的。
OpenAI在9月份推出了o1系列大模型,他們周五推出o3系列,在命名上就越過了o2,沒有遵循數(shù)字一樣的連續(xù)命名方式。對于越過o2,有外媒在報道中稱可能是為了避免和英國電信運營商O2在命名上產(chǎn)生紛爭。而在當(dāng)天的直播中,薩姆·奧爾特曼承認(rèn)了他們在命名上的不足,他表示基于OpenAI不太擅長命名的傳統(tǒng),新的大模型被命名為o3。
同9月份推出的o1系列大模型一樣,OpenAI新宣布的o3系列大模型也有o3和o3 mini兩款,不過尚未正式發(fā)布,o3 mini是預(yù)計會在明年年初發(fā)布。
在OpenAI此前推出的大模型中,能力在持續(xù)提升,新宣布的o3系列也不例外。
從OpenAI方面公布的消息來看,o3大模型在測試中的表現(xiàn)明顯強于他們之前推出的大模型,在部分測試中的表現(xiàn)已經(jīng)達(dá)到了人類的水平。
在ARC-AGI測試中,o3在低推理能力設(shè)置下的得分達(dá)到了75.7%,是o1的3倍,在高推理能力設(shè)置下則是高達(dá)87.5%,超過了85%的人類門檻。
在數(shù)學(xué)推理及解決問題的能力方面,o3也表現(xiàn)不俗,在2024年AIME測試中,o3的準(zhǔn)確率達(dá)到了96.7%。
在編碼和軟件工程方面,o3的能力較o1也有大幅提升,在SWE-Bench認(rèn)證中,o3的得分為71.7%,較o1提升了22.8個百分點。
值得注意的是,有外媒在報道中提到,在Codeforces的測試中,o3的得分為2727,比OpenAI首席科學(xué)家的得分還高。
雖然OpenAI的o3系列大模型要在明年才會正式發(fā)布,但他們在官網(wǎng)已表示,安全研究人員可以申請用于測試,從當(dāng)?shù)貢r間周五開始接受申請,截止時間為明年1月10日。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )