精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>

<abbr id="ixlwe"></abbr>

直播
榜單
7x24h快訊

極客網(wǎng) > 人工智能 >

GPT-o1模型實(shí)測(cè)：“物化生”水平超人類博士？推理能力碾壓GPT-4o

人閱讀
2024-09-14 18:15:11
來源：TechWeb.com.cn
相關(guān)關(guān)鍵詞
- OpenAI
- AI

TechWeb 文/卞海川

毫無預(yù)熱的情況下，Open AI于9月13日凌晨發(fā)布了o1系列的大模型，這是傳聞中內(nèi)部代號(hào)為“草莓”的項(xiàng)目，也是OpenAI首款具備復(fù)雜推理能力的大模型。

與其前代模型相比，新模型o1擅長通用復(fù)雜推理，在物理、信息學(xué)等領(lǐng)域表現(xiàn)優(yōu)異，OpenAI CEO奧特曼稱它是一種新范式的開始：可以進(jìn)行通用復(fù)雜推理的人工智能。

OpenAI把新的模型發(fā)布稱為「預(yù)覽版」，強(qiáng)調(diào)o1系列仍處于早期階段。

作為早期模型，它尚不具備ChatGPT的許多有用功能，例如聯(lián)網(wǎng)搜索以及上傳文件和圖像。

雖然處于開發(fā)初期，但o1系列在競賽數(shù)學(xué)、編碼、科學(xué)等類目都有非常不錯(cuò)的表現(xiàn)，其中競賽數(shù)學(xué)類甚至大幅領(lǐng)先GPT-4o。

你可以簡單理解為，o1系列模型是一個(gè)極度“偏科”的理工型人才。

根據(jù)官方的解釋，o1系列模型采取“思維鏈”的模式進(jìn)行訓(xùn)練，以此提升大模型的邏輯推理能力。

所以在回答問題之前，它會(huì)花更長時(shí)間思考，也就是說，o1系列并不追求信息輸出反饋的速度，而是更在乎推理結(jié)果的準(zhǔn)確性。

為了更好的了解o1系列的能力，我們對(duì)它進(jìn)行了一些簡單的測(cè)試。

我們首先用一些之前大模型都愛翻車的簡單題目來測(cè)試一下o1系列的推理能力。

“單詞strawberry里面到底有幾個(gè)r”

不出意外，GPT-4o依舊翻車，給出的答案是錯(cuò)誤的。

讓我們驚喜的是，GPT-o1的回答就非常準(zhǔn)確，

“9.11和9.8誰更大？”

GPT-4o在1秒內(nèi)回答，但是給出了錯(cuò)誤答案。

難倒了一眾大模型的小數(shù)位比大小問題，o1系列沒有翻車，在等待了10多秒以后，o1給出的答案是正確的。

我們?cè)賮硪恍┱５耐评眍}，選擇經(jīng)典的小學(xué)奧數(shù)水平“空瓶換汽水”問題。

原題如下：“1元錢一瓶汽水，喝完后兩個(gè)空瓶換一瓶汽水，問：你有20元錢，最多可以喝到幾瓶汽水？”

很遺憾，在第一次回答的結(jié)果上，4o和o1系列都給出了錯(cuò)誤的39瓶答案。

但區(qū)別在于，如果我告訴它正確的答案，o1系列會(huì)糾正自己的錯(cuò)誤，給出新的解題思路，但GPT-4o依舊覺得自己的回答是正確的。

接下來我們把難度升級(jí)，測(cè)試一下競賽類題目o1系列模型的能力。

據(jù) OpenAI 介紹，在測(cè)試中，o1系列模型在物理、化學(xué)和生物等具有挑戰(zhàn)性的基準(zhǔn)任務(wù)上的表現(xiàn)達(dá)到了博士生的水平。

這一模型在數(shù)學(xué)和編碼方面表現(xiàn)出色。在國際數(shù)學(xué)奧林匹克（IMO）的資格考試中，GPT-4o 只正確解決了 13% 的問題，而 o1 模型的得分率則高達(dá) 83%。

o1系列模型的編碼能力也在競賽中得到了評(píng)估，在 Codeforces 競賽中達(dá)到了第 89 個(gè)百分點(diǎn)。

Open AI CEO奧特曼在剛剛結(jié)束的2024 IOI信息學(xué)奧賽題目中，o1的微調(diào)版本在每題嘗試50次條件下取得了213分，屬于人類選手中前49%的成績。也就是說，它已經(jīng)超過了大多數(shù)人類數(shù)學(xué)天才!

如果允許它每道題嘗試10000次，就能獲得362.14分，高于金牌選手門檻，可獲得金牌。

我們選取了AIME 2023的真題，該數(shù)學(xué)競賽的題目難度比IMO稍低，但仍處于數(shù)學(xué)競賽題目難度前列。

經(jīng)過測(cè)試，o1和4o給出了兩個(gè)完全不一樣的答案，雖然解題思路步驟我們沒看懂，但從官方給出的答案來看，o1的結(jié)果是正確的。

最后，我們來測(cè)試一下o1系列代碼能力，以經(jīng)典的俄羅斯方塊小游戲作為考題。

我們給o1模型提了要求，然后將所有代碼復(fù)制運(yùn)行，一字未改，成功實(shí)現(xiàn)俄羅斯方塊小游戲。

寫在最后

經(jīng)過我們的簡單測(cè)試，o1系列模型的最大亮點(diǎn)是顯著增加了邏輯推理能力，以前GPT-4o回答不上來的問題，o1系列可以給出正確的解題思路，它已經(jīng)不僅僅是簡單的生成答案，而是能夠提前規(guī)劃、思考，更接近人類的思維過程。尤其是在數(shù)學(xué)領(lǐng)域表現(xiàn)突出。

不過，它在特定領(lǐng)域的精確度與應(yīng)對(duì)復(fù)雜對(duì)話的表現(xiàn)上仍有待進(jìn)一步優(yōu)化，在數(shù)據(jù)分析、編程和數(shù)學(xué)等重推理的類別中，人們更傾向于選擇o1-preview。但在一些自然語言任務(wù)中，GPT-4o更勝一籌。

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）

為您推薦

極客觀察

欄目相關(guān)

贊助商

極客網(wǎng)熱搜關(guān)鍵詞

人工智能 AI OpenAI 機(jī)器學(xué)習(xí) ChatGPT 生成式AI AI芯片 AIGC U-Mail AI大模型世界人工智能大會(huì) AIoT AirPods Airbnb Rushmail 人工智能AI AI人工智能 Akamai 昇騰AI 生成式人工智能 AIPC Air AI技術(shù) 谷歌AI 蘋果AI GenAI 科大訊飛AI學(xué)習(xí)機(jī) 百度AI CAICT 阿爾法蛋AI詞典筆T10 AI手機(jī) 華為AI 松鼠AI 微軟AI AI+ AIS Airdoc WAIC 昇騰AI創(chuàng)新大賽 AITO 阿爾法蛋AI詞典筆京東AI 智譜AI AI模型 SoleusAir aigo SoleusAir舒樂氏 2019世界人工智能大會(huì) LIFAair AI機(jī)器人移動(dòng)AI時(shí)代 AI創(chuàng)企人工智能大會(huì) 浙大AIF AI算力 AI醫(yī)療人工智能技術(shù) AI應(yīng)用 Zain xAI 人工智能芯片 AI人才 Airtag AI時(shí)代 AI服務(wù)器騰訊AI AI算法 BrainCo AI投資 AI框架 Gmail 人工智能計(jì)算中心聯(lián)想AI VAIO Airwallex空中云匯 AI教育 Chain 人工智能大賽 Coremail AI賦能谷歌人工智能 OPENAIGC開發(fā)者大賽人工智能名片 Airwheel 昇騰AI開發(fā)者創(chuàng)享日 AI搜索 AI眼鏡 Mirai 人工智能機(jī)器人 AI音樂阿里AI AI聊天機(jī)器人 BrainCo強(qiáng)腦科技阿爾法蛋AI詞典筆T20 AI計(jì)算英偉達(dá)AI芯片浪潮KaiwuDB AI助手 AIOps 人工智能+

上一篇

“AI 教母”李飛飛初創(chuàng)公司融資2.3億美元 AMD英特爾英偉達(dá)旗下公司參投

下一篇

微軟牽頭成立300億美元AI投資基金，主要投資美國及伙伴國家

簡版
原版
投稿
回頂部

2024-09-14

GPT-o1模型實(shí)測(cè)：“物化生”水平超人類博士？推理能力碾壓GPT-4o

毫無預(yù)熱的情況下，Open AI于9月13日凌晨發(fā)布了o1系列的大模型，這是傳聞中內(nèi)部代號(hào)為“草莓”的項(xiàng)目，也是OpenAI首款具備復(fù)雜推理能力的大模型。

長按掃碼閱讀全文

<style id="rmqwh"><abbr id="rmqwh"></abbr></style>

<form id="rmqwh"></form>

<samp id="rmqwh"></samp><font id="rmqwh"><abbr id="rmqwh"><mark id="rmqwh"></mark></abbr></font>

<ins id="rmqwh"><sub id="rmqwh"><source id="rmqwh"></source></sub></ins>

<form id="rmqwh"></form>