過去兩天,高考成為了社會各界廣泛關(guān)注的話題,但與往年相比,由于今年AI大模型風(fēng)靡全球,使得高考試卷也成為了檢測AI大模型“智商”的試金石。對于人類而言,IQ越高的人大多數(shù)學(xué)越強(qiáng),這是因?yàn)閿?shù)學(xué)考驗(yàn)的是一個人的理解和推理能力,甚至很多檢測IQ的題目就是數(shù)學(xué)題,對于大模型也是如此,數(shù)學(xué)能力高低也能反映一個大模型是否“聰明”。
那么這次的高考數(shù)學(xué)題能否難倒AI大模型呢?根據(jù)搜狐科技、量子位等權(quán)威科技媒體對ChatGPT、訊飛星火、文心一言、通義千問、360智腦等主流AI大模型的橫向評測,訊飛星火居然力壓群雄,成為了解題正確率最高、“最聰明”的AI大模型。
先來看下搜狐科技的測試方法,他們選擇了2023年高考數(shù)學(xué)試卷的前10道填空題,讓五款A(yù)I大模型輪番進(jìn)行回答。仔細(xì)看這10道填空題,既包括了不等式解方程解,圓形方程解和三角形方程解,還包括了GDP逐季度遞增的解法,非常全面地考驗(yàn)了人類的數(shù)學(xué)計(jì)算能力,而“智力超群”的AI大模型面對高考數(shù)學(xué)題會怎樣?
根據(jù)搜狐科技得出的結(jié)論,訊飛星火答對了5道題,正確率為50%;ChatGPT和文心一言答對了4道題,正確率為40%;其他兩個大模型一道題都沒答對,等同于交了“白卷”。
接下來我們再來看量子位對五款大模型的測試,他們?nèi)サ袅?60智腦,但新增了公認(rèn)最強(qiáng)的GPT-4。在 “已知函數(shù) f ( x ) = cos ω x -1 (ω>0 ) 在區(qū)間 [0,2 π] 有且僅有3個零點(diǎn) , 則ω的取值范圍是?”這道題的求解中,GPT-4給出了ω的取值范圍是(0,1/2]U{1}的錯誤答案。隨后其余的大模型也可謂是“全軍覆沒”,它們都給出了錯誤的答案。
唯獨(dú)只有訊飛星火給出了正確的答案。量子位的測試編輯心情悲喜交加地表示道:“本已經(jīng)抱著再一次全軍覆沒的心情了,沒想到中文大模型(訊飛星火)力挽狂瀾!”
后來在三角函數(shù)題中,訊飛星火第一小問答案對了,但是步驟中出現(xiàn)了偏差,這說明訊飛星火在數(shù)學(xué)能力上還有改進(jìn)空間。估計(jì)在6月9日科大訊飛發(fā)布星火V1.5之后,這種數(shù)學(xué)計(jì)算的小bug會得以修復(fù)。
最終量子位同樣制作了一張橫評匯總表,結(jié)果顯示GPT-4在排列組合、立體幾何和三角函數(shù)三道天空題中只有一道答對,在三角函數(shù)解答題中回答錯誤。而訊飛星火同樣答對了一道填空題,但在三角函數(shù)解答題中答對了一問。而其余大模型完全就是“陪跑”,沒有答對任何一道數(shù)學(xué)題。
訊飛星火數(shù)學(xué)能力一直是其優(yōu)勢之一,據(jù)悉,6月9日訊飛星火迎來V1.5迭代,不僅會在數(shù)學(xué)能力方面再上新臺階,還會在開放式問答、多輪對話方面明顯升級,并在文本生成、語言理解和邏輯推理能力上持續(xù)提升。按照科大訊飛公布的三輪迭代時間表,看來星火將在10月24日實(shí)現(xiàn)中文超越ChatGPT、英文旗鼓相當(dāng)?shù)哪繕?biāo)應(yīng)該可以踏踏實(shí)實(shí)地一步一個腳印地抵達(dá)!
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )