撰文 |?王語妤
編輯 | 楊博丞
題圖 | IC Photo
最近,昆侖萬維和百度“杠”起來了,原因還是因為最近大火的大語言模型。
4月17日,昆侖萬維正式推出“天工”大模型,并于當(dāng)日開啟測試邀請。彼時,昆侖萬維對外的宣傳用語是“中國第一個真正實現(xiàn)智能涌現(xiàn)的國產(chǎn)語言大模型。”
有意思的是,百度在發(fā)布文心一言的時候,對外輸出的宣傳用語是“國內(nèi)首家做出大語言模型產(chǎn)品的科技互聯(lián)網(wǎng)大廠”。
從表面上看,兩家的宣傳語中心不一樣,話術(shù)也有所不同,看似風(fēng)平浪靜,但實則內(nèi)核都是在爭一個“首家”。
為什么要爭“首家”,除了能力的對比,市場的爭奪外,還有振奮股價,提高市值的作用,百度消息公布當(dāng)天,港股股價大漲15%,昆侖萬維也一樣,官宣第二天股價漲幅達(dá)到7.68%。
不過,究竟誰是國內(nèi)首家呢?
從項目披露時間來看,百度是在去年9月份左右開始去內(nèi)部推進(jìn)文心一言項目,到今年2月初正式放出項目的消息,并于3月中旬正式對外官宣了文心一言。
昆侖萬維官方并沒有公布具體的項目開始時間,但是從2020年開始,昆侖萬維就已經(jīng)開始布局AIGC領(lǐng)域。
從技術(shù)層面來看,文心一言背后,百度在人工智能領(lǐng)域有四層架構(gòu)、全棧布局,包括底層的芯片、深度學(xué)習(xí)框架、大模型以及最上層的搜索等應(yīng)用。另外,深耕人工智能領(lǐng)域多年的百度,擁有產(chǎn)業(yè)級知識增強(qiáng)文心大模型ERNIE,具備跨模態(tài)、跨語言的深度語義理解與生成能力。
昆侖萬維同樣具備大模型四要素:數(shù)據(jù)、算力、算法以及大參數(shù)語言模型。據(jù)昆侖萬維介紹,天工是雙千億參數(shù)訓(xùn)練的結(jié)果——千億預(yù)訓(xùn)練基座模型、千億RLHF模型。
不過,既然兩家的底座能力看起來不相上下,那么我們就將這兩家放在一起,試試“內(nèi)功”。
01、中文語意理解能力
昆侖萬維對外展示的技術(shù)路徑現(xiàn)實,天工團(tuán)隊引入模特卡洛搜索樹算法后,在語意理解、轉(zhuǎn)換話題能力上有所提升。
在此背景下,我們首先和天工玩起了成語接龍游戲。不過,天工的完成度并不好,甚至沒能理解什么是成語接龍。
文心一言在成語接龍上的表現(xiàn)是優(yōu)于天工大模型的。
緊接著,我們向文心一言和天工大模型拋出了一個問題——“寫一本類似《人世間》一樣題材宏大,展現(xiàn)中國歷史變遷的小說提綱,字?jǐn)?shù)1000字左右?!睂τ谶@個問題,文心一言和天工都將問題的重心放在了“題材宏大”、“歷史變遷”這兩個關(guān)鍵詞上。
于是,兩家生成的內(nèi)容都不符合我們最開始的預(yù)期。
上圖“天工大模型”,下圖文心一言
這個問題,或許是由于我們給出了一定的誤導(dǎo)性,所以導(dǎo)致兩家生成的答案都不盡人意。但是,天工稍微比文心一言好一些,原因在于,文心一言將“歷史變遷”直接解讀成了朝代變遷。
盡管天工的回答也是文不對題,但是有人物設(shè)定,朝代設(shè)定,內(nèi)容的可操作性和延展性明顯是優(yōu)于文心一言。
將問題拉回《人世間》類似的小說提綱,我們改變了提問角度,連續(xù)發(fā)文:《人世間》講了一個什么樣的故事、那你能寫出類似題材的小說提綱么?大概1000字左右
在提取重點、聯(lián)想寫作、以及話題的連續(xù)性上,天工的表現(xiàn)還是不錯的。
但是文心一言就“開了小差”。
文心一言的回答出現(xiàn)了明顯的錯誤。不過,我們再一次將問題拋給文心一言,重新生成答案。這一次,文心一言又重回正軌,給出了相應(yīng)的答案。
此外,我們還用三個連續(xù)性問題,向天工發(fā)問。此前,我們在《大評測!ChatGPT 、文心一言和Bard誰更強(qiáng)?》中,將同樣的問題給到過文心一言、Bard、以及ChatGPT。
可以說,天工的前兩個問題回答和文心一言此前的回答不相上下,但在最后一個藏頭詩的理解上,還是存在一定的偏差。
盡管,文心一言的藏頭詩回答的也并不好,但好在,文心一言理解了“藏頭”的意思。而天工,似乎還并未消化掉“藏頭”的意思。
02.邏輯思辨能力
為了測試“邏輯推理”能力,我們將這樣一題拋給了天工和文心一言,即“如果貓會爬樹,那么狗也會?!?/p>
上圖“天工大模型”,下圖文心一言
很明顯,天工和文心一言也陷入了題目的誤區(qū),或者說,并沒有完全理解題目意思。不過,這里需要強(qiáng)調(diào)的是,在雞兔同籠問題上,文心一言和天工在發(fā)布的視頻中都有不錯的表現(xiàn)。
在文心一言發(fā)布會上,李彥宏詢問文心一言“雞兔同籠”的問題,在題目數(shù)據(jù)錯誤的前提下,文心一言通過推理證明了題目存在問題。
這里需要注意的是,在這個邏輯推理上,ChatGPT的回答,是天工、文心一言、bard這四家大模型中唯一正確的,并指出了貓和狗的不同,證明貓會爬樹,而狗不會。
除了考驗邏輯能力之外,我們還將一個哲學(xué)思辨問題,同時向天工和文心一言發(fā)文。
上圖“天工大模型”,下圖文心一言
在哲學(xué)問題的理解上,天工和文心一言區(qū)別不大,但文心一言略顯“人文”一些,在解讀之后,更是直接告訴我們該怎么做,更像是和人在對話一樣,天工的回答則更是一本正經(jīng)。
可以這樣來說,和天工對話像是和老師對話,老師需要回答這個問題是什么;和文心一言對話則更像是和心理醫(yī)生對話,醫(yī)生需要在解釋的基礎(chǔ)上給出意見。
03.編程能力
為了測試這兩大模型寫代碼的能力,我們詢問了一個非常簡單的問題——x+2=5,y-3=7,輸出x+y等于幾,用java做一個簡單編程,并得出結(jié)果。
上圖“天工大模型”,下圖文心一言
但是很顯然,這兩大模型給出的結(jié)果都是有問題的。
不過,在其他評測稿件中,文心一言和天工在編程能力的表現(xiàn)上并不差。我們認(rèn)為,目前來看,這些大模型的能力還并不穩(wěn)定,還需要在不斷的訓(xùn)練中提高準(zhǔn)確性。
結(jié)語
總結(jié)來看,文心一言也好,天工也罷,他們的能力相對來說,差距不大。但更多的問題在于,目前,大模型每一次生成的問題答案都存在一定的誤差。
相比于“首家”之爭,我們認(rèn)為,企業(yè)們更重要的是在于提升大模型的能力和準(zhǔn)確度,并且尋找到更多合適的場景去實現(xiàn)商業(yè)化。
大模型賽道愈發(fā)熱烈,誰都想做風(fēng)口上的豬,但是能在風(fēng)口上起飛的豬,往往都是做好了充足的準(zhǔn)備。
此外,我們還應(yīng)該多給國內(nèi)科技企業(yè)更多的信心,和國外ChatGPT4相比,國內(nèi)大模型還是有一定差距,但是我相信,這個差距在不遠(yuǎn)的將來,在競爭中,都會逐漸拉小。國內(nèi)大模型,未來可期。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 特斯拉CEO馬斯克身家暴漲,穩(wěn)居全球首富寶座
- 阿里巴巴擬發(fā)行 26.5 億美元和 170 億人民幣債券
- 騰訊音樂Q3持續(xù)穩(wěn)健增長:總收入70.2億元,付費(fèi)用戶數(shù)1.19億
- 蘋果Q4營收949億美元同比增6%,在華營收微降
- 三星電子Q3營收79萬億韓元,營業(yè)利潤受一次性成本影響下滑
- 賽力斯已向華為支付23億,購買引望10%股權(quán)
- 格力電器三季度營收同比降超15%,凈利潤逆勢增長
- 合合信息2024年前三季度業(yè)績穩(wěn)?。籂I收增長超21%,凈利潤增長超11%
- 臺積電四季度營收有望再攀高峰,預(yù)計超260億美元刷新紀(jì)錄
- 韓國三星電子決定退出LED業(yè)務(wù),市值蒸發(fā)超4600億元
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。