聽(tīng)說(shuō)最近AI大廠的開(kāi)發(fā)人員和高校的NLP研究人員,都在琢磨,怎么讓大模型“涌現(xiàn)”。那畫(huà)面莫名就讓我想到了程序員給服務(wù)器上香來(lái)保佑不宕機(jī),都有種求諸于天的玄學(xué)。
所謂“涌現(xiàn)”,在大模型領(lǐng)域指的是當(dāng)模型突破某個(gè)規(guī)模時(shí),性能顯著提升,表現(xiàn)出讓人驚艷、意想不到的能力。比如語(yǔ)言理解能力、生成能力、邏輯推理能力等。一般來(lái)說(shuō),模型在100億到1000億參數(shù)區(qū)間,可能產(chǎn)生能力涌現(xiàn)。
但老話說(shuō)得好“氪不救非,玄不改命”??吭义X(qián)和運(yùn)氣,只一味把模型做的大大大,也未必能讓AI“顯靈”。
強(qiáng)大的邏輯推理是大語(yǔ)言模型“智能涌現(xiàn)”出的核心能力之一,好像AI有了人的意識(shí)一樣。而推理能力的關(guān)鍵,在于一個(gè)技術(shù)——思維鏈(Chain of Thought,CoT)。
大家如果看過(guò)類(lèi)GPT應(yīng)用的翻車(chē)問(wèn)題,會(huì)發(fā)現(xiàn)大多都是數(shù)學(xué)算術(shù)題、邏輯思考題等,這類(lèi)需要精確推理的問(wèn)題,而這正是思維鏈能夠重點(diǎn)解決的?,F(xiàn)在訓(xùn)練大語(yǔ)言模型的企業(yè)和機(jī)構(gòu)很多,但能夠訓(xùn)練出思維鏈并應(yīng)用的很少。
換句話說(shuō),只有解鎖了思維鏈技術(shù),大語(yǔ)言模型才有可能“涌現(xiàn)”,才能在“大煉模型”的競(jìng)爭(zhēng)中具備能力優(yōu)勢(shì)。
思維鏈的故事,我們從一個(gè)奇男子說(shuō)起。
一個(gè)神奇的男子
思維鏈,在人工智能領(lǐng)域,是一個(gè)非常非常新的概念。
2022年1月,它的相關(guān)論文才被放到arxiv上,成果也特別驚艷,谷歌在當(dāng)年五月的年度開(kāi)發(fā)者大會(huì)Google I/O 2022,也對(duì)思維鏈這一研究成果進(jìn)行了宣傳。當(dāng)時(shí)同臺(tái)宣傳的還有大模型PaLM和Pixel系列手機(jī)等。
你可能發(fā)現(xiàn)了華點(diǎn),怎么讓思維鏈聞名世界的,卻變成了OpenAI的ChatGPT呢?
這就要提到一個(gè)奇男子——思維鏈的提出者Jason Wei。
之所以神奇,一是本人能力卓絕。
這位華人科學(xué)家,2020年本科畢業(yè)成為谷歌大腦的高級(jí)研究員,在任職期間,提出了思維鏈的概念,發(fā)現(xiàn)思維鏈可以在大語(yǔ)言模型中增強(qiáng)推理能力。
(Jason Wei的個(gè)人博客www.jasonwei.net)
二是他的個(gè)人際遇,對(duì)AI影響很大,2022年2月他離開(kāi)谷歌,加入了OpenAI,進(jìn)入ChatGPT團(tuán)隊(duì),這也是思維鏈在OpenAI發(fā)揚(yáng)光大,讓ChatGPT拔得頭籌的原因之一。
那這位奇男子和同事的工作,究竟干了什么呢?
谷歌之前在大模型下了很大功夫,GPT生成式預(yù)訓(xùn)練模型中的“T”,也就是Transformer,就是谷歌大腦搞出來(lái)的。但是,預(yù)訓(xùn)練+精調(diào)的大模型搞了幾年,仍然沒(méi)辦法很好地完成多步驟推理任務(wù),比如數(shù)學(xué)問(wèn)題和常識(shí)推理。
所以Jason Wei等人提出了思維鏈提示的方法,真的一下子就讓大模型的邏輯推理能力不一樣了。
具體來(lái)說(shuō),有三個(gè)不一樣:
1.常識(shí)推理能力趕超人類(lèi)。以前的語(yǔ)言模型,在很多挑戰(zhàn)性任務(wù)上都達(dá)不到人類(lèi)水平,而采用思維鏈提示的大語(yǔ)言模型,在Bench Hard(BBH)評(píng)測(cè)基準(zhǔn)的23個(gè)任務(wù)中,有17個(gè)任務(wù)的表現(xiàn)都優(yōu)于人類(lèi)基線。
比如常識(shí)推理中會(huì)包括對(duì)身體和互動(dòng)的理解,而在運(yùn)動(dòng)理解sports understanding方面,思維鏈的表現(xiàn)就超過(guò)了運(yùn)動(dòng)愛(ài)好者(95% vs 84%)。
(思想鏈被高亮顯示)
2.數(shù)學(xué)邏輯推理大幅提升。
一般來(lái)說(shuō),語(yǔ)言模型在算術(shù)推理任務(wù)上的表現(xiàn)不太好,而應(yīng)用了思維鏈之后,大語(yǔ)言模型的邏輯推理能力突飛猛進(jìn)。
MultiArith和GSM8K這兩個(gè)數(shù)據(jù)集,測(cè)試的是語(yǔ)言模型解決數(shù)學(xué)問(wèn)題的能力,而通過(guò)思維鏈提示,PaLM這個(gè)大語(yǔ)言模型比傳統(tǒng)提示學(xué)習(xí)的性能提高了300%!
在MultiArith和GSM8K上的表現(xiàn)提升巨大,甚至超過(guò)了有監(jiān)督學(xué)習(xí)的最優(yōu)表現(xiàn)。
這意味著,大語(yǔ)言模型也可以解決那些需要精確的、分步驟計(jì)算的復(fù)雜數(shù)學(xué)問(wèn)題了。
3.大語(yǔ)言模型更具可解釋性,更加可信。
我們知道超大規(guī)模的無(wú)監(jiān)督深度學(xué)習(xí),打造出來(lái)的大模型是一個(gè)黑盒,推理決策鏈不可知,這就會(huì)讓模型結(jié)果變得不夠可信。
而思維鏈將一個(gè)邏輯推理問(wèn)題,分解成了多個(gè)步驟,來(lái)一步步進(jìn)行,這樣生成的結(jié)果就有著更加清晰的邏輯鏈路,提供了一定的可解釋性,讓人知道答案是怎么來(lái)的。
Jason Wei這位奇男子提出的思維鏈,可以說(shuō)是大語(yǔ)言模型驚艷世界的必要條件。
一句神奇的咒語(yǔ)
花式調(diào)戲大語(yǔ)言模型,有一句非常神奇的咒語(yǔ),能讓LLM的回答結(jié)果大不一樣,那就是——“Let’s think step by step”。
此前很多用戶就發(fā)現(xiàn),一旦在問(wèn)題中加上“Let’s think step by step”,ChatGPT就好像被施了魔法,原本做錯(cuò)的數(shù)學(xué)題,突然就會(huì)做了;原本的胡說(shuō)八道,突然就有理有據(jù)了。
這就是思維鏈的魔力。
思維鏈(Chain-of-thought,CoT),指的是一系列有邏輯關(guān)系的思考步驟,形成一個(gè)完整的思考過(guò)程。
人在日常生活中,隨時(shí)隨地都會(huì)用思維鏈來(lái)解決問(wèn)題,比如工作、讀書(shū)經(jīng)常用到的思維導(dǎo)圖,就是為了盡可能全面拆解步驟,不忽略重要細(xì)節(jié),從而充分地考慮問(wèn)題。
這種步驟分解的方式用在提示學(xué)習(xí)中,就被稱(chēng)為思維鏈提示,將大語(yǔ)言模型的推理過(guò)程,分解成一個(gè)個(gè)步驟,直觀地展現(xiàn)出來(lái),這樣開(kāi)發(fā)人員可以在LLM推理出現(xiàn)錯(cuò)誤時(shí),就及時(shí)地修復(fù)。
相當(dāng)于讓AI做分析題,而不是“填空題”,要把推理過(guò)程詳細(xì)說(shuō)清楚,按步驟得分,最后給出答案。
Jason Wei等在2022年的論文中,展示了標(biāo)準(zhǔn)提示學(xué)習(xí)和思維鏈提示的不同之處:
可以看到,類(lèi)似的算術(shù)題,思維鏈提示會(huì)在給出答案之前,還會(huì)自動(dòng)給出推理步驟:
“羅杰先有5個(gè)球,2罐3個(gè)網(wǎng)球等于6個(gè),5 + 6 = 11”
“食堂原來(lái)有23個(gè)蘋(píng)果,用20個(gè)做午餐,23-20=3;又買(mǎi)了6個(gè)蘋(píng)果,3+6=9”
思維鏈提示給出了正確答案,而直接報(bào)答案的傳統(tǒng)提示學(xué)習(xí),給出的答案就是錯(cuò)的,連小學(xué)程度的加減法都做不好。
簡(jiǎn)單來(lái)說(shuō),語(yǔ)言模型很難將所有的語(yǔ)義直接轉(zhuǎn)化為一個(gè)方程,因?yàn)檫@是一個(gè)更加復(fù)雜的思考過(guò)程,但可以通過(guò)中間步驟,來(lái)更好地推理問(wèn)題的每個(gè)部分。
思維鏈提示,就是把一個(gè)多步驟推理問(wèn)題,分解成很多個(gè)中間步驟,分配給更多的計(jì)算量,生成更多的token,再把這些答案拼接在一起進(jìn)行求解。
再舉個(gè)例子,大家都特別希望有一個(gè)全能家政機(jī)器人,但目前的機(jī)器人看起來(lái)都挺傻的,只能執(zhí)行一些很簡(jiǎn)單的開(kāi)關(guān)燈指令。如果用戶問(wèn):“我把可樂(lè)灑在桌子上了,你能把它扔掉,然后拿點(diǎn)東西來(lái)幫我清理嗎?”
機(jī)器人該怎么辦呢?
這時(shí)候有思維鏈的語(yǔ)言模型,會(huì)分析問(wèn)題:用戶把可樂(lè)灑在桌子上了。我會(huì)把它扔掉,然后給用戶一塊海綿。
拆解步驟:找(可樂(lè)),揀(可樂(lè)),找(垃圾),扔(可樂(lè)),找(海綿),揀(海綿),找(桌子),放(海綿)。
總的來(lái)說(shuō),思維鏈就相當(dāng)于讓大語(yǔ)言模型做“因式分解”,把一個(gè)復(fù)雜的推理問(wèn)題進(jìn)行拆解,逐步解決,自然也就更容易得到高質(zhì)量的答案了。
一個(gè)打破僵局的靈感
你可能會(huì)問(wèn),大語(yǔ)言模型“智能涌現(xiàn)”,思維鏈?zhǔn)潜仨毜膯??目前階段,確實(shí)。
因?yàn)?,預(yù)訓(xùn)練的大語(yǔ)言模型參數(shù)規(guī)模巨大,很容易被不相關(guān)的上下文分散注意力,影響性能表現(xiàn),相當(dāng)于學(xué)生上課走神了,被老師叫起來(lái)回答問(wèn)題只能胡言亂語(yǔ)。這時(shí)候就需要提示學(xué)習(xí)(Prompt Learning)來(lái)進(jìn)行微調(diào),相當(dāng)于旁邊有人給提了個(gè)醒,更好地完成下游任務(wù)。
但離散式的硬提示(Discrete Prompt),需要人為設(shè)計(jì)提示詞prompt,而人類(lèi)覺(jué)得不錯(cuò)的提示詞,語(yǔ)言模型卻不一定覺(jué)得好,最后還是回答的一塌糊涂,而且,離散的token作為提示詞,優(yōu)化難度也特別大。
所以,連續(xù)化的軟提示(Continuous Prompt),限制了模型參數(shù)不被調(diào)整,直接優(yōu)化低維向量,這樣就可以用較小的微調(diào)來(lái)提升模型性能。這個(gè)方法省事兒,效果也不錯(cuò),但一直走這條路還是沒(méi)辦法讓語(yǔ)言模型搞懂邏輯推理。
思維鏈的提出,用的是離散式的token,又能自動(dòng)構(gòu)建問(wèn)題、推理步驟和樣例,這就解決了離散提示人工設(shè)計(jì)難的問(wèn)題,而且還能讓語(yǔ)言模型擁有可解釋性。
所以說(shuō),思維鏈promoting,可以算是打破了大語(yǔ)言模型能力僵局的神來(lái)之筆。有時(shí)候技術(shù)的突破靠的就是一個(gè)靈感,而造就這個(gè)靈感的人才機(jī)制、創(chuàng)新環(huán)境、組織模式等,卻需要漫長(zhǎng)的時(shí)間去培育。
一些待解的問(wèn)題
說(shuō)了這么多,是不是有了思維鏈,大語(yǔ)言模型就所向披靡了呢?照這么發(fā)展下去,真能媲美人類(lèi)的能力了?
大可不必?fù)?dān)心,思維鏈本身還是有很多局限的,而它的局限也是大語(yǔ)言模型的局限。
首先,思維鏈必須在模型規(guī)模足夠大時(shí)才能涌現(xiàn)。
在Jason Wei等的研究中,PaLM在擴(kuò)展到540B參數(shù)時(shí),與思維鏈提示結(jié)合,才表現(xiàn)出了先進(jìn)的性能。一些小規(guī)模模型,思維鏈并沒(méi)有太大的影響,能力提升也不會(huì)很大。
谷歌大腦的研究人員認(rèn)為,策略問(wèn)題需要大量的世界知識(shí),而小型模型沒(méi)有足夠的參數(shù)來(lái)記憶這些世界知識(shí),所以也不太可能產(chǎn)生正確的推理步驟。
但問(wèn)題是,能落地到產(chǎn)業(yè)的模型,規(guī)模必然不會(huì)太大,思維鏈拆解了更多的步驟、用到更多的計(jì)算資源,相當(dāng)于更加耗費(fèi)腦力,很多研究機(jī)構(gòu)和企業(yè)是負(fù)擔(dān)不起175B參數(shù)以上的大模型。
所以思維鏈必須要探索,如何在較小的模型中進(jìn)行推理,降低實(shí)際應(yīng)用的成本。
62B比540B的語(yǔ)言模型更容易出錯(cuò)
其次,思維鏈的應(yīng)用領(lǐng)域是有限的。
目前,思維鏈只是在一些有限的領(lǐng)域,比如數(shù)學(xué)問(wèn)題,五個(gè)常識(shí)推理基準(zhǔn)(CommonsenseQA,StrategyQA,Date Understanding和Sports Understanding以及SayCan)上顯現(xiàn)出作用,其他類(lèi)型的任務(wù),像是機(jī)器翻譯,性能提升效果還有待評(píng)估。
而且,相關(guān)研究用到的模型(GPT-3 API)或數(shù)據(jù)集,都是半公開(kāi)或不公開(kāi)的,這就使其難以被復(fù)現(xiàn)和驗(yàn)證。嚴(yán)謹(jǐn)來(lái)看,思維鏈的效果還需要被進(jìn)一步探索,才能下定論。
此外,即使有思維鏈提示,大語(yǔ)言模型依然不能解決小學(xué)水平的數(shù)學(xué)問(wèn)題。
沒(méi)有思維鏈,數(shù)學(xué)推理是指定不行。但有了思維鏈,大語(yǔ)言模型也可能出現(xiàn)錯(cuò)誤推理,尤其是非常簡(jiǎn)單的計(jì)算錯(cuò)誤。Jason Wei等的論文中,曾展示過(guò)在GSM8K的一個(gè)子集中,大語(yǔ)言模型出現(xiàn)了8%的計(jì)算錯(cuò)誤,比如6 * 13 = 68(正確答案是78)。
這說(shuō)明,即使有了思維鏈,大語(yǔ)言模型還是沒(méi)有真正理解數(shù)學(xué)邏輯,不知道加減乘除的真實(shí)意義,只是通過(guò)更精細(xì)的疊加來(lái)“照葫蘆畫(huà)瓢”,所以,對(duì)于有精確要求的任務(wù),還要進(jìn)一步探索新的技術(shù)。
思維鏈確實(shí)增強(qiáng)了大語(yǔ)言模型的能力,但邏輯推理仍然是大語(yǔ)言模型的弱項(xiàng),等待著更多突破。
One more thing
通過(guò)思維鏈,我們可以看到大語(yǔ)言模型為什么強(qiáng),也為什么弱。
它強(qiáng)在,模型規(guī)模的提高,讓語(yǔ)義理解、符號(hào)映射、連貫文本生成等能力躍升,從而讓多步驟推理的思維鏈成為可能,帶來(lái)“智能涌現(xiàn)”。
它弱在,即使大語(yǔ)言模型表現(xiàn)出了前所未有的能力,但思維鏈暴露了它,依然是鸚鵡學(xué)舌,而非真的產(chǎn)生了意識(shí)。
認(rèn)知心理學(xué)教授斯坦尼斯拉斯·迪昂(Stanislas Dehaene)在《精準(zhǔn)學(xué)習(xí)》中提出,緩慢地、理智地、符號(hào)化地運(yùn)作,是人腦的特權(quán)。它可以在任何可能的時(shí)候,提取具有普遍性、邏輯性的、明確的原則。
五六歲的兒童學(xué)會(huì)了較小數(shù)字的加法,就可以理解其含義,用到更大的數(shù)字的加法中,而目前最強(qiáng)大的大語(yǔ)言模型,還連“加法”這個(gè)簡(jiǎn)單的抽象定律都理解不了。
這么說(shuō),并不是讓大家小看AI的能力,而是想說(shuō)明,人腦和AI,各有所長(zhǎng)。
大語(yǔ)言模型,正如科幻作家特德·姜所說(shuō),是網(wǎng)上所有文本的模糊圖像,一張有損壓縮的JPEG,但它可以用遠(yuǎn)超人腦的算力和數(shù)據(jù),極其高產(chǎn)地做好文本生成、圖像生成這樣的模糊任務(wù)。而人腦更擅長(zhǎng)精確的、邏輯性的任務(wù),就像特德·姜說(shuō)的:“當(dāng)你還有原始圖片的時(shí)候,一張模糊的JPEG到底有多大用處呢?”
智能時(shí)代的生存策略,就是不要以己之短,硬碰AI之長(zhǎng)。而是用AI之長(zhǎng),讓自己的長(zhǎng)板變得更長(zhǎng);用人腦的精確,讓AI生成的模糊答案變得更高質(zhì)量;用好思維鏈提示,讓LLM生成時(shí)事半功倍。
《哈利波特》電影中,有一個(gè)“有求必應(yīng)屋”,里面全是人所需要的東西,海倫娜形容它:
If you have to ask, you'll never know. If you know, you need only ask.
如果你還需要問(wèn),就永遠(yuǎn)不會(huì)明白;如果你明白,你只需要開(kāi)口問(wèn)。
有問(wèn)必答的AI時(shí)代,是智者的天堂,也是愚者的地獄。永遠(yuǎn)不要讓AI代替你思考。
免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評(píng)論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個(gè)人觀點(diǎn),與極客網(wǎng)無(wú)關(guān)。文章僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。
- 2024年劇集氪金力大盤(pán)點(diǎn)
- “共創(chuàng)”、“造?!背身斄?,傳統(tǒng)品牌緣何要花式出圈?
- 人形機(jī)器人瘋狂進(jìn)廠打工!銀河通用、智元、樂(lè)聚機(jī)器人怕是都瘋了
- 因?yàn)樗投Y電商!2025微信、抖音、淘寶又撕破了臉
- 中國(guó)手機(jī)市場(chǎng)成績(jī)單:華為增長(zhǎng)最快,蘋(píng)果跌幅最大
- 原以為微軟、亞馬遜、阿里云云計(jì)算大局已定!沒(méi)想到有這四大變數(shù)
- 崖州灣之旅:看見(jiàn)海與智能,聯(lián)想到了未來(lái)
- 榮耀換帥,一艘AI巨輪的舵手更替會(huì)帶來(lái)什么?
- 泳池機(jī)器人Aiper,從價(jià)值鏈高處“游”進(jìn)全球庭院
- 榮耀換帥,加速迎接科技變革下的新全球化挑戰(zhàn)
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。