精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>

<abbr id="ixlwe"></abbr>

<u id="rnaxg"><object id="rnaxg"><sub id="rnaxg"></sub></object></u>

<blockquote id="rnaxg"></blockquote>

<blockquote id="rnaxg"></blockquote>

<track id="rnaxg"><kbd id="rnaxg"></kbd></track>

直播
榜單
7x24h快訊

極客網(wǎng) > 人工智能 >

量變引發(fā)質(zhì)變：AI科學(xué)家關(guān)注大型語(yǔ)言模型的“突現(xiàn)”能力

人閱讀
2022-08-25 10:49:25
作者：極客AI
相關(guān)關(guān)鍵詞

極客網(wǎng) ·人工智能8月25日 大型語(yǔ)言模型（LLM）如今成為媒體炒作和關(guān)注的焦點(diǎn)，因?yàn)樗鼈兯坪蹙哂猩衿娴哪芰?，可以產(chǎn)生長(zhǎng)篇連貫的文本，并且可以做一些它們沒有接受過訓(xùn)練的事情，并在某種程度上參與被認(rèn)為是計(jì)算機(jī)禁區(qū)的話題。

但是，關(guān)于大型語(yǔ)言模型的工作方式還有很多需要學(xué)習(xí)的地方。谷歌公司、斯坦福大學(xué)、DeepMind和北卡羅來(lái)納大學(xué)教堂山分校的研究人員最近進(jìn)行了一項(xiàng)研究，以探索隨著模型規(guī)模增長(zhǎng)和接受更多數(shù)據(jù)訓(xùn)練，大型語(yǔ)言模型可以完成的新任務(wù)。

有關(guān)這一研究的論文揭示了大型語(yǔ)言模型的規(guī)模與其“突現(xiàn)（emergent）”能力之間的關(guān)系。

什么是“突現(xiàn)”？

這項(xiàng)研究的重點(diǎn)是物理學(xué)、生物學(xué)和計(jì)算機(jī)科學(xué)等領(lǐng)域長(zhǎng)期以來(lái)一直在討論“突現(xiàn)”的意義。諾貝爾獎(jiǎng)得主物理學(xué)家Philip Anderson曾在文章中討論了這種量變導(dǎo)致質(zhì)變并出現(xiàn)意想不到的現(xiàn)象。

受他的啟發(fā)，加州大學(xué)伯克利分校教授Jacob Steinhardt將“突現(xiàn)”定義為“當(dāng)系統(tǒng)中的量變導(dǎo)致其行為發(fā)生質(zhì)變時(shí)出現(xiàn)的現(xiàn)象”。

斯坦福大學(xué)博士生、該研究報(bào)告論文的合著者Rishi Bommasani說，“我們希望提供更精確的定義，我們將突現(xiàn)能力定義為‘不存在于較小模型中但存在于較大模型中’的能力?！?nbsp;

為了識(shí)別大型語(yǔ)言模型中的突現(xiàn)能力，研究人員致力尋找相變——在某個(gè)規(guī)模閾值以下，其模型性能接近隨機(jī)；而超過該閾值，其性能遠(yuǎn)高于隨機(jī)。

Bommasani說：“這將突現(xiàn)能力與隨著規(guī)模的擴(kuò)大而平穩(wěn)提高的能力區(qū)分開來(lái)。預(yù)測(cè)何時(shí)會(huì)出現(xiàn)突現(xiàn)能力要困難得多?！?nbsp;

規(guī)?？梢杂貌煌姆绞絹?lái)衡量，包括計(jì)算(FLOPs)、模型大小（參數(shù)數(shù)量）或數(shù)據(jù)大小。在他們的研究中，研究人員專注于計(jì)算和模型的大小。

大型語(yǔ)言模型中的“突現(xiàn)”能力

大型語(yǔ)言模型是一個(gè)特別有趣的案例研究，因?yàn)樗鼈円呀?jīng)顯示出非常明顯的突現(xiàn)跡象。大型語(yǔ)言模型通常采用數(shù)千億個(gè)參數(shù)，并在數(shù)百GB的文本數(shù)據(jù)上進(jìn)行訓(xùn)練，其可用于廣泛的任務(wù)，包括文本生成、回答問題、文章摘要等。

大型語(yǔ)言模型的有趣特征之一是它們的小樣本和零樣本學(xué)習(xí)能力，即執(zhí)行訓(xùn)練示例中未包含的任務(wù)的能力。隨著OpenAI的GPT-3在2020年的推出，大型語(yǔ)言模型中的小樣本學(xué)習(xí)引起了廣泛關(guān)注，此后研究人員對(duì)其范圍和局限性進(jìn)行了大量研究。

在這一研究中，研究人員測(cè)試了幾個(gè)主流的大型語(yǔ)言模型，包括LaMDA、GPT-3、Gopher、Chinchilla和PaLM。他們從一個(gè)包含200多個(gè)任務(wù)的BIG-Bench基準(zhǔn)中選擇了幾個(gè)任務(wù)用于測(cè)試，這些任務(wù)被認(rèn)為超出了當(dāng)前語(yǔ)言模型的能力。同時(shí)還使用了來(lái)自TruthfulQA、MMLU、 WiC的挑戰(zhàn)，這些都是旨在測(cè)試大型語(yǔ)言模型在處理復(fù)雜語(yǔ)言任務(wù)到達(dá)極限的基準(zhǔn)。此外研究人員還測(cè)試了大型語(yǔ)言模型的多步推理、指令跟蹤和多步計(jì)算能力。

Bommasani說，“GPT-3具有標(biāo)志性意義，它引入了真正獨(dú)特的第一波突現(xiàn)能力，也就是現(xiàn)在眾所周知的少量提示/場(chǎng)景學(xué)習(xí)?！?nbsp;

研究結(jié)果表明，規(guī)模與突現(xiàn)的能力高度相關(guān)。每個(gè)大型語(yǔ)言模型系列都有不同的規(guī)模，在特定規(guī)模以下的任務(wù)上表現(xiàn)出隨機(jī)或低于隨機(jī)的性能。在那之后，他們發(fā)現(xiàn)準(zhǔn)確性突然提高，并隨著模型的變大而繼續(xù)提高。

大型語(yǔ)言模型顯示出大規(guī)模的突現(xiàn)能力，其中任務(wù)的性能保持在隨機(jī)水平，直到模型的大小達(dá)到某個(gè)閾值。在此之后，隨著模型變大，性能會(huì)突然提高并繼續(xù)提高。

Bommasani說，“一個(gè)有趣的例子是Pilehvar和Camacho Collados（2019）場(chǎng)景中的WiC基準(zhǔn)測(cè)試，GPT-3和Chinchilla在其中基本上獲得了隨機(jī)的一次性性能，但最終顯示出的性能要高得多。”

大型語(yǔ)言模型產(chǎn)生“突現(xiàn)”能力的原因

大型語(yǔ)言模型中存在突現(xiàn)能力表明，研究人員無(wú)法通過推斷較小的模型的性能來(lái)預(yù)測(cè)大型語(yǔ)言模型的能力。

論文這樣寫道，“突現(xiàn)的小樣本提示任務(wù)也是不可預(yù)測(cè)的，因?yàn)檫@些任務(wù)沒有明確包含在預(yù)訓(xùn)練中，而且我們可能不知道語(yǔ)言模型可以執(zhí)行的小樣本提示任務(wù)的整體范圍?？傮w而言，進(jìn)一步擴(kuò)大規(guī)?？赡軙?huì)賦予更大的語(yǔ)言模型新的突現(xiàn)能力?！?/p>

然而一個(gè)懸而未決的問題是，這些模型是否真的在學(xué)習(xí)這些新興技能所需的知識(shí)。一些研究表明，當(dāng)神經(jīng)網(wǎng)絡(luò)提供正確的結(jié)果時(shí)，它通常將輸入映射到輸出，而不需要學(xué)習(xí)因果關(guān)系、常識(shí)和其他作為學(xué)習(xí)技能基礎(chǔ)的知識(shí)。

Bommasani說，“總的來(lái)說，大型語(yǔ)言模型如何獲得能力、技能在概念層面上并沒有得到很好的理解。有證據(jù)表明，大型語(yǔ)言模型模型在某些方面隨著規(guī)模變大而變得更加穩(wěn)健，其實(shí)最好的模型在關(guān)鍵方面也并不是穩(wěn)定的。此外，穩(wěn)健性/穩(wěn)定性/因果關(guān)系與規(guī)模之間的總體關(guān)系尚不為人所知?！?/p>

在論文中，研究人員還討論了一些規(guī)模限制，其中包括硬件和數(shù)據(jù)瓶頸。此外，他們觀察到某些能力可能不會(huì)隨著規(guī)模的擴(kuò)大而出現(xiàn)，包括遠(yuǎn)遠(yuǎn)超出模型訓(xùn)練數(shù)據(jù)集分布的任務(wù)。他們還警告說，一旦出現(xiàn)突現(xiàn)能力，并不能保證它會(huì)隨著規(guī)模的擴(kuò)大而繼續(xù)提高。

Bommasani說：“我并不期望所有的行為都是突現(xiàn)的，但我確實(shí)希望隨著規(guī)模擴(kuò)大，將會(huì)看到更多的突現(xiàn)行為。在更高的層面上，我預(yù)計(jì)我們將在一段時(shí)間內(nèi)繼續(xù)看到基礎(chǔ)模型范式中的重大驚喜?！?/p>

探索規(guī)?；奶娲桨?nbsp;

隨著機(jī)器學(xué)習(xí)社區(qū)朝著創(chuàng)建更大的語(yǔ)言模型邁進(jìn)，人們?cè)絹?lái)越擔(dān)心大型語(yǔ)言模型的研究和開發(fā)將集中在少數(shù)擁有資金和計(jì)算資源的機(jī)構(gòu)手中。通過發(fā)布開源模型或降低訓(xùn)練和運(yùn)行的成本和技術(shù)開銷，一些研究機(jī)構(gòu)想努力實(shí)現(xiàn)大型語(yǔ)言模型的普惠化。

在論文中，研究人員討論了一些規(guī)?；奶娲桨?，包括在特定任務(wù)數(shù)據(jù)集上微調(diào)較小的模型。論文中寫道，“一旦發(fā)現(xiàn)了一種能力，進(jìn)一步的研究可能會(huì)使這種能力適用于更小規(guī)模的模型。隨著我們繼續(xù)訓(xùn)練規(guī)模越來(lái)越大的語(yǔ)言模型，降低突現(xiàn)能力的規(guī)模門檻將變得更加重要，因?yàn)檫@樣可以讓社區(qū)廣泛使用這些突現(xiàn)能力的研究結(jié)果?！?nbsp;

Bommasani說：“無(wú)論是否有突現(xiàn)能力，加大規(guī)模的好處都可能激勵(lì)人們拼資源，這將激發(fā)或加劇權(quán)力的集中化。從歷史上看，人工智能研究顯然會(huì)從具有開放科學(xué)傳統(tǒng)的學(xué)術(shù)界和工業(yè)界的合作中受益匪淺。鑒于大模型規(guī)模的資源密集型性質(zhì)，我認(rèn)為這些必須堅(jiān)持幾個(gè)互補(bǔ)的前進(jìn)道路：一是規(guī)范研究人員獲取現(xiàn)有模型，二是開放式合作推進(jìn)普惠化，三是結(jié)構(gòu)化資源以提供必要的計(jì)算和數(shù)據(jù)。”

最后他指出，在可預(yù)見的未來(lái)，大型語(yǔ)言模型仍將是機(jī)器學(xué)習(xí)研究的支柱。隨著它們進(jìn)入實(shí)際應(yīng)用，研究人員需要繼續(xù)研究它們的能力和局限性。

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）

為您推薦

極客觀察

欄目相關(guān)

贊助商

極客網(wǎng)熱搜關(guān)鍵詞

人工智能 AI OpenAI 機(jī)器學(xué)習(xí) ChatGPT 生成式AI AI芯片 AIGC U-Mail AI大模型世界人工智能大會(huì) AIoT AirPods Airbnb Rushmail 人工智能AI AI人工智能 Akamai 昇騰AI 生成式人工智能 AIPC Air AI技術(shù) 蘋果AI 谷歌AI GenAI 科大訊飛AI學(xué)習(xí)機(jī) 百度AI CAICT 阿爾法蛋AI詞典筆T10 AI手機(jī) 華為AI 松鼠AI 微軟AI AI+ AIS Airdoc WAIC 昇騰AI創(chuàng)新大賽 AITO 阿爾法蛋AI詞典筆京東AI AI模型智譜AI SoleusAir aigo SoleusAir舒樂氏 2019世界人工智能大會(huì) LIFAair AI機(jī)器人移動(dòng)AI時(shí)代 AI創(chuàng)企人工智能大會(huì) 浙大AIF Zain 人工智能技術(shù) AI應(yīng)用 AI醫(yī)療 AI算力人工智能芯片 AI人才 xAI Airtag AI時(shí)代騰訊AI AI服務(wù)器 AI算法 AI框架 BrainCo AI投資 Gmail 人工智能計(jì)算中心聯(lián)想AI VAIO 人工智能大賽 AI教育 Chain OPENAIGC開發(fā)者大賽 Coremail AI賦能谷歌人工智能 Airwheel AI搜索人工智能名片昇騰AI開發(fā)者創(chuàng)享日 Mirai Airwallex空中云匯人工智能機(jī)器人 AI聊天機(jī)器人 AI音樂 BrainCo強(qiáng)腦科技百度人工智能 AI計(jì)算 AIOps 阿里AI 英偉達(dá)AI芯片 AI原生應(yīng)用 AI基礎(chǔ)設(shè)施蘋果人工智能人工智能+

上一篇

特斯拉AI DAY將于北美時(shí)間9月30日舉行

下一篇

戴爾科技攜手清華大學(xué)iCenter共建人工智能聯(lián)合實(shí)驗(yàn)室+AI數(shù)據(jù)中心

簡(jiǎn)版
原版
投稿
回頂部

2022-08-25

量變引發(fā)質(zhì)變：AI科學(xué)家關(guān)注大型語(yǔ)言模型的“突現(xiàn)”能力

大型語(yǔ)言模型是一個(gè)特別有趣的案例研究，因?yàn)樗鼈円呀?jīng)顯示出非常明顯的突現(xiàn)跡象。

長(zhǎng)按掃碼閱讀全文