極客網(wǎng)·人工智能5月12日 在過(guò)去的幾年,科技巨頭似乎能夠壟斷規(guī)模不斷增長(zhǎng)的大型語(yǔ)言模型(LLM)市場(chǎng)。最近一些大型科技公司的財(cái)報(bào)電話會(huì)議表明,他們?cè)谌斯ぶ悄荛_(kāi)發(fā)方面仍掌握著控制權(quán)。微軟發(fā)布的公告尤其表明,該公司已經(jīng)通過(guò)其人工智能服務(wù)創(chuàng)造了數(shù)十億美元的業(yè)務(wù),包括通過(guò)Azure OpenAI服務(wù)和OpenAI在其云基礎(chǔ)設(shè)施上運(yùn)行的工作負(fù)載。
然而,谷歌最近泄露的一份內(nèi)部文件表明,由于大型語(yǔ)言模型的快速進(jìn)步,大型科技公司的市場(chǎng)地位并不像看起來(lái)那么穩(wěn)固。谷歌在這份文件指出:“我們沒(méi)有護(hù)城河,OpenAI也沒(méi)有?!?/p>
而人工智能市場(chǎng)的動(dòng)態(tài)正在逐漸從“越大越好”轉(zhuǎn)變?yōu)椤霸奖阋嗽胶谩薄ⅰ靶试礁咴胶谩币约啊霸蕉ㄖ圃胶谩?。雖然基于云的大型語(yǔ)言模型和生成式人工智能產(chǎn)品總有自己的市場(chǎng),但客戶現(xiàn)在也有開(kāi)源的選擇可以探索。
大型語(yǔ)言模型的“護(hù)城河”
2020年發(fā)表的有關(guān)GPT-3論文預(yù)測(cè)了大型語(yǔ)言模型規(guī)模化的前景。GPT-3有1750億個(gè)參數(shù),這個(gè)大型語(yǔ)言模型可以做很多它沒(méi)有訓(xùn)練過(guò)的事情。GPT模型的發(fā)展表明,如果繼續(xù)創(chuàng)建更大的大型語(yǔ)言模型,并在更大的數(shù)據(jù)集上訓(xùn)練它們,將能夠創(chuàng)建更有能力的模型。
GPT-3的成功增強(qiáng)了人們對(duì)創(chuàng)建更大語(yǔ)言模型的興趣。幾篇研究論文探討了大型語(yǔ)言模型的迷人特性,包括它們的涌現(xiàn)能力。與此同時(shí),人工智能研究實(shí)驗(yàn)室競(jìng)相創(chuàng)造越來(lái)越大的模型。Gopher(280Bparams)、LaMDA(137Bparams)、PaLM(540Bparams)和Megatron-Turing(530Bparams)就是一些例子。
但與此同時(shí),大型語(yǔ)言模型社區(qū)經(jīng)歷了一個(gè)令人不快的變化。隨著研究重點(diǎn)轉(zhuǎn)向創(chuàng)建規(guī)模更大的大型語(yǔ)言模型,開(kāi)發(fā)和創(chuàng)新的成本急劇上升。像GPT-3這樣的大型語(yǔ)言模型需要花費(fèi)數(shù)百萬(wàn)美元來(lái)訓(xùn)練和運(yùn)行。因此,大型語(yǔ)言模型的工作僅限于少數(shù)資金充足的科技公司和與之相關(guān)的人工智能實(shí)驗(yàn)室。
隨著人工智能實(shí)驗(yàn)室越來(lái)越依賴于營(yíng)利性組織的資金支持,他們面臨著越來(lái)越大的壓力,需要將自己的技術(shù)實(shí)現(xiàn)貨幣化。這促使他們圍繞自己的技術(shù)創(chuàng)造產(chǎn)品。與此同時(shí),他們需要在自己的產(chǎn)品周?chē)ㄔ臁白o(hù)城河”。而“護(hù)城河”就是防止競(jìng)爭(zhēng)對(duì)手復(fù)制企業(yè)的產(chǎn)品和業(yè)務(wù)的防御機(jī)制。
大型語(yǔ)言模型的關(guān)鍵護(hù)城河是:(1)訓(xùn)練數(shù)據(jù);(2)模型權(quán)重;(3)訓(xùn)練和推理成本。大型科技公司已經(jīng)在(3)中占據(jù)優(yōu)勢(shì),因?yàn)樗鼈兪悄軌蛑Ц队?xùn)練和運(yùn)營(yíng)大型大型語(yǔ)言模型費(fèi)用的少數(shù)幾家公司。即使是像BLOOM和OPT175-B這樣的GPT-3的開(kāi)源替代品,對(duì)于那些無(wú)力購(gòu)買(mǎi)或租用數(shù)千個(gè)GPU的資金緊張的科技公司來(lái)說(shuō),通常難以承擔(dān)其運(yùn)行成本。
然而,為了也能夠獲得其他兩個(gè)領(lǐng)域的優(yōu)勢(shì),科技公司將這個(gè)領(lǐng)域推向了更加晦澀和更少共享的方向。OpenAI可能是最具代表性的例子,它從一個(gè)對(duì)外發(fā)布所有研究成果的人工智能實(shí)驗(yàn)室,變成了一家向其大型語(yǔ)言模型出售API訪問(wèn)權(quán)限的初創(chuàng)公司,該公司甚至不再公布有關(guān)其訓(xùn)練數(shù)據(jù)和模型架構(gòu)的細(xì)節(jié)。
在很長(zhǎng)一段時(shí)間里,這似乎是一場(chǎng)底層競(jìng)爭(zhēng),大型科技公司向大型語(yǔ)言模型投入更多資金,使這一領(lǐng)域更加隱秘。
開(kāi)源大型語(yǔ)言模型
隨著控制大型語(yǔ)言模型的權(quán)力集中在幾家大型科技公司手中,開(kāi)源社區(qū)對(duì)此做出了回應(yīng)。在ChatGPT的發(fā)布表明在不同的應(yīng)用程序中遵循大型語(yǔ)言模型的指令越來(lái)越有希望之后,他們的努力得到了回報(bào)。在過(guò)去的幾個(gè)月,人們看到了幾款開(kāi)源大型語(yǔ)言模型的發(fā)布,它們挑戰(zhàn)了大型科技公司已經(jīng)建立的整個(gè)商業(yè)模式。
這些ChatGPT的開(kāi)源替代品證明了幾個(gè)關(guān)鍵點(diǎn)。首先,如果在非常大的數(shù)據(jù)集上進(jìn)行訓(xùn)練,具有數(shù)十億個(gè)參數(shù)的大型語(yǔ)言模型可以在性能方面與非常大的模型競(jìng)爭(zhēng)。其次,可以用很少的預(yù)算和少量的數(shù)據(jù)來(lái)微調(diào)小型的大型語(yǔ)言模型。最后,開(kāi)源大型語(yǔ)言模型的發(fā)展速度比封閉生態(tài)系統(tǒng)要快得多,因?yàn)椴煌膱F(tuán)隊(duì)可以在彼此的工作基礎(chǔ)上進(jìn)行構(gòu)建。
這些大型語(yǔ)言模型中的參數(shù)大多數(shù)在70億到130億個(gè)之間,可以在強(qiáng)大的消費(fèi)級(jí)GPU上運(yùn)行。有趣的是,這場(chǎng)運(yùn)動(dòng)是由Meta開(kāi)發(fā)的開(kāi)源大型語(yǔ)言模型系列LLaMA的發(fā)布引發(fā)的。不久之后,不同的研究人員發(fā)布了Alpaca和Vicuna,這兩個(gè)模型是在LLaMA的基礎(chǔ)上創(chuàng)建的,它們經(jīng)過(guò)了微調(diào),可以像ChatGPT一樣遵循指令。
LLaMA的許可證禁止將其用于商業(yè)目的。Databricks的Dolly2通過(guò)建立在EleutherAI的Pythia模型之上解決了這個(gè)問(wèn)題。Open Assistant是一個(gè)完全開(kāi)放的模型,可以訪問(wèn)所有內(nèi)容,包括代碼、模型權(quán)重和訓(xùn)練數(shù)據(jù)。
這些模型還利用了低秩自適應(yīng)(LoRA)等技術(shù),可以將訓(xùn)練成本降低1000多倍。
這些模型為希望在其應(yīng)用程序中使用大型語(yǔ)言模型的企業(yè)提供了替代方案?,F(xiàn)在,他們可以使用低成本的模型,這些模型可以在他們自己的服務(wù)器上運(yùn)行,并且可以用很少的預(yù)算經(jīng)常更新他們自己的數(shù)據(jù)。
這對(duì)大型科技公司意味著什么?正如谷歌在備忘錄中所警告的那樣,“由于可以承受大型語(yǔ)言模型的研究費(fèi)用,在技術(shù)上保持競(jìng)爭(zhēng)優(yōu)勢(shì)變得更加困難。世界各地的研究機(jī)構(gòu)正在以彼此的工作為基礎(chǔ),以廣度優(yōu)先的方式探索解決方案空間,遠(yuǎn)遠(yuǎn)超出我們的能力。當(dāng)外界的創(chuàng)新稀釋了我們開(kāi)發(fā)的大型語(yǔ)言模型的價(jià)值時(shí),我們努力保守自己的秘密,或者可以嘗試相互學(xué)習(xí)?!?/p>
封閉式大型語(yǔ)言模型的市場(chǎng)會(huì)發(fā)生什么變化?
顯然,大型科技公司無(wú)法壟斷大型語(yǔ)言模型市場(chǎng)。但這并不意味著基于云的語(yǔ)言模型市場(chǎng)將會(huì)消失。正如人工智能研究員Andrej Karpathy指出的那樣,開(kāi)源大型語(yǔ)言模型生態(tài)系統(tǒng)仍然面臨一些問(wèn)題,包括預(yù)訓(xùn)練基礎(chǔ)模型的高成本。
與此同時(shí),開(kāi)源大型語(yǔ)言模型并不適合所有人。對(duì)于那些沒(méi)有內(nèi)部機(jī)器學(xué)習(xí)人才,并希望通過(guò)幾個(gè)API調(diào)用快速將大型語(yǔ)言模型集成到其應(yīng)用程序中的企業(yè)來(lái)說(shuō),無(wú)服務(wù)器黑盒解決方案仍然非常有吸引力。與此同時(shí),像微軟和谷歌這樣的科技巨頭通過(guò)他們的應(yīng)用程序和客戶群擁有非常強(qiáng)大的分銷(xiāo)渠道。
但是,開(kāi)源社區(qū)的努力將擴(kuò)大市場(chǎng)規(guī)模,使在新的環(huán)境(例如筆記本電腦)中使用大型語(yǔ)言模型成為可能。與此同時(shí),它們將在一定程度上使市場(chǎng)實(shí)現(xiàn)商品化,迫使科技巨頭向客戶提供更具競(jìng)爭(zhēng)力的價(jià)格。大型語(yǔ)言模型領(lǐng)域的發(fā)展非常迅速,拭目以待未來(lái)幾周和幾個(gè)月會(huì)發(fā)生什么將是一件有趣的事情。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )