大模型，會(huì)被算力和數(shù)據(jù)“卡脖子”嗎？丨亮見30期

丨劃重點(diǎn)

1. 大模型可以分為決策式AI和生成式AI，就像人類也分為男人和女人一樣。

2. 從零開始建立類似于GPT的模型，算力確實(shí)至關(guān)重要，訓(xùn)練方法同樣重要，現(xiàn)有模型基礎(chǔ)上微調(diào)來適用特定場景，算力需求就不那么高。

3. 數(shù)據(jù)訓(xùn)練就是「垃圾進(jìn)，垃圾出」，數(shù)據(jù)量不僅要大，還要質(zhì)量好，更要數(shù)據(jù)深度。

4. 讓人工智能來承擔(dān)體力勞動(dòng)、乏味和耗時(shí)的機(jī)械化工作，符合工業(yè)革命的邏輯。

5. 模型本身它是一個(gè)數(shù)字化的產(chǎn)物，不具備人類情感的機(jī)制。

編輯 / 趙楊博蘇揚(yáng)

丨概述

大模型遍地開花，激進(jìn)者高喊超越ChatGPT，在追趕的路徑上，大家各有差異。

大廠們將目光對準(zhǔn)通用大模型，也有越來越多的團(tuán)隊(duì)選擇從更加垂直的細(xì)分賽道切入，比如醫(yī)療、科學(xué)等領(lǐng)域。

《生產(chǎn)式人工智能》作者、人工智能專業(yè)博士、PayPal全球數(shù)據(jù)科學(xué)平臺(tái)創(chuàng)始負(fù)責(zé)人丁磊博士認(rèn)為大模型的發(fā)展越來越具象化，可以融入到我們的工作和生活中，以提高效率，滿足各種需求。

關(guān)于算力和數(shù)據(jù)是否會(huì)「卡大模型的脖子」，在丁磊博士看來，要分情況而定，「在討論大模型的應(yīng)用時(shí)，除了算力之外，我認(rèn)為訓(xùn)練方法也非常重要。」

伴隨著人工智能的極速「狂飆」，有人認(rèn)為AI未來將會(huì)取代大量的工作，丁磊博士認(rèn)為不要只看靜態(tài)的情況，從動(dòng)態(tài)角度來看工作的需求也在增加，需要更多中高端的崗位來創(chuàng)造更多機(jī)會(huì)，讓人工智能來承擔(dān)體力勞動(dòng)、乏味和耗時(shí)的機(jī)械化工作。這符合工業(yè)革命的邏輯，它替代了一些低效的崗位，但同時(shí)創(chuàng)造了更多當(dāng)時(shí)中高端的崗位。

大模型顛覆了巨頭的壟斷，算力很重要但不是唯一

劉興亮：大模型為什么會(huì)這么熱，它到底能做點(diǎn)什么？

丁磊：大模型現(xiàn)在很火，但實(shí)際上很多人并不了解模型本身。

模型是什么？我個(gè)人的理解是模型可以被定義為知識(shí)和邏輯的數(shù)字化載體。過去，如果要存儲(chǔ)數(shù)據(jù)和信息，可能使用數(shù)據(jù)庫就足夠了，但是如果要同時(shí)存儲(chǔ)知識(shí)和邏輯，就需要一個(gè)數(shù)字化的載體，這就是模型，它類似于人腦，我們經(jīng)常將人腦與模型進(jìn)行比較，人類的特點(diǎn)是根據(jù)經(jīng)驗(yàn)習(xí)得規(guī)律，這些規(guī)律存在于人腦中。當(dāng)然，行業(yè)也嘗試過使用其它形式來存儲(chǔ)知識(shí)和邏輯，但并不太成功，直到行業(yè)形成共識(shí)后，我們逐漸都使用模型來記錄所謂的AI學(xué)習(xí)到的知識(shí)和邏輯。

大模型可以分為兩類，決策式AI和生成式AI，就像人類也分為男人和女人一樣。

決策式AI更像是在做選擇題，它的特點(diǎn)在于分類，而分類是一種非常強(qiáng)大的表達(dá)形式，例如人臉識(shí)別就是一個(gè)分類問題，當(dāng)用戶刷臉時(shí)不會(huì)被錯(cuò)誤的識(shí)別成其他人，自動(dòng)駕駛汽車也有一定的內(nèi)在分類判斷邏輯，AI知道何時(shí)加速、何時(shí)減速，甚至何時(shí)剎車，這都是決策式AI的領(lǐng)域。

與決策式AI相對應(yīng)的是生成式AI，也就是今天所說的大模型，它更擅長回答簡答題，創(chuàng)造內(nèi)容或者創(chuàng)作，這是它的強(qiáng)項(xiàng)。

劉興亮：大模型發(fā)展到今天的這個(gè)能力經(jīng)歷了哪些階段，它早期的設(shè)想是什么，未來它還將發(fā)展到何處？

丁磊：生成式人工智能，是人工智能的一種形式，可以理解是AIGC技術(shù)的基礎(chǔ)。AIGC是指通過人工智能生成各種內(nèi)容，包括圖片、文本、視頻，它的出現(xiàn)使得我們的模型變得越來越具象化。

當(dāng)下AIGC應(yīng)用圖譜，來源：清華大學(xué)AIGC發(fā)展研究報(bào)告1.0

現(xiàn)在的模型越來越趨向于根據(jù)輸入生成對應(yīng)的內(nèi)容，比如ChatGPT，你可能很熟悉它生成的是什么，甚至可還以提供交互式的對話體驗(yàn)。

在2014年，業(yè)界首次發(fā)明了一種模型，稱為序列到序列（Sequence to sequence）模型，在此之前，人工智能模型只能輸出有限的內(nèi)容，可能只能是一個(gè)分類或一個(gè)數(shù)值，序列到序列模型出現(xiàn)之后，我們可以輸出任何東西。比如你的工作任務(wù)可以編碼成模型的輸入序列，要求的結(jié)果可以編碼成輸出序列，模型可以實(shí)現(xiàn)日常工作任務(wù)的自動(dòng)化。

在2017年出現(xiàn)了一種稱為Transformer的模型， GPT（生成式預(yù)訓(xùn)練）模型就是應(yīng)用案例。這個(gè)模型引入了注意力機(jī)制，類似于人類在做事時(shí)的注意力。

到了2018年，OpenAI發(fā)布了第一版的GPT模型，也稱為GPT-1。當(dāng)時(shí)它的效果還沒有達(dá)到引爆點(diǎn)，沒有引起公眾的廣泛關(guān)注，主要作為一個(gè)學(xué)術(shù)產(chǎn)品或研發(fā)工具存在，只在學(xué)術(shù)圈內(nèi)受到關(guān)注。

GPT-1模型有一億個(gè)參數(shù)，參數(shù)可以理解為神經(jīng)網(wǎng)絡(luò)中可以學(xué)習(xí)更新的部分，模型的復(fù)雜度與參數(shù)數(shù)量相關(guān)。

在2019年發(fā)布了GPT-2模型，它擁有十五億個(gè)參數(shù)，提升了十倍多。時(shí)至2022年發(fā)布了ChatGPT，相當(dāng)于GPT-3.5的微調(diào)版本，擁有一千七百五十億個(gè)參數(shù)。這個(gè)參數(shù)數(shù)量已經(jīng)超過了人腦中的神經(jīng)元數(shù)量，但并不意味著它比人腦更復(fù)雜。人腦的工作機(jī)制不是現(xiàn)有的神經(jīng)網(wǎng)絡(luò)可以完全模擬的。然而，這種復(fù)雜性和規(guī)模足以使這些模型稱為「大模型」。

除了用于交互式對話的GPT系列模型，還有其他大型模型的應(yīng)用。比如穩(wěn)定擴(kuò)散（Stable Diffusion）模型，它專注于繪畫領(lǐng)域，還有一些用于視頻生成的模型和用于音樂生成的模型。

Stable Diffusion將文字轉(zhuǎn)換成圖片，來源：機(jī)器之門

隨著時(shí)間的推移， OpenAI發(fā)布了GPT-4模型，引起了很多人的關(guān)注。然而，關(guān)于GPT-4模型的詳細(xì)技術(shù)報(bào)告非常有限。微軟研究院等其他機(jī)構(gòu)對GPT-4模型進(jìn)行了詳細(xì)評估，這在行業(yè)內(nèi)也是比較罕見的。這說明大型模型在某種程度上顛覆了傳統(tǒng)大公司在該領(lǐng)域的領(lǐng)先地位。

今年還有一個(gè)突破性的進(jìn)展，就是SAM模型（Segment-Anything Model），它能夠分割圖像中的物體，這在計(jì)算機(jī)視覺領(lǐng)域非常重要。

劉興亮：現(xiàn)在大模型創(chuàng)業(yè)門檻至少需要5000萬美元，其中2000萬美元要用來購買算力。除了算力，還有哪些條件決定了它能力的上限？

丁磊：在討論大模型的應(yīng)用時(shí)，除了算力之外，我認(rèn)為訓(xùn)練方法也非常重要。

算力這個(gè)話題已經(jīng)被討論了很久，我們可以將問題分為兩類進(jìn)行討論。

第一類是從零開始建立類似于GPT的模型。對于這類任務(wù)來說，算力確實(shí)至關(guān)重要，但訓(xùn)練方法同樣重要。

第二類任務(wù)是在大模型的基礎(chǔ)上進(jìn)行微調(diào)來適用于特定應(yīng)用場景，這個(gè)場景更多地與中小企業(yè)相關(guān)。對于這類任務(wù)來說，算力的需求就不那么高了，你可能只需要幾萬美元，甚至幾十萬美元就能解決問題。

對于第一種場景，算力是絕對必要的，訓(xùn)練方法同樣重要。對于第二種場景，算力的需求就不那么高，大部分公司都可以承擔(dān)這個(gè)費(fèi)用，但訓(xùn)練方法仍然非常重要。

垃圾數(shù)據(jù)訓(xùn)練垃圾模型

劉興亮：數(shù)據(jù)是大模型的這個(gè)生命源泉嗎，越多就越好嗎？

丁磊：訓(xùn)練模型使用數(shù)據(jù)，就像讓孩子學(xué)習(xí)新知識(shí)和練習(xí)新題目一樣。你可能認(rèn)為孩子書讀得越多，或者做得習(xí)題越多就越好，但其實(shí)并不一定是這樣。因此，我們在討論數(shù)據(jù)時(shí)不僅要關(guān)注數(shù)據(jù)的量，還要關(guān)注數(shù)據(jù)的質(zhì)量。如果數(shù)據(jù)的質(zhì)量不好，僅僅增加數(shù)據(jù)量也沒有用處。

如果你每天學(xué)習(xí)互聯(lián)網(wǎng)上的垃圾信息，能學(xué)到什么好的模型？所以學(xué)習(xí)這件事就是「垃圾進(jìn)，垃圾出」。所以數(shù)據(jù)不僅要大，還要質(zhì)量好。在這里我提出了一個(gè)觀點(diǎn)——數(shù)據(jù)要大，包括模型也要大，但更重要的是數(shù)據(jù)要深，即在某個(gè)垂直領(lǐng)域能夠深入理解事物。

數(shù)量大而質(zhì)量不好的數(shù)據(jù)絕對無法訓(xùn)練出好的模型，這個(gè)觀點(diǎn)正反兩面都要看，也要辯證地、客觀地進(jìn)行討論。

劉興亮：大模型訓(xùn)練所用的數(shù)據(jù)從哪里來，這些數(shù)據(jù)又怎么樣去分層，是否會(huì)有隱私和版權(quán)的風(fēng)險(xiǎn)？

丁磊：首先講一下GPT模型的訓(xùn)練語料來源。根據(jù)OpenAI官方的說法，它的訓(xùn)練語料主要來自于互聯(lián)網(wǎng)和一些公開的書籍?？梢哉f，這些語料相當(dāng)于物理世界在數(shù)字空間中的映射，因?yàn)榛ヂ?lián)網(wǎng)數(shù)據(jù)是對現(xiàn)實(shí)世界的一種反映。通過從互聯(lián)網(wǎng)數(shù)據(jù)中學(xué)習(xí)，GPT模型可以獲取一定的通識(shí)和邏輯。

過去，這些實(shí)驗(yàn)并沒有引起太多關(guān)注，但現(xiàn)在這個(gè)模型越來越受到重視，利益分配就成為一個(gè)問題，今年年初圖片供應(yīng)商Getty Images起訴了一家推出圖片生成模型的機(jī)構(gòu)，聲稱該機(jī)構(gòu)使用了他們網(wǎng)站上的圖片來訓(xùn)練模型，但沒有付費(fèi)，最終這個(gè)官司的結(jié)果尚未確定。

Getty images起訴Stability AI盜圖，左為Stability AI生成圖，右為Getty image

大模型的數(shù)據(jù)來源涉及到如何平衡著作權(quán)保護(hù)和創(chuàng)新之間的權(quán)衡問題，要知道訓(xùn)練模型并不是直接復(fù)制數(shù)據(jù)或出版數(shù)據(jù)，這個(gè)問題存在一定的灰色地帶，也是一個(gè)具有挑戰(zhàn)性的法律問題，我相信未來的法律和法規(guī)會(huì)考慮平衡著作權(quán)保護(hù)和AI創(chuàng)新的因素，以兼顧各方的共同利益。

劉興亮：大模型訓(xùn)練的數(shù)據(jù)如何篩選，目前有什么能夠規(guī)避這這類問題的做法？

丁磊：模型訓(xùn)練的確需要人工質(zhì)檢數(shù)據(jù)來確保數(shù)據(jù)的質(zhì)量。如果不去檢查數(shù)據(jù)，不能確保訓(xùn)練出來的模型是合理的，人工質(zhì)檢一直是無法回避的話題。

為了更好的訓(xùn)練模型，通常會(huì)在勞動(dòng)力成本較低的地方建立質(zhì)檢團(tuán)隊(duì)或數(shù)據(jù)標(biāo)注團(tuán)隊(duì)，以確保訓(xùn)練數(shù)據(jù)的質(zhì)量。如果沒有這些人工的數(shù)據(jù)標(biāo)注或質(zhì)檢，很難確保訓(xùn)練數(shù)據(jù)的質(zhì)量沒有問題。不僅在訓(xùn)練數(shù)據(jù)方面需要質(zhì)檢，我們也知道在ChatGPT的訓(xùn)練過程中，也會(huì)對模型生成的結(jié)果進(jìn)行質(zhì)檢。

在模型的發(fā)展過程中，無論是輸入的訓(xùn)練數(shù)據(jù)還是輸出的結(jié)果，我們都需要通過人工的反饋和修正來改進(jìn)。未來甚至可以開發(fā)一種大模型，專門用于檢測和打擊虛假數(shù)據(jù)，類似于打假的大模型。

大模型取代舊崗位，創(chuàng)造新職業(yè)

劉興亮：很多人都認(rèn)為大模型未來要取代人工，在這個(gè)過程中人類應(yīng)該如何去應(yīng)對？

丁磊: 普華永道在2018年底發(fā)布了一份名為《人工智能和相關(guān)技術(shù)對中國就業(yè)的凈影響》的報(bào)告。

根據(jù)他們的研究，未來20年內(nèi)，人工智能和相關(guān)技術(shù)將取代中國26%的工作崗位。好消息是，通過提高生產(chǎn)力和實(shí)際收入水平，這些技術(shù)也將新增38%的新工作崗位。這意味著凈增的工作崗位將占到12%，人工智能最終會(huì)為就業(yè)創(chuàng)造新的機(jī)會(huì)。

想象一下，過去我們搬磚是需要靠人力來完成的，但現(xiàn)在通過大型機(jī)械設(shè)備可以完成搬運(yùn)工作，隨著建筑業(yè)的發(fā)展，對建筑工人的需求增加了，因?yàn)樾枰w更多的房子。

再來看客服行業(yè)，可能是最早受到人工智能改變的行業(yè)之一。客服行業(yè)在過去在我們國家是不夠的，因?yàn)閺臉I(yè)人員數(shù)量不足，尤其是優(yōu)秀的從業(yè)人員不足，所以很多企業(yè)無法提供客服，導(dǎo)致消費(fèi)者等待時(shí)間較長，滿意度較低，企業(yè)失去客戶，這是一個(gè)負(fù)面影響，但如果我們有更多高質(zhì)量的客服人員，那么會(huì)有更多企業(yè)選擇使用客服來改進(jìn)業(yè)務(wù)流程。

不要只看靜態(tài)的情況，從動(dòng)態(tài)角度來看，需求也在增加，我們需要更多中高端的崗位來創(chuàng)造更多機(jī)會(huì)。讓人工智能來承擔(dān)體力勞動(dòng)、乏味和耗時(shí)的機(jī)械化工作，這其實(shí)符合工業(yè)革命的邏輯。

劉興亮：人工智能在特定的行業(yè)里面取代人類？

丁磊：先總結(jié)一下，人工智能在替代人類工作方面有四個(gè)方面：人做不了的任務(wù)、人搞不太好的任務(wù)、人效率低的任務(wù)和人不穩(wěn)定的任務(wù)。

首先是人類無法完成的任務(wù)。例如，在危險(xiǎn)環(huán)境下，人類無法進(jìn)行工作，這時(shí)就需要使用機(jī)器人來代替。其次是一些需要實(shí)時(shí)數(shù)據(jù)處理的任務(wù)，如廣告推薦系統(tǒng)，傳統(tǒng)的方法無法實(shí)時(shí)處理大量數(shù)據(jù)，而人工智能算法可以通過數(shù)據(jù)分析來進(jìn)行實(shí)時(shí)推薦。

第二個(gè)方面是人類不擅長的任務(wù)。舉個(gè)例子，傳統(tǒng)金融機(jī)構(gòu)進(jìn)行風(fēng)險(xiǎn)控制時(shí)需要進(jìn)行審查和判斷。傳統(tǒng)方法可能受限于數(shù)據(jù)的不完整性，無法做出準(zhǔn)確判斷。然而結(jié)合人工智能的數(shù)據(jù)分析能力，可以通過大量底層數(shù)據(jù)的分析來準(zhǔn)確評估風(fēng)險(xiǎn)，提高判斷質(zhì)量。

第三個(gè)方面是人類效率較低的任務(wù)。內(nèi)容、設(shè)計(jì)等行業(yè)存在許多基礎(chǔ)的文案和圖片工作，通過使用人工智能工具，可以大幅提高工作效率，例如快速創(chuàng)作文案和生成圖片，在這些工作場景下對人的產(chǎn)出進(jìn)行提效。

第四個(gè)方面是人類工作存在的不穩(wěn)定性。例如，工廠中的質(zhì)檢工作需要人員檢查產(chǎn)品是否有劃痕等問題，人工智能質(zhì)檢可以解決這類工作中人類存在的不穩(wěn)定性，保證產(chǎn)品標(biāo)準(zhǔn)的統(tǒng)一。

大模型不會(huì)具備情感功能

劉興亮：有不少人開始提及AI談戀愛的這個(gè)概念，您覺得AI真的會(huì)有情感嗎，需求真實(shí)存在嗎？

丁磊：如果有一個(gè)工具可以滿足人的情感需求，這可能是一件好事。你也可能認(rèn)為人工智能可能不會(huì)產(chǎn)生情感，因?yàn)樗皇且粋€(gè)程序，有著自己的目標(biāo)，比如優(yōu)化回答的準(zhǔn)確率或提升客戶滿意度。

訓(xùn)練模型時(shí)會(huì)設(shè)定特定的KPI，模型可能會(huì)在這些指標(biāo)上表現(xiàn)出色，但本身它是一個(gè)數(shù)字化的產(chǎn)物，不具備人類情感的機(jī)制。我們?nèi)祟悓η楦袡C(jī)制的理解可能也并不完全，它可能是由人類大腦的某個(gè)部分產(chǎn)生的，我們對此并不十分了解。從這個(gè)意義上說，模型作為一個(gè)數(shù)字化的載體相對簡單，我認(rèn)為它不太可能具備自己的情感。

作為AI數(shù)字人，如果它能夠非常逼真地模仿一個(gè)人，可以以假亂真。在這種情況下，需要得到相關(guān)當(dāng)事人的同意，包括被復(fù)制人的同意。在這個(gè)前提下，我認(rèn)為可以解決一些現(xiàn)實(shí)問題。所以，雖然人工智能可能無法真正產(chǎn)生情感，但在滿足人們某些情感需求的方面，通過逼真地模仿和復(fù)制人的方式，人工智能仍然有一定的應(yīng)用前景。

圖為網(wǎng)友ChaChaAI利用AI技術(shù)“復(fù)活”自己的奶奶

劉興亮：AI的自主意識(shí)會(huì)成為可能嗎？

丁磊：自主意識(shí)是一個(gè)更加抽象的概念。當(dāng)我們能夠觀察到與自主意識(shí)相對應(yīng)的動(dòng)作和行為時(shí)，我們才能認(rèn)為人工智能具有自主意識(shí)，這種理解可以類比為讓大型模型自主控制你的電腦。

最近，微軟發(fā)布Windows的集中式AI協(xié)助平臺(tái)Copilot，用戶可以通過與Windows進(jìn)行對話形式的交互，向它發(fā)出指令，它會(huì)執(zhí)行相應(yīng)的任務(wù)。但這仍然是一種對話形式，而不是真正的自主意識(shí)。

當(dāng)我們將大型模型與各種工具（包括軟件和硬件）連接在一起時(shí)，你可以近似地認(rèn)為它具有一定程度的自主意識(shí)。這種體驗(yàn)是指你的電腦不再只是按照你的指令動(dòng)作，而是以它自己的方式與你交互，你可以將你的電腦視為一個(gè)機(jī)器人，當(dāng)它在沒有過多限制的情況下自主驅(qū)動(dòng)時(shí)，一定程度上，你可以想象它具備了自主意識(shí)的外在表現(xiàn)形式。

免責(zé)聲明：此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章，所有文字和圖片版權(quán)歸作者所有，且僅代表作者個(gè)人觀點(diǎn)，與極客網(wǎng)無關(guān)。文章僅供讀者參考，并請自行核實(shí)相關(guān)內(nèi)容。投訴郵箱：editor@fromgeek.com。

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請進(jìn)一步核實(shí)，并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

大模型，會(huì)被算力和數(shù)據(jù)“卡脖子”嗎？丨亮見30期

下一篇

精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

大模型，會(huì)被算力和數(shù)據(jù)“卡脖子”嗎？丨亮見30期

下一篇

大模型，會(huì)被算力和數(shù)據(jù)“卡脖子”嗎？丨亮見30期