精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>
  • <span id="ixlwe"></span>

  • <abbr id="ixlwe"></abbr>

    大模型,會被算力和數(shù)據(jù)“卡脖子”嗎?丨亮見30期

    丨劃重點(diǎn)

    1. 大模型可以分為決策式AI和生成式AI,就像人類也分為男人和女人一樣。

    2. 從零開始建立類似于GPT的模型,算力確實(shí)至關(guān)重要,訓(xùn)練方法同樣重要,現(xiàn)有模型基礎(chǔ)上微調(diào)來適用特定場景,算力需求就不那么高。

    3. 數(shù)據(jù)訓(xùn)練就是「垃圾進(jìn),垃圾出」,數(shù)據(jù)量不僅要大,還要質(zhì)量好,更要數(shù)據(jù)深度。

    4. 讓人工智能來承擔(dān)體力勞動、乏味和耗時的機(jī)械化工作,符合工業(yè)革命的邏輯。

    5. 模型本身它是一個數(shù)字化的產(chǎn)物,不具備人類情感的機(jī)制。

    編輯 / 趙楊博 蘇揚(yáng)

    丨概述

    大模型遍地開花,激進(jìn)者高喊超越ChatGPT,在追趕的路徑上,大家各有差異。

    大廠們將目光對準(zhǔn)通用大模型,也有越來越多的團(tuán)隊選擇從更加垂直的細(xì)分賽道切入,比如醫(yī)療、科學(xué)等領(lǐng)域。

    《生產(chǎn)式人工智能》作者、人工智能專業(yè)博士、PayPal全球數(shù)據(jù)科學(xué)平臺創(chuàng)始負(fù)責(zé)人 丁磊博士認(rèn)為大模型的發(fā)展越來越具象化,可以融入到我們的工作和生活中,以提高效率,滿足各種需求。

    關(guān)于算力和數(shù)據(jù)是否會「卡大模型的脖子」,在丁磊博士看來,要分情況而定,「在討論大模型的應(yīng)用時,除了算力之外,我認(rèn)為訓(xùn)練方法也非常重要?!?/p>

    伴隨著人工智能的極速「狂飆」,有人認(rèn)為AI未來將會取代大量的工作,丁磊博士認(rèn)為不要只看靜態(tài)的情況,從動態(tài)角度來看工作的需求也在增加,需要更多中高端的崗位來創(chuàng)造更多機(jī)會,讓人工智能來承擔(dān)體力勞動、乏味和耗時的機(jī)械化工作。這符合工業(yè)革命的邏輯,它替代了一些低效的崗位,但同時創(chuàng)造了更多當(dāng)時中高端的崗位。

    01

    大模型顛覆了巨頭的壟斷,算力很重要但不是唯一

    劉興亮:大模型為什么會這么熱,它到底能做點(diǎn)什么?

    丁磊:大模型現(xiàn)在很火,但實(shí)際上很多人并不了解模型本身。

    模型是什么?我個人的理解是模型可以被定義為知識和邏輯的數(shù)字化載體。過去,如果要存儲數(shù)據(jù)和信息,可能使用數(shù)據(jù)庫就足夠了,但是如果要同時存儲知識和邏輯,就需要一個數(shù)字化的載體,這就是模型,它類似于人腦,我們經(jīng)常將人腦與模型進(jìn)行比較,人類的特點(diǎn)是根據(jù)經(jīng)驗(yàn)習(xí)得規(guī)律,這些規(guī)律存在于人腦中。當(dāng)然,行業(yè)也嘗試過使用其它形式來存儲知識和邏輯,但并不太成功,直到行業(yè)形成共識后,我們逐漸都使用模型來記錄所謂的AI學(xué)習(xí)到的知識和邏輯。

    大模型可以分為兩類,決策式AI和生成式AI,就像人類也分為男人和女人一樣。

    決策式AI更像是在做選擇題,它的特點(diǎn)在于分類,而分類是一種非常強(qiáng)大的表達(dá)形式,例如人臉識別就是一個分類問題,當(dāng)用戶刷臉時不會被錯誤的識別成其他人,自動駕駛汽車也有一定的內(nèi)在分類判斷邏輯,AI知道何時加速、何時減速,甚至何時剎車,這都是決策式AI的領(lǐng)域。

    與決策式AI相對應(yīng)的是生成式AI,也就是今天所說的大模型,它更擅長回答簡答題,創(chuàng)造內(nèi)容或者創(chuàng)作,這是它的強(qiáng)項(xiàng)。

    劉興亮:大模型發(fā)展到今天的這個能力經(jīng)歷了哪些階段,它早期的設(shè)想是什么,未來它還將發(fā)展到何處?

    丁磊:生成式人工智能,是人工智能的一種形式,可以理解是AIGC技術(shù)的基礎(chǔ)。AIGC是指通過人工智能生成各種內(nèi)容,包括圖片、文本、視頻,它的出現(xiàn)使得我們的模型變得越來越具象化。

    當(dāng)下AIGC應(yīng)用圖譜,來源:清華大學(xué)AIGC發(fā)展研究報告1.0

    現(xiàn)在的模型越來越趨向于根據(jù)輸入生成對應(yīng)的內(nèi)容,比如ChatGPT,你可能很熟悉它生成的是什么,甚至可還以提供交互式的對話體驗(yàn)。

    在2014年,業(yè)界首次發(fā)明了一種模型,稱為序列到序列(Sequence to sequence)模型,在此之前,人工智能模型只能輸出有限的內(nèi)容,可能只能是一個分類或一個數(shù)值,序列到序列模型出現(xiàn)之后,我們可以輸出任何東西。比如你的工作任務(wù)可以編碼成模型的輸入序列,要求的結(jié)果可以編碼成輸出序列,模型可以實(shí)現(xiàn)日常工作任務(wù)的自動化。

    在2017年出現(xiàn)了一種稱為Transformer的模型, GPT(生成式預(yù)訓(xùn)練)模型就是應(yīng)用案例。這個模型引入了注意力機(jī)制,類似于人類在做事時的注意力。

    到了2018年,OpenAI發(fā)布了第一版的GPT模型,也稱為GPT-1。當(dāng)時它的效果還沒有達(dá)到引爆點(diǎn),沒有引起公眾的廣泛關(guān)注,主要作為一個學(xué)術(shù)產(chǎn)品或研發(fā)工具存在,只在學(xué)術(shù)圈內(nèi)受到關(guān)注。

    GPT-1模型有一億個參數(shù),參數(shù)可以理解為神經(jīng)網(wǎng)絡(luò)中可以學(xué)習(xí)更新的部分,模型的復(fù)雜度與參數(shù)數(shù)量相關(guān)。

    在2019年發(fā)布了GPT-2模型,它擁有十五億個參數(shù),提升了十倍多。時至2022年發(fā)布了ChatGPT,相當(dāng)于GPT-3.5的微調(diào)版本,擁有一千七百五十億個參數(shù)。這個參數(shù)數(shù)量已經(jīng)超過了人腦中的神經(jīng)元數(shù)量,但并不意味著它比人腦更復(fù)雜。人腦的工作機(jī)制不是現(xiàn)有的神經(jīng)網(wǎng)絡(luò)可以完全模擬的。然而,這種復(fù)雜性和規(guī)模足以使這些模型稱為「大模型」。

    除了用于交互式對話的GPT系列模型,還有其他大型模型的應(yīng)用。比如穩(wěn)定擴(kuò)散(Stable Diffusion)模型,它專注于繪畫領(lǐng)域,還有一些用于視頻生成的模型和用于音樂生成的模型。

    Stable Diffusion將文字轉(zhuǎn)換成圖片,來源:機(jī)器之門

    隨著時間的推移, OpenAI發(fā)布了GPT-4模型,引起了很多人的關(guān)注。然而,關(guān)于GPT-4模型的詳細(xì)技術(shù)報告非常有限。微軟研究院等其他機(jī)構(gòu)對GPT-4模型進(jìn)行了詳細(xì)評估,這在行業(yè)內(nèi)也是比較罕見的。這說明大型模型在某種程度上顛覆了傳統(tǒng)大公司在該領(lǐng)域的領(lǐng)先地位。

    今年還有一個突破性的進(jìn)展,就是SAM模型(Segment-Anything Model),它能夠分割圖像中的物體,這在計算機(jī)視覺領(lǐng)域非常重要。

    劉興亮:現(xiàn)在大模型創(chuàng)業(yè)門檻至少需要5000萬美元,其中2000萬美元要用來購買算力。除了算力,還有哪些條件決定了它能力的上限?

    丁磊:在討論大模型的應(yīng)用時,除了算力之外,我認(rèn)為訓(xùn)練方法也非常重要。

    算力這個話題已經(jīng)被討論了很久,我們可以將問題分為兩類進(jìn)行討論。

    第一類是從零開始建立類似于GPT的模型。對于這類任務(wù)來說,算力確實(shí)至關(guān)重要,但訓(xùn)練方法同樣重要。

    第二類任務(wù)是在大模型的基礎(chǔ)上進(jìn)行微調(diào)來適用于特定應(yīng)用場景,這個場景更多地與中小企業(yè)相關(guān)。對于這類任務(wù)來說,算力的需求就不那么高了,你可能只需要幾萬美元,甚至幾十萬美元就能解決問題。

    對于第一種場景,算力是絕對必要的,訓(xùn)練方法同樣重要。對于第二種場景,算力的需求就不那么高,大部分公司都可以承擔(dān)這個費(fèi)用,但訓(xùn)練方法仍然非常重要。

    02

    垃圾數(shù)據(jù)訓(xùn)練垃圾模型

    劉興亮:數(shù)據(jù)是大模型的這個生命源泉嗎,越多就越好嗎?

    丁磊:訓(xùn)練模型使用數(shù)據(jù),就像讓孩子學(xué)習(xí)新知識和練習(xí)新題目一樣。你可能認(rèn)為孩子書讀得越多,或者做得習(xí)題越多就越好,但其實(shí)并不一定是這樣。因此,我們在討論數(shù)據(jù)時不僅要關(guān)注數(shù)據(jù)的量,還要關(guān)注數(shù)據(jù)的質(zhì)量。如果數(shù)據(jù)的質(zhì)量不好,僅僅增加數(shù)據(jù)量也沒有用處。

    如果你每天學(xué)習(xí)互聯(lián)網(wǎng)上的垃圾信息,能學(xué)到什么好的模型?所以學(xué)習(xí)這件事就是「垃圾進(jìn),垃圾出」。所以數(shù)據(jù)不僅要大,還要質(zhì)量好。在這里我提出了一個觀點(diǎn)——數(shù)據(jù)要大,包括模型也要大,但更重要的是數(shù)據(jù)要深,即在某個垂直領(lǐng)域能夠深入理解事物。

    數(shù)量大而質(zhì)量不好的數(shù)據(jù)絕對無法訓(xùn)練出好的模型,這個觀點(diǎn)正反兩面都要看,也要辯證地、客觀地進(jìn)行討論。

    劉興亮:大模型訓(xùn)練所用的數(shù)據(jù)從哪里來,這些數(shù)據(jù)又怎么樣去分層,是否會有隱私和版權(quán)的風(fēng)險?

    丁磊:首先講一下GPT模型的訓(xùn)練語料來源。根據(jù)OpenAI官方的說法,它的訓(xùn)練語料主要來自于互聯(lián)網(wǎng)和一些公開的書籍??梢哉f,這些語料相當(dāng)于物理世界在數(shù)字空間中的映射,因?yàn)榛ヂ?lián)網(wǎng)數(shù)據(jù)是對現(xiàn)實(shí)世界的一種反映。通過從互聯(lián)網(wǎng)數(shù)據(jù)中學(xué)習(xí),GPT模型可以獲取一定的通識和邏輯。

    過去,這些實(shí)驗(yàn)并沒有引起太多關(guān)注,但現(xiàn)在這個模型越來越受到重視,利益分配就成為一個問題,今年年初圖片供應(yīng)商Getty Images起訴了一家推出圖片生成模型的機(jī)構(gòu),聲稱該機(jī)構(gòu)使用了他們網(wǎng)站上的圖片來訓(xùn)練模型,但沒有付費(fèi),最終這個官司的結(jié)果尚未確定。

    Getty images起訴Stability AI盜圖,左為Stability AI生成圖,右為Getty image

    大模型的數(shù)據(jù)來源涉及到如何平衡著作權(quán)保護(hù)和創(chuàng)新之間的權(quán)衡問題,要知道訓(xùn)練模型并不是直接復(fù)制數(shù)據(jù)或出版數(shù)據(jù),這個問題存在一定的灰色地帶,也是一個具有挑戰(zhàn)性的法律問題,我相信未來的法律和法規(guī)會考慮平衡著作權(quán)保護(hù)和AI創(chuàng)新的因素,以兼顧各方的共同利益。

    劉興亮:大模型訓(xùn)練的數(shù)據(jù)如何篩選,目前有什么能夠規(guī)避這這類問題的做法?

    丁磊:模型訓(xùn)練的確需要人工質(zhì)檢數(shù)據(jù)來確保數(shù)據(jù)的質(zhì)量。如果不去檢查數(shù)據(jù),不能確保訓(xùn)練出來的模型是合理的,人工質(zhì)檢一直是無法回避的話題。

    為了更好的訓(xùn)練模型,通常會在勞動力成本較低的地方建立質(zhì)檢團(tuán)隊或數(shù)據(jù)標(biāo)注團(tuán)隊,以確保訓(xùn)練數(shù)據(jù)的質(zhì)量。如果沒有這些人工的數(shù)據(jù)標(biāo)注或質(zhì)檢,很難確保訓(xùn)練數(shù)據(jù)的質(zhì)量沒有問題。不僅在訓(xùn)練數(shù)據(jù)方面需要質(zhì)檢,我們也知道在ChatGPT的訓(xùn)練過程中,也會對模型生成的結(jié)果進(jìn)行質(zhì)檢。

    在模型的發(fā)展過程中,無論是輸入的訓(xùn)練數(shù)據(jù)還是輸出的結(jié)果,我們都需要通過人工的反饋和修正來改進(jìn)。未來甚至可以開發(fā)一種大模型,專門用于檢測和打擊虛假數(shù)據(jù),類似于打假的大模型。

    03

    大模型取代舊崗位,創(chuàng)造新職業(yè)

    劉興亮:很多人都認(rèn)為大模型未來要取代人工,在這個過程中人類應(yīng)該如何去應(yīng)對?

    丁磊: 普華永道在2018年底發(fā)布了一份名為《人工智能和相關(guān)技術(shù)對中國就業(yè)的凈影響》的報告。

    根據(jù)他們的研究,未來20年內(nèi),人工智能和相關(guān)技術(shù)將取代中國26%的工作崗位。好消息是,通過提高生產(chǎn)力和實(shí)際收入水平,這些技術(shù)也將新增38%的新工作崗位。這意味著凈增的工作崗位將占到12%,人工智能最終會為就業(yè)創(chuàng)造新的機(jī)會。

    想象一下,過去我們搬磚是需要靠人力來完成的,但現(xiàn)在通過大型機(jī)械設(shè)備可以完成搬運(yùn)工作,隨著建筑業(yè)的發(fā)展,對建筑工人的需求增加了,因?yàn)樾枰w更多的房子。

    再來看客服行業(yè),可能是最早受到人工智能改變的行業(yè)之一??头袠I(yè)在過去在我們國家是不夠的,因?yàn)閺臉I(yè)人員數(shù)量不足,尤其是優(yōu)秀的從業(yè)人員不足,所以很多企業(yè)無法提供客服,導(dǎo)致消費(fèi)者等待時間較長,滿意度較低,企業(yè)失去客戶,這是一個負(fù)面影響,但如果我們有更多高質(zhì)量的客服人員,那么會有更多企業(yè)選擇使用客服來改進(jìn)業(yè)務(wù)流程。

    不要只看靜態(tài)的情況,從動態(tài)角度來看,需求也在增加,我們需要更多中高端的崗位來創(chuàng)造更多機(jī)會。讓人工智能來承擔(dān)體力勞動、乏味和耗時的機(jī)械化工作,這其實(shí)符合工業(yè)革命的邏輯。

    劉興亮:人工智能在特定的行業(yè)里面取代人類?

    丁磊:先總結(jié)一下,人工智能在替代人類工作方面有四個方面:人做不了的任務(wù)、人搞不太好的任務(wù)、人效率低的任務(wù)和人不穩(wěn)定的任務(wù)。

    首先是人類無法完成的任務(wù)。例如,在危險環(huán)境下,人類無法進(jìn)行工作,這時就需要使用機(jī)器人來代替。其次是一些需要實(shí)時數(shù)據(jù)處理的任務(wù),如廣告推薦系統(tǒng),傳統(tǒng)的方法無法實(shí)時處理大量數(shù)據(jù),而人工智能算法可以通過數(shù)據(jù)分析來進(jìn)行實(shí)時推薦。

    第二個方面是人類不擅長的任務(wù)。舉個例子,傳統(tǒng)金融機(jī)構(gòu)進(jìn)行風(fēng)險控制時需要進(jìn)行審查和判斷。傳統(tǒng)方法可能受限于數(shù)據(jù)的不完整性,無法做出準(zhǔn)確判斷。然而結(jié)合人工智能的數(shù)據(jù)分析能力,可以通過大量底層數(shù)據(jù)的分析來準(zhǔn)確評估風(fēng)險,提高判斷質(zhì)量。

    第三個方面是人類效率較低的任務(wù)。內(nèi)容、設(shè)計等行業(yè)存在許多基礎(chǔ)的文案和圖片工作,通過使用人工智能工具,可以大幅提高工作效率,例如快速創(chuàng)作文案和生成圖片,在這些工作場景下對人的產(chǎn)出進(jìn)行提效。

    第四個方面是人類工作存在的不穩(wěn)定性。例如,工廠中的質(zhì)檢工作需要人員檢查產(chǎn)品是否有劃痕等問題,人工智能質(zhì)檢可以解決這類工作中人類存在的不穩(wěn)定性,保證產(chǎn)品標(biāo)準(zhǔn)的統(tǒng)一。

    04

    大模型不會具備情感功能

    劉興亮:有不少人開始提及AI談戀愛的這個概念,您覺得AI真的會有情感嗎,需求真實(shí)存在嗎?

    丁磊:如果有一個工具可以滿足人的情感需求,這可能是一件好事。你也可能認(rèn)為人工智能可能不會產(chǎn)生情感,因?yàn)樗皇且粋€程序,有著自己的目標(biāo),比如優(yōu)化回答的準(zhǔn)確率或提升客戶滿意度。

    訓(xùn)練模型時會設(shè)定特定的KPI,模型可能會在這些指標(biāo)上表現(xiàn)出色,但本身它是一個數(shù)字化的產(chǎn)物,不具備人類情感的機(jī)制。我們?nèi)祟悓η楦袡C(jī)制的理解可能也并不完全,它可能是由人類大腦的某個部分產(chǎn)生的,我們對此并不十分了解。從這個意義上說,模型作為一個數(shù)字化的載體相對簡單,我認(rèn)為它不太可能具備自己的情感。

    作為AI數(shù)字人,如果它能夠非常逼真地模仿一個人,可以以假亂真。在這種情況下,需要得到相關(guān)當(dāng)事人的同意,包括被復(fù)制人的同意。在這個前提下,我認(rèn)為可以解決一些現(xiàn)實(shí)問題。所以,雖然人工智能可能無法真正產(chǎn)生情感,但在滿足人們某些情感需求的方面,通過逼真地模仿和復(fù)制人的方式,人工智能仍然有一定的應(yīng)用前景。

    圖為網(wǎng)友ChaChaAI利用AI技術(shù)“復(fù)活”自己的奶奶

    劉興亮:AI的自主意識會成為可能嗎?

    丁磊:自主意識是一個更加抽象的概念。當(dāng)我們能夠觀察到與自主意識相對應(yīng)的動作和行為時,我們才能認(rèn)為人工智能具有自主意識,這種理解可以類比為讓大型模型自主控制你的電腦。

    最近,微軟發(fā)布Windows的集中式AI協(xié)助平臺Copilot,用戶可以通過與Windows進(jìn)行對話形式的交互,向它發(fā)出指令,它會執(zhí)行相應(yīng)的任務(wù)。但這仍然是一種對話形式,而不是真正的自主意識。

    當(dāng)我們將大型模型與各種工具(包括軟件和硬件)連接在一起時,你可以近似地認(rèn)為它具有一定程度的自主意識。這種體驗(yàn)是指你的電腦不再只是按照你的指令動作,而是以它自己的方式與你交互,你可以將你的電腦視為一個機(jī)器人,當(dāng)它在沒有過多限制的情況下自主驅(qū)動時,一定程度上,你可以想象它具備了自主意識的外在表現(xiàn)形式。

    免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個人觀點(diǎn),與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。

    免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

    2023-05-26
    大模型,會被算力和數(shù)據(jù)“卡脖子”嗎?丨亮見30期
    大模型,會被算力和數(shù)據(jù)“卡脖子”嗎?丨亮見30期

    長按掃碼 閱讀全文