4月10日消息 在今天召開的“2024年云網(wǎng)智聯(lián)大會(huì)”上,中國電信集團(tuán)科技委主任韋樂平應(yīng)邀作了題為《人工智能時(shí)代大模型的發(fā)展與思考》的主題報(bào)告,詳盡分享了他對(duì)于人工智能/大模型的最新觀點(diǎn)。
在韋樂平看來,人工智能有三大要素,而大模型則可以分為三個(gè)層次;大模型的核心價(jià)值在于應(yīng)用,基礎(chǔ)大模型將會(huì)是一場慘烈的淘汰賽,未來三到五年,將可能會(huì)收斂到數(shù)家;在大模型應(yīng)用價(jià)值凸顯的當(dāng)下,小模型的作用也不容輕視。
韋樂平指出,大模型需要大算力,大算力需要大集群,大集群則需要大網(wǎng)絡(luò)。產(chǎn)業(yè)界不能把目光只停留在以GPU為代表的算力上,作為算力載體的智算中心,網(wǎng)絡(luò)同樣至關(guān)重要。
韋樂平強(qiáng)調(diào),在智算中心網(wǎng)絡(luò)技術(shù)演進(jìn)路徑中,除了在當(dāng)前近乎壟斷的InfiniBand,以及在快速成長的UEC(超以太網(wǎng))以外,PCIe、CXL和芯片光互連技術(shù)一樣值得關(guān)注。韋樂平判斷,作為當(dāng)前性能最佳的聯(lián)網(wǎng)技術(shù),InfiniBand雖然產(chǎn)業(yè)封閉且價(jià)格昂貴,但它仍將維系高端大模型訓(xùn)練市場的相當(dāng)份額;而隨著標(biāo)準(zhǔn)成熟與產(chǎn)品落地,擁有強(qiáng)大產(chǎn)業(yè)生態(tài)的UEC技術(shù)在性價(jià)比方面將逐漸趕超InfiniBand,預(yù)計(jì)到2027年成為市場主流。
AGI長路漫漫:客觀理性看待發(fā)展水平
對(duì)于人工智能的三大要素,韋樂平有著自己的觀點(diǎn)。
算力是人工智能的基礎(chǔ),算力的載體是芯片,芯片水平?jīng)Q定了AI計(jì)算能力物理上限,關(guān)鍵是GPU及其應(yīng)用生態(tài)。高端芯片制程,特別是GPU及其應(yīng)用生態(tài)是我國AI發(fā)展的最大短板。
數(shù)據(jù)是人工智能的根本,數(shù)據(jù)要素是數(shù)字經(jīng)濟(jì)的核心生產(chǎn)要素和重要經(jīng)濟(jì)資源。數(shù)據(jù)的規(guī)模、質(zhì)量和治理體系決定了AI應(yīng)用的效果和質(zhì)量,數(shù)據(jù)的可用數(shù)量和質(zhì)量也同樣是短板。
算法是人工智能的靈魂。算力離開了算法,只是一個(gè)巨大的高耗能電熱器,基于深度學(xué)習(xí)的高效智能算法是發(fā)揮算力作用,規(guī)避低效蠻力計(jì)算的必然方向。
與人工智能的三要素相對(duì)應(yīng),韋樂平愿意將大模型分為三個(gè)層次:
第一層次是任務(wù)模型,模型就是應(yīng)用,比如圍棋、人臉識(shí)別等單一應(yīng)用,得益于數(shù)據(jù)量的優(yōu)勢,我國在此領(lǐng)域處于領(lǐng)先地位;第二層次是領(lǐng)域模型(行業(yè)模型),它能夠完成多領(lǐng)域諸多任務(wù),開發(fā)者只要在基礎(chǔ)大模型上根據(jù)具體任務(wù)做微調(diào)即可;第三層次是認(rèn)知模型AGI,即通用人工智能,能看、能聽、能思考、能規(guī)劃,能真正實(shí)現(xiàn)類人的智慧,而這長路漫漫。
大模型應(yīng)用價(jià)值凸顯 小模型也不容輕視
韋樂平認(rèn)為,大模型具有三點(diǎn)基本特征。
首先是大算力、大參數(shù)、大數(shù)據(jù)、大智能。算力越大、參數(shù)越多、數(shù)據(jù)越多,智能就越高,越能解決復(fù)雜的任務(wù)。“行業(yè)模型,需要百億至千億的參數(shù);基礎(chǔ)通用大模型,需要千億至萬億參數(shù);全球領(lǐng)先的基礎(chǔ)通用大模型,則需數(shù)萬億至數(shù)十萬億級(jí)的參數(shù)。”
其次是一定的通用性,起碼具備領(lǐng)域型模型特點(diǎn),能完成多領(lǐng)域的諸多任務(wù),非單一任務(wù)。
第三是神奇的涌現(xiàn)性。當(dāng)算力和模型參數(shù)足夠大,訓(xùn)練到一定程度后,能夠突然出現(xiàn)預(yù)料之外的某種能力,產(chǎn)生邏輯自恰的類人語言表達(dá),這種能力會(huì)達(dá)到乃至超過人類某方面的智能。
韋樂平表示,大模型特別是認(rèn)知模型AGI,雖然應(yīng)用前景非常美好,但存在著高技術(shù)、高投入、高能耗、高風(fēng)險(xiǎn)。“未來三五年以后,世界上就五六個(gè)基礎(chǔ)大模型能活下來。”但在此之上的行業(yè)大模型將層出不窮,行業(yè)應(yīng)用將成為各類大模型真正體現(xiàn)價(jià)值和商業(yè)落地的地方。
韋樂平同時(shí)提醒,在大模型應(yīng)用價(jià)值凸顯的當(dāng)下,小模型的作用也不容輕視。因?yàn)榇竽P陀?xùn)練所需要的技術(shù)、算力、語料以及成本很高,卻通而不專,在面向具體運(yùn)行環(huán)境的適應(yīng)性和經(jīng)濟(jì)性方面,往往小模型更加實(shí)用,省錢、省力、省時(shí)間。
目前已經(jīng)有多種小模型產(chǎn)品問世,從技術(shù)角度看,有兩大方向。一是知識(shí)蒸餾,主要對(duì)大模型進(jìn)行裁剪、優(yōu)化,使訓(xùn)練好的模型的體積和尺寸更小,成本更低、更適合具體部署環(huán)境的實(shí)際需求;其二是微型機(jī)器學(xué)習(xí)(TinyML),該方向旨在低于1mw功耗下(如紐扣電池)運(yùn)行機(jī)器學(xué)習(xí),在成本和功率受限系統(tǒng)中完成機(jī)器學(xué)習(xí)任務(wù),是物聯(lián)網(wǎng)領(lǐng)域AI的主要方向之一。
大模型需要大網(wǎng)絡(luò):UEC必將成為市場主流
大模型的盡頭在哪?算力、能源?但在韋樂平看來,網(wǎng)絡(luò)的影響因素同樣難以評(píng)估。
韋樂平指出,大模型需要大算力,大算力需要大集群,當(dāng)前的數(shù)據(jù)中心很難滿足大集群算力的要求,一定要重新建設(shè)智算中心。以中國電信在上海投產(chǎn)的“臨港國產(chǎn)萬卡算力池”為例,其投資規(guī)模超過20億,單機(jī)柜能耗達(dá)到了4.8萬瓦,常規(guī)IDC很難滿足需求。
另外,主要由GPU服務(wù)器聯(lián)網(wǎng)構(gòu)成的智算中心需要完全不同的網(wǎng)絡(luò)架構(gòu)。當(dāng)大模型訓(xùn)練時(shí),并行計(jì)算節(jié)點(diǎn)越多,通信效率越重要,智算網(wǎng)絡(luò)性能成為集群算力提升的關(guān)鍵。“智算中心網(wǎng)絡(luò)要求很特殊,需要高帶寬、零丟包、超低時(shí)延、高可用性,月級(jí)零故障。”
網(wǎng)絡(luò)技術(shù)角度,從目前情況來看,英偉達(dá)主導(dǎo)的InfiniBand是市場主流選擇,但I(xiàn)nfiniBand在產(chǎn)業(yè)開發(fā)性、部署成本方面非常不友好。韋樂平認(rèn)為,增強(qiáng)無損以太網(wǎng)(例如超以太網(wǎng)UEC)將逐漸成為市場主流選擇,UEC通過重構(gòu)高擴(kuò)展、高穩(wěn)定、高可靠的以太網(wǎng)堆棧,有望在性價(jià)比方面媲美InfiniBand。
韋樂平看好UEC最重要原因還是生態(tài)。“產(chǎn)業(yè)鏈很重要,技術(shù)高低不一定;拿ATM跟以太網(wǎng)相比,ATM比以太網(wǎng)性能高多了,為什么不行?因?yàn)椋ㄒ蕴W(wǎng))產(chǎn)業(yè)鏈比它大了幾十倍。”
當(dāng)然,除了InfiniBand和UEC,韋樂平還建議關(guān)注PCIe、芯片光互連和CXL等連接技術(shù)。PCIe可以為復(fù)雜的生成式人工智能擴(kuò)展距離、簡化系統(tǒng)架構(gòu)、減少功耗;芯片光互連可以大幅提升計(jì)算集群的擴(kuò)展性(超100T),且功耗很低,物理尺寸也更小;而CXL不僅可以繼續(xù)用來增大服務(wù)器的內(nèi)存規(guī)模,而且將越來越多的用來承擔(dān)生成式人工智能訓(xùn)練的加速器作用。
單集群、單體智算中心的算力總歸是有極限的,對(duì)于超大參數(shù)大模型訓(xùn)練而言,在大范圍內(nèi)由多個(gè)物理集群構(gòu)成一個(gè)超級(jí)邏輯集群進(jìn)行聯(lián)合訓(xùn)練,將會(huì)成為必然選擇。
也就是說,如何解決不同集群間參數(shù)的傳遞和同步,以及大量數(shù)據(jù)跨群跨域跨云傳輸?shù)牟煌瑫r(shí)延導(dǎo)致的訓(xùn)練速度減慢的問題。對(duì)此,韋樂平認(rèn)為,根據(jù)不同的訓(xùn)練任務(wù)和場景,可以采用數(shù)據(jù)并行、流水線并行、張量并行等多種不同策略,但這些都不能從根本上解決。“根本解決還要依靠空芯光纖,直接在物理層將時(shí)延降低33%。”
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 400G:骨干網(wǎng)的最新趨勢
- 三大運(yùn)營商11月成績單:用戶數(shù)據(jù)增幅放緩
- 2025年數(shù)字錢包:重塑金融生態(tài)的領(lǐng)先應(yīng)用
- 量子計(jì)算:商業(yè)世界的新前沿與設(shè)計(jì)思維的融合
- 什么是聚合交換機(jī)?
- 電池技術(shù)如何影響車輛性能
- 千家早報(bào)|庫克稱蘋果從未考慮過AI收費(fèi);OpenAI GPT-5“難產(chǎn)”:訓(xùn)練6個(gè)月花費(fèi)5億美元,已落后原計(jì)劃半年——2024年12月23日
- 中國電信再次出讓三家金融機(jī)構(gòu)股權(quán) 價(jià)值規(guī)模近10億
- 中國移動(dòng)無源器件產(chǎn)品集采:規(guī)模為1807.93萬件
- 中國移動(dòng)分天線產(chǎn)品集采:規(guī)模為1588.82萬面
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。