10月21日專稿(蔣均牧)技術(shù)的每一次突破,都創(chuàng)造了無限的可能。過去數(shù)年中,我們共同見證了人工智能的迅速崛起和跨越拐點——從前沿科技到貼身助理、從星空探索到衣食住行,AI技術(shù)正以驚人速度融入眾多場景,在數(shù)字經(jīng)濟發(fā)展中發(fā)揮越來越重要的作用,成為新質(zhì)生產(chǎn)力核心驅(qū)動因素和新的生產(chǎn)工具。
人工智能當前已經(jīng)上升為國家戰(zhàn)略,今年的政府工作報告中明確提出要深化大數(shù)據(jù)、AI等研發(fā)應用,開展“人工智能+”行動,打造具有國際競爭力的數(shù)字產(chǎn)業(yè)集群。在硬幣的另一面,AI的技術(shù)迭代和應用普惠,離不開強大算力的支持;在各行各業(yè)落地AI大模型以賦能產(chǎn)業(yè)升級的過程中,也依然存在著不少難點、痛點。面向AI+時代,易獲取且好用的智算產(chǎn)品及服務無疑是擁抱變革浪潮、共建繁榮業(yè)態(tài)的關鍵所在。
作為云計算和AI領域的“國家隊”,移動云在智算賽道上耕耘多時、領勢先行。就在剛剛召開的2024中國移動全球合作伙伴大會上,移動云攜算網(wǎng)研發(fā)最新成果及智算服務體系精彩亮相,全面展現(xiàn)了其綜合優(yōu)勢及卓越能力。以此為契機,C114赴蘇州采訪到了中國移動云能力中心平臺產(chǎn)品部總經(jīng)理齊驥,請這位移動“大云”項目最早參與者之一、享受國務院津貼的資深專家與我們分享對AI+時代云服務的思考、解讀移動云的新時期布局,特別是在促進AI大模型落地應用方面的創(chuàng)新與實踐。
他指出,算力主體由通用算力轉(zhuǎn)向智能算力已是大勢所趨,移動云擁有較大的用戶規(guī)模、廣泛的資源布局、靈活的算網(wǎng)大腦調(diào)度能力和云智產(chǎn)品技術(shù)積累,在此基礎上致力于加快推動“由算融智”、打造AI服務入口、探索更多應用場景,為智算產(chǎn)業(yè)的健康發(fā)展和千行萬業(yè)的數(shù)智化轉(zhuǎn)型注入源源不斷的動力。
多管齊下,鑄就AI+時代強引擎
生成式AI、AI大模型等AI技術(shù)的蓬勃發(fā)展和在行業(yè)中的走實向深,帶來了對算力尤其智能算力需求的爆炸性增長,讓算力成為如“水電煤”般一點接入、隨取隨用的社會級服務已經(jīng)演變?yōu)橐环N“剛需”。2023年10月,工信部等六部門對外發(fā)布《算力基礎設施高質(zhì)量發(fā)展行動計劃》,提出到2025年,算力規(guī)模超過300EFLOPS,智能算力占比達到35%,東西部算力平衡協(xié)調(diào)發(fā)展;今年9月,工信部等十一部門聯(lián)合發(fā)布《關于推動新型信息基礎設施協(xié)調(diào)發(fā)展有關事項的通知》,強調(diào)要優(yōu)化布局算力基礎設施,逐步提升智能算力占比。
中國移動以“信息服務科技創(chuàng)新公司”為愿景,提出并大力推進“AI+”行動計劃。齊驥介紹說,移動云依托中國移動資源稟賦,從算力、網(wǎng)絡、調(diào)度、產(chǎn)品、生態(tài)等維度多管齊下,推動算力普及和高效利用,加速云服務走向“智算原生”,構(gòu)筑AI+時代強引擎。
其一是打造“超級工廠”,釋放算力集群優(yōu)勢。加快算力基礎設施向通智超量一體化演進,打造多元泛在、綠色低碳的智算集群,強化超算、量算等社會算力并網(wǎng)。面向“AI+”升級,中國移動今年著力深化N個全國性智算中心與X個邊緣智算節(jié)點建設布局,計劃年內(nèi)建成三個超萬卡智算中心、總規(guī)模近6萬卡,在1500個邊緣節(jié)點按需部署推理卡,形成“中心大集群、邊緣廣分布、中訓邊推、訓推一體”的智算網(wǎng)絡。
其二是暢通“信息高速”,發(fā)揮網(wǎng)絡規(guī)模優(yōu)勢。中國移動在完成國家八大算力樞紐節(jié)點間400G全光高速直連基礎上,開展800G/1.2T超高速下一代網(wǎng)絡、廣域高吞吐協(xié)議等試點驗證,深化覆蓋全國的算力三級時延圈,通過在網(wǎng)絡方面的持續(xù)創(chuàng)新,將為AI訓推一體提供低時延、大帶寬、高可靠、彈性的互聯(lián)能力。
其三是研發(fā)“調(diào)度中樞”,筑牢算網(wǎng)融合優(yōu)勢。中國移動將利用自主研發(fā)的算網(wǎng)大腦,實現(xiàn)全網(wǎng)調(diào)度能力和智能化水平的全面躍升,進一步提升算力資源使用效率和效能,支撐更多國家級、樞紐級調(diào)度平臺的構(gòu)建。
其四是建設“策源之地”,構(gòu)建核心能力優(yōu)勢。中國移動將依托AI智能基座,錨定AI供給者、匯聚者、運營者定位,構(gòu)建“4個1”智算能力體系,即升級1個AI+算網(wǎng)底座、升級1個智能云內(nèi)核、創(chuàng)新1個MaaS平臺、重塑1批AI+應用服務。
其五是開放“產(chǎn)業(yè)生態(tài)”,推動算力模型融通。開展“百川”算力并網(wǎng)行動計劃,覆蓋通、智、超、量多種算力類型,實現(xiàn)昆山超算中心、許昌智算中心、波色量子等3.4 EFLOPS社會算力并網(wǎng)。模型生態(tài)匯聚自研、開源及三方商業(yè)大模型,與行業(yè)龍頭共建行業(yè)大模型,打造最大規(guī)模、最開放的模型生態(tài),推動AI+融合創(chuàng)新應用加速落地。
震澤平臺,破解大模型訓練難題
AI大模型被公認為是推動行業(yè)變革的關鍵因素,得益于政策和需求的雙輪驅(qū)動,千億、萬億參數(shù)規(guī)模的大模型不斷涌現(xiàn)、性能也越來越強。但是對傳統(tǒng)產(chǎn)業(yè)來說,AI大模型的落地應用面臨不少挑戰(zhàn),例如大模型訓練尚處在早期階段,存在著效率低、不穩(wěn)定、門檻高等明顯短板,智算資源池從“建起來”到“易用好用”,還有很長的路要走。
“隨著參數(shù)規(guī)模和訓練樣本的增加,千億大模型預訓練周期大約在45~60天,但千卡集群穩(wěn)定訓練時長平均只有2天。雖然業(yè)界已有斷點續(xù)訓的通用能力,但故障定位、任務恢復往往需要消耗幾個小時。同時,由于檢查點非實時保存,依舊存在歷史訓練記錄的丟失,從而損失算力的有效訓練時間。”齊驥舉例說。
有鑒于此,為加快AI大模型在行業(yè)中的落地,移動云創(chuàng)新打造了一站式智算平臺——震澤智算平臺,以系統(tǒng)性地解決當下的矛盾。該平臺具備異構(gòu)算力納管、萬卡并行訓練、全棧國產(chǎn)化適配、“通、智、邊”一體化等多類突出能力,能夠為用戶提供更快、更穩(wěn)、更好的大模型訓推體驗。在訓練效率問題上,設計和開源了彈性資源管理架構(gòu)KOSMOS,池化智算算力,實現(xiàn)萬卡算力資源分鐘級創(chuàng)建,開箱即用;通過數(shù)據(jù)預熱和緩存加速,IO性能提升20%,成本壓縮三分之一;通過梯度分段聚合以及算子融合加速等技術(shù),將國產(chǎn)芯片MFU從35%提升至46%。
在長穩(wěn)訓練層面,移動云首創(chuàng)了惰性續(xù)訓技術(shù),當故障來臨時,健康節(jié)點忽略故障繼續(xù)訓練,因故障發(fā)生而掉隊的節(jié)點則通過彈性供給快速補齊。利用新增資源追趕訓練進度,結(jié)合內(nèi)存實時檢查點實現(xiàn)故障恢復時間相比主流水平壓降90%,做到斷點不斷訓,實現(xiàn)了千卡25天超長穩(wěn)訓。
在訓推平臺易用性層面,移動云提供了一體化工具鏈。依托算網(wǎng)大腦實現(xiàn)通智邊一體化調(diào)度,結(jié)合數(shù)據(jù)快遞實現(xiàn)模型訓中熱遷移,各智算中心資源化零為整;同時提供模型一鍵轉(zhuǎn)換能力,轉(zhuǎn)換好的模型自動推送到邊緣異構(gòu)芯片進行推理,為客戶屏蔽底層異構(gòu)芯片的差異以及資源跨域的感知。
齊驥表示,移動云智算平臺在產(chǎn)品設計上遵循了安全可靠、穩(wěn)定高效、異構(gòu)解耦和用戶導向四大關鍵原則。在安全可靠上,移動云于2023年高分通過公安部網(wǎng)絡安全等級保護四級認證,并已獲得20多項安全資質(zhì)。智算平臺基于移動云的安全防線,通過首創(chuàng)的KOSMOS管理架構(gòu),實現(xiàn)租戶間安全物理隔離,確保了多租戶環(huán)境下的數(shù)據(jù)隱私與操作獨立性。在穩(wěn)定高效上,首先將斷點續(xù)訓升級為業(yè)界首創(chuàng)的惰性續(xù)訓,做到斷點不斷訓;同時,結(jié)合數(shù)據(jù)預熱、緩存加速、梯度異步聚合、算子融合加速等核心技術(shù)將訓練成本壓降15%以上,訓練效能提升11%。
在異構(gòu)解耦層面,移動云通過支持英偉達和國產(chǎn)芯片模型的一鍵互轉(zhuǎn),將訓推任務與芯片解耦,結(jié)合算網(wǎng)大腦實現(xiàn)訓練推理任務在異地和異構(gòu)算力上的靈活調(diào)度。最后,堅持以用戶為導向,深度整合市場需求、客戶訪談等多維度信息,捕捉用戶真實需求,進而驅(qū)動產(chǎn)品功能創(chuàng)新與交互設計的持續(xù)優(yōu)化,確保每一項改進都緊密圍繞用戶需求。
多方實踐,打通AI落地“最后一公里”
基于海量算力資源,移動云現(xiàn)已上線自研震澤智算平臺、大模型服務平臺,提供模型訓推、智能體開發(fā)等全鏈路模型及應用工具鏈,助力打通AI大模型行業(yè)落地的“最后一公里”。其中,大模型服務平臺匯聚了開源、九天以及三方商用大模型,建設“L0基礎模型+L1行業(yè)模型+L2行業(yè)智能體+模型服務”的體系化生態(tài)服務內(nèi)容,攜手合作伙伴共建面向用戶需求的商業(yè)閉環(huán)。
“行勝于言”,相比于市場上并不鮮見的“口號式”創(chuàng)新,移動云已經(jīng)拿出了實實在在的實踐成果。齊驥在采訪中與C114分享了幾個成功故事,這在一定程度上或可視作引領發(fā)展方向的一座座“燈塔”。
中國移動云能力中心作為一個擁有3000名以上程序員的研發(fā)型單位,積累了海量代碼數(shù)據(jù),研發(fā)成本在整體成本支出中占比較高。移動云自主研發(fā)并發(fā)布了湛盧代碼大模型,基于九天大模型基座,圍繞包括代碼問答、代碼補全、單元測試等在內(nèi)的IT研發(fā)8大核心場景進行特定優(yōu)化,支持100種以上編程語言,具備文生代碼、圖生代碼、企業(yè)私有知識庫等特色功能。目前,湛盧代碼助手已經(jīng)在移動云內(nèi)部全面推廣使用,覆蓋開發(fā)、測試、運維研發(fā)全流程,預計將為移動云降低10%研發(fā)成本。
移動云在能源、物流、政務等領域均有大模型相關的落地項目,涵蓋多種應用場景。例如在能源行業(yè),移動云攜手兄弟單位助力客戶實施智能化升級,通過發(fā)揮中國移動算力網(wǎng)絡優(yōu)勢,為客戶提供從資源到平臺、到模型服務的端到端產(chǎn)品能力,令客戶得以快速具備400P的智算資源;搭建統(tǒng)一調(diào)度管理平臺,為上層九天及其他模型提供豐沛算力,支持各個業(yè)務場景使用。
再比如在物流行業(yè),面對人工客服標準化程度低、坐席緊張的情況,移動云攜手物流公司打造物流客服大模型,AI客服可完成80%以上的用戶問題,同時在并發(fā)場景下回復速率更快,從而提高了整體效率和客戶滿意度。
齊驥告訴C114,移動云正在積極推進大模型在各個行業(yè)的應用落地,目前在教育、醫(yī)療、工業(yè)、交通等多個行業(yè)都看到了細分場景需求。
在生態(tài)方面,移動云為合作伙伴提供了DICT庫、MaaS云市場、聯(lián)合實驗室等多種合作方式,并且除了開發(fā)工具等技術(shù)能力上的支持,還提供了算力補貼、技術(shù)大賽、沙龍活動等政策扶持。未來將持續(xù)打造完備的模型及應用生態(tài),幫助各個合作伙伴實現(xiàn)自己的智能服務。
面向未來,加快實現(xiàn)商業(yè)閉環(huán)
超大規(guī)模智算集群是AI大模型發(fā)展的技術(shù)基礎,然而但“技術(shù)可行”不等于“商業(yè)可行”,AI技術(shù)未來應朝著可持續(xù)的商業(yè)閉環(huán)路徑邁進。如何激發(fā)AI應用市場需求以拉動整個AI產(chǎn)業(yè)鏈的發(fā)展,是一個亟需探索的方向,這也意味著對于算力的需求將從模型訓練到模型應用,更強調(diào)計算的高性價比、彈性伸縮和低時延。
“人們總是高估新技術(shù)的短期影響,卻低估其長期價值。電氣技術(shù)也是在成熟了30年以后才逐漸走向廣泛應用,引發(fā)電氣革命?,F(xiàn)在去擔憂AI會不會替代或者淘汰人還為時過早,而是要將重點放在AI的普及上來。”齊驥強調(diào)。
他介紹說,過去一年中,AI在軟件研發(fā)領域的應用已經(jīng)變得更加廣泛和深入,各類“AI程序員”概念產(chǎn)品頻繁出現(xiàn)。談到,移動云根據(jù)自身的技術(shù)實踐和行業(yè)洞察,AI在該領域?qū)妮o助代碼開發(fā)向輔助軟件研發(fā)全流程發(fā)展、從輔助人類向自主編程發(fā)展。
“技術(shù)為根,人才為本”,AI的發(fā)展是一項長期復雜的體系化工程,以大模型為例,其全流程就涉及了算力底座、數(shù)據(jù)準備、模型使能、業(yè)務應用等多個環(huán)節(jié)。各行各業(yè)在實現(xiàn)AI大模型落地應用的過程中,也亟需由內(nèi)而外構(gòu)建起相應的能力。因此對智算與大模型相關人才的需求將進一步凸顯。
齊驥表示,任何一個產(chǎn)業(yè)的發(fā)展,都離不開大量人才的支持。智算人才的培育,需要“政產(chǎn)學研”各方共同發(fā)力。移動云除了自身通過內(nèi)培、競賽等方式,促進內(nèi)部人才的成長,還致力于與高校合作,讓在校生更早地接觸到AI知識、激發(fā)他們對新技術(shù)的興趣,從而形成立體、綜合、成批次的人才培育體系。
“在未來幾年內(nèi),我們希望構(gòu)建更穩(wěn)定、易用、好用和普惠的算力服務,供給越來越多的AI應用服務構(gòu)建智算商業(yè)閉環(huán),讓‘能用’的技術(shù)可行,轉(zhuǎn)變?yōu)?lsquo;人人用’的商業(yè)可行。側(cè)重解決算力運營中的問題,解決規(guī)模化、集約化和高性價比等難題。”在采訪的最后他這樣展望道。
寫在最后
人工智能被譽為是21世紀社會生產(chǎn)力最為重要的賦能技術(shù)。“科技預言家”、知名科技雜志《連線》創(chuàng)始主編凱文·凱利(Kevin Kelly)曾預測,未來百年里,人工智能將超越任何一種人工力量,將人類引領到一個前所未有的時代。今年的諾貝爾物理學獎和諾貝爾化學獎也都與AI相關。
如今,我們正處在AI起勢的關鍵階段。移動云在智算及AI大模型方面的思考與實踐、布局與成果,既為AI的普惠化、產(chǎn)業(yè)化、規(guī)?;l(fā)展插上了翅膀,也為各行各業(yè)的智能化升級提供了利器,還給AI+時代的云服務樹立了標桿。攜手移動云,共同在新一輪創(chuàng)新變革浪潮中破浪前行,擘畫數(shù)改智轉(zhuǎn)更美好未來,時不我待!
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。