1月16日消息(陳宦杰)AI時代已經來臨。大模型等新興AI應用需求海量的算力支撐,一座座智算中心拔地而起,規(guī)模龐大的萬卡集群逐漸投入商用。如何更好地實現(xiàn)智算中心互聯(lián),服務AI應用創(chuàng)新發(fā)展,業(yè)界做了大量研究工作。
1月16日,作為“2025中國光通信高質量發(fā)展論壇”的開篇之作,“智算中心互聯(lián):算網協(xié)同,構筑智算互聯(lián)新底座”線上研討會順利召開,邀約產業(yè)鏈專家代表,圍繞智算中心間跨地域、跨層級、跨主體、高可靠的算力協(xié)同與調度,以及智算中心互聯(lián)關鍵技術等話題展開了深入探討。
研討會期間,鵬城實驗室云腦研究所副所長張士勛應邀作了題為《智算中心高性能網絡系統(tǒng)多維度思考》的主題報告,深入分析了智算中心的計算模式與智算網絡的多維度特征。
并行方案解鎖大模型高效計算
歷經數(shù)十年的發(fā)展,AI模型的參數(shù)規(guī)模持續(xù)膨脹,模型的種類逐漸收斂。當下,智算中心已成為大模型訓練與推理的核心舞臺,通過將單一計算任務巧妙切分,并運用數(shù)千甚至數(shù)萬個AI芯片加速執(zhí)行,智算中心有望實現(xiàn)堪比單臺計算機執(zhí)行一個任務的高效協(xié)同作業(yè)。
在攻克AI芯片間的高效協(xié)同難題,進而推動智算中心向“DC as a Computer”演進的征程中,如何通過并行方案賦能大模型高效計算,是一個亟待破解的關鍵課題。
目前,業(yè)界已形成多成熟的并行方案,如張量并行、數(shù)據并行、流水線并行。張量并行將矩陣精準切分,再把不同的矩陣塊分別置于不同的 GPU 上,通信頻繁且通信量較大,但為模型的高效訓練提供了有力支撐;數(shù)據并行巧妙地將訓練數(shù)據進行切分,使每個GPU能夠獨立訓練其中的一部分數(shù)據,降低了通信量;流水線并行依據模型架構的層次進行切分,將不同的層分別放置于不同的GPU上,只在層的交界處進行通信,使得通信量相對較小。不同類型的并行方案需要不同的通信策略和網絡架構支持,智算中心互聯(lián)架構的發(fā)展方向有待進一步探索與研究。
智算網絡的四大特征
談及智算網絡的多維特征時,張士勛例舉了四大關鍵點。
其一,智算網絡以GPU為中心。GPU成為算力的提供者,數(shù)據存儲于其上。因此,GPU卡間通信成為主要的通信模式,通過RDMA網絡,可以實現(xiàn)高效的數(shù)據交換。
其二,在智算網絡中,GPU的通信模式比較固定??ㄩg的通信模式具有很高的確定性,典型集合通信模式能夠覆蓋絕大部分場景。
其三,智算網絡采用雙平面的組網方案,兼具高帶寬與低時延特性。其中,Scale-out網絡適用于大規(guī)模組網,涵蓋數(shù)萬到數(shù)十萬GPU的龐大集群,協(xié)議基于InfiniBand/RoCE,速率可達400Gbps/800Gbps;Scale-up網絡則是局域高帶寬網絡,覆蓋數(shù)個至數(shù)百GPU的小集群,協(xié)議基于NVLink/HCCS等,速率高達數(shù)Tbps級。
其四,智算網絡需要軟硬件協(xié)同優(yōu)化。在傳統(tǒng)的計算模式下,計算和通信依次執(zhí)行,通信環(huán)節(jié)的占比可能超過50%,這導致GPU長時間處于空閑狀態(tài)。經過優(yōu)化,通信和計算實現(xiàn)了相互疊加執(zhí)行,GPU約有35%的時間用于等待通信。自2022年之后,通信和計算進一步深度重疊,業(yè)界主流的網絡可以將通信占比降至7%,設備性能得以充分釋放,硬件帶寬和軟件算法相輔相成。
此外,針對業(yè)界關心的高性能芯片供應受限的困境,張士勛表示,可以通過軟件、硬件、模型的聯(lián)合優(yōu)化,提升訓練效果,推進高水平科技自立自強。利用有限的硬件資源實現(xiàn)高階的AI,是一個極具探索價值的方向。
- 中國電信傅志仁:加速邁入以AIDC為核心的云網融合3.0新階段
- 昇思MindSpore核心貢獻者超3.7萬,下載用戶超1100萬
- 2024年裝機量超500萬套:openEuler開創(chuàng)中國開源新模式
- 為世界構建新的選擇:華為計算產業(yè)2024年進展顯著
- 利用物聯(lián)網和自動化的力量實現(xiàn)可持續(xù)建筑
- 立訊技術周小丹:發(fā)力低功耗AI光互聯(lián) 開發(fā)多款LPO/LRO新品
- 騰訊李方超:光電融合創(chuàng)新解決方案全力支持MegaScaleOut
- 新鮮出爐!烽火通信喜獲“FTTR技術創(chuàng)新獎”
- 喜訊!江波龍榮獲 “智能座艙技術創(chuàng)新獎”
- 喜訊!佰維存儲特存數(shù)通行業(yè)寬溫SSD客制化SSD寬溫解決方案榮獲“智能模組優(yōu)秀解決方案”
免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。