從探索人類(lèi)前沿科技的超算,到普通人掏出手機(jī)就能體驗(yàn)的智能推薦算法,每套以至高算力為目標(biāo)的集群系統(tǒng)都需要解決一個(gè)算力之外的關(guān)鍵問(wèn)題——網(wǎng)絡(luò)。
是的,分布式技術(shù)用「把大問(wèn)題拆成小問(wèn)題」的方法為人們提供了一條以量變實(shí)現(xiàn)質(zhì)變的可行路徑。但分開(kāi)進(jìn)行的海量計(jì)算總還是需要一個(gè)匯總結(jié)果并繼續(xù)推進(jìn)計(jì)算的過(guò)程。而這一過(guò)程對(duì)網(wǎng)絡(luò)的帶寬、延遲和丟包率都提出了極高要求。以目前流行的深度學(xué)習(xí)算法為例,0.1% 的丟包率就會(huì)帶來(lái) 50% 的集群效率降低。
在構(gòu)建算力集群時(shí),用戶(hù)通常有兩種選擇:一種是沒(méi)有丟包困擾成本較高且生態(tài)封閉的 Infiniband 網(wǎng)絡(luò),另一種則是性?xún)r(jià)比更高但需要花費(fèi)精力降低延遲和丟包率的以太網(wǎng)技術(shù)。而對(duì)于更看重效率效果的互聯(lián)網(wǎng)行業(yè)來(lái)說(shuō),答案只有一個(gè)——這些特性全都要!
嗶哩嗶哩基于業(yè)務(wù)發(fā)展需求
需要建設(shè)一張高性能計(jì)算網(wǎng)絡(luò)
嗶哩嗶哩,簡(jiǎn)稱(chēng)「B 站」,一個(gè)有用有趣的綜合性視頻社區(qū),被用戶(hù)們親切地稱(chēng)為「百科全書(shū)式的網(wǎng)站、沒(méi)有圍墻的圖書(shū)館,成長(zhǎng)道路上的加油站,創(chuàng)作者的舞臺(tái)」。截止 2024 年第二季度,B 站日均活躍用戶(hù)達(dá) 1.02 億。圍繞用戶(hù)、創(chuàng)作者和內(nèi)容,B 站構(gòu)建了一個(gè)源源不斷產(chǎn)生優(yōu)質(zhì)內(nèi)容的生態(tài)系統(tǒng)?;?AI 的「千人千面」內(nèi)容推薦算法,B 站能把好內(nèi)容推薦給感興趣的用戶(hù),進(jìn)入內(nèi)容量與用戶(hù)活躍度雙向激勵(lì)的正循環(huán)。而要在海量?jī)?nèi)容、龐大訪(fǎng)問(wèn)量、億級(jí)用戶(hù)的背景下,完成精準(zhǔn)的內(nèi)容推薦,B 站需要一套高性能網(wǎng)絡(luò)為用戶(hù)提供服務(wù)。
面對(duì)實(shí)時(shí)更新的內(nèi)容和快速變化的用戶(hù)關(guān)注點(diǎn),B 站的 AI 算力集群要盡可能快地完成「樣本導(dǎo)入——訓(xùn)練——模型導(dǎo)出——推理」的完整業(yè)務(wù)流程,縮短 AI 技術(shù)與業(yè)務(wù)應(yīng)用之間的距離。需求看似稀松平常,但這個(gè)「快」字卻對(duì)應(yīng)了多維度的底層技術(shù)挑戰(zhàn)。
其一,拉通整個(gè) AI 業(yè)務(wù)流程,實(shí)現(xiàn)業(yè)務(wù)整體的快。
「樣本導(dǎo)入——訓(xùn)練——模型導(dǎo)出——推理」等各個(gè)功能的子集群需置于同一張網(wǎng)絡(luò)之中,形成一張龐大的算力網(wǎng)絡(luò);盡可能讓數(shù)據(jù)和模型更快傳輸,讓不同功能形成整體,實(shí)現(xiàn)業(yè)務(wù)層面的快。
其二,在關(guān)鍵的訓(xùn)練集群內(nèi)部,網(wǎng)絡(luò)延遲要足夠低。
大模型訓(xùn)練過(guò)程對(duì)網(wǎng)絡(luò)延遲非常敏感,高延遲不僅會(huì)影響 GPU 節(jié)點(diǎn)之間的同步性和一致性,讓 GPU 花費(fèi)更多時(shí)鐘周期來(lái)等待計(jì)算結(jié)果和參數(shù)的同步,更會(huì)影響整個(gè)集群的可擴(kuò)展性和算力利用率。
其三,在「算網(wǎng)一體」的宏觀趨勢(shì)之下,算力方案與網(wǎng)絡(luò)架構(gòu)應(yīng)保持高度匹配。
算與網(wǎng)就如同車(chē)和路,二者的高度匹配才能大幅提升系統(tǒng)整體運(yùn)行效率,并為后續(xù)的運(yùn)維管理和升級(jí)擴(kuò)容帶來(lái)更大提升空間。
一面是業(yè)務(wù)層面的嚴(yán)苛需求,另一面則是缺貨、禁售等外部因素所帶來(lái)的巨大不確定風(fēng)險(xiǎn);經(jīng)過(guò)對(duì)網(wǎng)絡(luò)、計(jì)算、經(jīng)驗(yàn)和供貨等諸多因素的考察比對(duì)之后,B 站選擇牽手華為,共同構(gòu)建新一代 AI 算力集群。
用以太網(wǎng)統(tǒng)一承載
讓 AI 算網(wǎng)一體高度統(tǒng)一融合
圖 1. 多網(wǎng)融合網(wǎng)絡(luò)架構(gòu)圖
B 站網(wǎng)絡(luò)技術(shù)團(tuán)隊(duì)與華為聯(lián)合設(shè)計(jì)了基于以太網(wǎng)的「一張網(wǎng)」算力集群建設(shè)方案。該方案通過(guò)華為 CE16800 系列核心框式交換機(jī),能夠?qū)⒑A繕颖緮?shù)據(jù)的存儲(chǔ)集群、包含海量 GPU 計(jì)算節(jié)點(diǎn)的訓(xùn)練集群和負(fù)責(zé)業(yè)務(wù)應(yīng)用的推理集群整合成一張龐大的業(yè)務(wù)網(wǎng)絡(luò),為每個(gè)業(yè)務(wù)功能提供足夠的數(shù)據(jù)帶寬。使用一張網(wǎng)聯(lián)接數(shù)據(jù)和業(yè)務(wù)、訓(xùn)練和推理,打通功能之間的煙囪壁壘,提升業(yè)務(wù)整體運(yùn)行效率。相對(duì)于私有化的 Infiniband 網(wǎng)絡(luò),使用統(tǒng)一且開(kāi)放的以太網(wǎng)通訊協(xié)議也有助于降低系統(tǒng)總體建設(shè)成本,并保持「一張網(wǎng)」內(nèi)部的架構(gòu)統(tǒng)一、協(xié)議統(tǒng)一,繼而降低建設(shè)、運(yùn)維的成本及難度。
在網(wǎng)絡(luò)架構(gòu)確定之后,接下來(lái)是選擇 AI 算力網(wǎng)絡(luò)的硬件選型和組網(wǎng)方案。在組網(wǎng)硬件選型上,華為提供多種硬件組網(wǎng)方式,典型的有盒盒組網(wǎng)方案,盒框組網(wǎng)方案,框框組網(wǎng)方案。通過(guò)雙方多次技術(shù)交流,綜合 B 站機(jī)房現(xiàn)場(chǎng)環(huán)境條件、硬件成本等多方面考慮,B 站選擇盒盒組網(wǎng)的方案,如下圖所示,構(gòu)建的是一張千卡規(guī)模的 AI 算力集群。
圖 2. 華為昇騰組網(wǎng)架構(gòu)圖
為了滿(mǎn)足 AI 算力訓(xùn)練集群對(duì)網(wǎng)絡(luò)延遲的苛刻需求,B 站技術(shù)人員聯(lián)合華為工程師一起對(duì)整張網(wǎng)絡(luò)實(shí)施了細(xì)致入微的架構(gòu)設(shè)計(jì)和配置優(yōu)化。AI 算力網(wǎng)絡(luò)總體按經(jīng)典的 Spine-Leaf 兩層 CLOS 組網(wǎng)設(shè)計(jì)落地,但基于大模型訓(xùn)練對(duì)于網(wǎng)絡(luò)通信特點(diǎn),在接入層稍微做了些變動(dòng),同時(shí)使用 4 臺(tái) LEAF 交換機(jī)連接 GPU 服務(wù)器的多個(gè)網(wǎng)口。整個(gè)網(wǎng)由 8 個(gè) POD 構(gòu)成,每個(gè) POD 包含 8 臺(tái) GPU 節(jié)點(diǎn),每臺(tái) GPU 配置 8 張 400G 以太網(wǎng)卡,每個(gè) POD 可容納 128 張 GPU 卡,從而整個(gè)集群規(guī)??蛇_(dá) 1024 張 GPU 卡。在 SPINE 層面,使用 16 臺(tái) 400G 交換機(jī)來(lái)實(shí)現(xiàn) 8 個(gè) POD 網(wǎng)絡(luò)聯(lián)接的對(duì)稱(chēng)對(duì)等。路由設(shè)計(jì)方面全網(wǎng)使用了 EBGP 路由協(xié)議,當(dāng)鏈路出現(xiàn)故障時(shí)網(wǎng)絡(luò)自動(dòng)收斂。在高帶寬和低延遲要求方面,全網(wǎng)使用 RDMA 技術(shù)且同時(shí)啟用華為交換機(jī)特性 NSLB(NetworkService Load Balance,網(wǎng)絡(luò)服務(wù)負(fù)載均衡)功能。RDMA 技術(shù)無(wú)需 CPU 和系統(tǒng)內(nèi)存參與的顯存數(shù)據(jù)交換,能夠提高通訊效率,減少系統(tǒng)開(kāi)銷(xiāo);而 NSLB 則是華為的獨(dú)有技術(shù),可結(jié)合管理模塊實(shí)現(xiàn)全流量的秒級(jí)感知來(lái),繼而通過(guò)高效網(wǎng)絡(luò)編排來(lái)減少網(wǎng)絡(luò)擁塞、丟包和鎖死情況的發(fā)生,提升訓(xùn)練過(guò)程的可靠性,減少重新加載 checkpoint 的次數(shù),以達(dá)成加快訓(xùn)練的效果。通過(guò)網(wǎng)絡(luò)架構(gòu)的合理設(shè)計(jì)和多種先進(jìn)技術(shù)的綜合應(yīng)用,在訓(xùn)練集群內(nèi)部實(shí)現(xiàn) 400G 高帶寬互聯(lián)、互聯(lián)鏈路冗余、通信路徑最優(yōu)、Leaf 上下行帶寬 1:1 等眾多先進(jìn)特性。而在業(yè)務(wù)層面這些技術(shù)與特性便意味著低延遲和全網(wǎng)無(wú)阻塞。
在多種網(wǎng)絡(luò)流量模型和 GPU 通訊庫(kù)(NCCL 和 HCCL)驗(yàn)證過(guò)程中,華為昇騰整套網(wǎng)絡(luò)方案在同 Leaf 下點(diǎn)對(duì)點(diǎn)網(wǎng)絡(luò)帶寬利用率超 98%,延遲最低 2.8 微秒;「多對(duì)一」帶寬利用率 80%,All-to-All 和 AllReduce 過(guò)程帶寬利用率超 98%。而在跨 Spine 測(cè)試中,華為昇騰整套網(wǎng)絡(luò)方案仍能實(shí)現(xiàn)超 98% 的帶寬利用率和最低 5.6 微秒的延遲;并能在「多對(duì)一」通訊中實(shí)現(xiàn) 80% 的帶寬利用率和超 90% 的 All-to-All、AllReduce 帶寬利用率。
圖 3. 服務(wù)器集群布線(xiàn)
圖 4. 網(wǎng)絡(luò)集群布線(xiàn)
以上圖 3 和圖 4 為華為昇騰整套網(wǎng)絡(luò)解決方案在 B 站數(shù)據(jù)中心落地示意圖,在部署實(shí)施層面,華為配合 B 站網(wǎng)絡(luò)技術(shù)團(tuán)隊(duì)完成網(wǎng)絡(luò)規(guī)劃、實(shí)施前期準(zhǔn)備、交付前全網(wǎng)參數(shù)調(diào)優(yōu)、HCCL 通訊集參數(shù)調(diào)優(yōu)和驗(yàn)收測(cè)試等流程,為業(yè)務(wù)上線(xiàn)做好充分的準(zhǔn)備。同時(shí)為了保障整個(gè)集群的長(zhǎng)期穩(wěn)定運(yùn)行,華為與 B 站一起對(duì)機(jī)房現(xiàn)場(chǎng)網(wǎng)絡(luò)布線(xiàn)做了高標(biāo)準(zhǔn)落地,每條線(xiàn)纜有序布放、捆扎,降低排查鏈路故障等問(wèn)題的難度,提升運(yùn)維效率。
算網(wǎng)一體
讓互聯(lián)網(wǎng)+AI 盛放未來(lái)
不僅 B 站,流量大、數(shù)據(jù)多、用戶(hù)多是所有互聯(lián)網(wǎng)業(yè)務(wù)的典型特征。而在 AI 業(yè)務(wù)落地的過(guò)程中,對(duì)單卡算力的錙銖必較已成過(guò)去時(shí);借助先進(jìn)網(wǎng)絡(luò)來(lái)構(gòu)建千卡、甚至萬(wàn)卡集群來(lái)應(yīng)對(duì)業(yè)務(wù)挑戰(zhàn)才是主流選擇。因此,「算網(wǎng)一體、高度匹配、相互優(yōu)化」也順勢(shì)成為互聯(lián)網(wǎng)企業(yè)構(gòu)建新一代基礎(chǔ)架構(gòu)時(shí)關(guān)注的重點(diǎn)。
對(duì)于廣大行業(yè)客戶(hù)而言,華為所擁有網(wǎng)絡(luò)解決方案能力、算力解決方案能力、龐大合作伙伴體系、豐富的規(guī)劃和實(shí)施經(jīng)驗(yàn)正是構(gòu)建新型基礎(chǔ)架構(gòu)、落地 AI 業(yè)務(wù)之所需。與此同時(shí),華為亦在通過(guò)不斷的底層技術(shù)創(chuàng)新和上層體驗(yàn)優(yōu)化來(lái)實(shí)現(xiàn)解決方案與服務(wù)的持續(xù)精進(jìn),為互聯(lián)網(wǎng)企業(yè)鋪就通向未來(lái)的寬闊坦途。雙方的相向而行也造就了華為與互聯(lián)網(wǎng)企業(yè)聯(lián)合創(chuàng)新、共同探索的一段段佳話(huà)。
十年前,脫胎于互聯(lián)網(wǎng)業(yè)務(wù)邏輯的「互聯(lián)網(wǎng)+」概念火遍全國(guó),助力千行百業(yè)實(shí)現(xiàn)了業(yè)務(wù)和經(jīng)營(yíng)理念的跨越式升級(jí);十年之后,互聯(lián)網(wǎng)又成為了擁抱 AI 技術(shù)、引領(lǐng)基礎(chǔ)架構(gòu)和業(yè)務(wù)升級(jí)的先鋒軍。
能夠與互聯(lián)網(wǎng)產(chǎn)業(yè)相伴同行、共赴未來(lái),不僅是華為的榮幸,也是 ICT 產(chǎn)業(yè)技術(shù)探索、實(shí)現(xiàn)價(jià)值的絕佳路徑。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )