2022年11月30日,OpenAI發(fā)布ChatGPT智能聊天程序。ChatGPT能夠?qū)W習(xí)和理解人類的語言來進行對話,還能根據(jù)聊天的上下文進行互動,真正像人類一樣來聊天交流,甚至能完成撰寫郵件、視頻腳本、文案、翻譯、代碼、寫論文等等。截至2023年2月,ChatGPT已經(jīng)在全球范圍內(nèi)狂攬1億名用戶,成為當(dāng)下最火爆的頭條熱點。歐美各大高校甚至明確提出禁止學(xué)生使用ChatGPT做作業(yè),足見其智能化程度,是前所未有的。
1、千億參數(shù)超大模型成為常態(tài),高性能網(wǎng)絡(luò)成為核心訴求
ChatGPT為什么能有如此強大的功能,因為它的背后是一個擁有千億參數(shù)的巨型神經(jīng)網(wǎng)絡(luò)模型。作為對比,我們?nèi)四X也只有120-140億神經(jīng)元。其實,超大模型在這幾年已經(jīng)成為了趨勢,從2018年至今,每過一年,模型參數(shù)就增大一個數(shù)量級。OpenAI的下一代GPT-4將會突破萬億參數(shù),有傳聞甚至達到100萬億參數(shù)。
那么如此巨大的AI模型,是如何訓(xùn)練出來的呢?首先,一個大規(guī)模的GPU集群是必不可少的。以GPT-3模型1750億參數(shù)為例,每個參數(shù)在訓(xùn)練時需要存儲16bit低精度用于前向傳播計算,和32bit高精度用于梯度更新計算。除此之外,當(dāng)使用Adam優(yōu)化器進行參數(shù)優(yōu)化時,還需要存儲16bit的梯度,32bit的動量和32bit方差。這樣可以算出,1750億參數(shù)的模型總共對存儲空間的需求是2.8TB。NVIDIA最新的H100 GPU單卡顯存是80GB,也就是說,至少需要35塊H100 GPU才能放下一個模型。在實際訓(xùn)練中,還需要進行數(shù)據(jù)并行,即用不同GPU存儲相同的模型,但訓(xùn)練不同的數(shù)據(jù)集,以此提高訓(xùn)練效率和收斂性。因此,要訓(xùn)練GPT-3這種級別的大模型,需要幾萬個V100 GPU構(gòu)建成一個集群才能做到,訓(xùn)練費用高達460萬美金一次。
大規(guī)模集群有一個性能指標叫做加速比,它的定義是一個擁有N個GPU的集群,其算力和單個GPU算力N倍的比值,理想情況下這兩者是相等的。但集群訓(xùn)練會引入額外的通信開銷,從而導(dǎo)致N個GPU算力達不到單個GPU算力的N倍。因此,高性能的網(wǎng)絡(luò)互聯(lián),是大規(guī)模GPU集群所必須的。
2、鏈路負載均衡與故障快速恢復(fù)成為主要訴求
分布式訓(xùn)練需要多臺主機之間同步參數(shù)、梯度、以及中間變量。對于大模型而言,單次的參數(shù)同步量一般都在百MB~GB的量級,因此需求網(wǎng)絡(luò)高帶寬?,F(xiàn)在,25Gbps帶寬的網(wǎng)絡(luò)已經(jīng)成為數(shù)據(jù)中心內(nèi)的主流,40Gbps, 100Gbps甚至200Gbps的網(wǎng)絡(luò)都開始逐步使用,那是不是直接用大帶寬網(wǎng)絡(luò)就能提升GPU集群的性能呢?其實并不盡然,研究表明40Gbps和100Gbps的網(wǎng)絡(luò)根本無法充分利用其帶寬,原因是網(wǎng)絡(luò)協(xié)議棧的開銷影響了傳輸性能。因此,大模型對網(wǎng)絡(luò)的第一個要求就是能夠充分利用現(xiàn)在以太網(wǎng)的大帶寬。
大模型訓(xùn)練一般會將數(shù)據(jù)并行、流水線并行、張量并行等多種并行模式混合使用,以充分利用集群的算力。無論是哪種并行模式,多機之間都會涉及一種叫AllReduce的集合通信。一個AllReduce任務(wù)包含多個點對點的通信,而AllReduce的完成需要所有點對點通信都成功完成,因此集合通信存在“木桶效應(yīng)”,即AllReduce的完成時間,由其中最慢的點對點通信時間決定。
正因為如此,大模型訓(xùn)練對網(wǎng)絡(luò)提出了另外兩個要求:
一是鏈路負載均衡要做到完美。因為“木桶效應(yīng)”,只要有一條鏈路出現(xiàn)負載不均導(dǎo)致網(wǎng)絡(luò)擁塞,成為了木桶的短板,那么即使其它鏈路都暢通無阻,集合通信時間仍然會大幅增加,從而影響訓(xùn)練效率。當(dāng)前的負載均衡技術(shù)基于哈希隨機,只能做到流比較多時的一個近似均衡散列,并不能保證所有鏈路都完美均衡開。因此,尋找一種完美的負載均衡技術(shù),是提升機器學(xué)習(xí)大模型訓(xùn)練效率的關(guān)鍵。
二是網(wǎng)絡(luò)出現(xiàn)故障能快速恢復(fù)。隨著集群規(guī)模增大,鏈路故障在所難免。類似的,一條鏈路故障就會導(dǎo)致整個AllReduce通信停滯,進而使模型訓(xùn)練停滯。如何做到故障后快速恢復(fù),最好是上層訓(xùn)練業(yè)務(wù)不感知,是保障一個AI大規(guī)模集群性能的關(guān)鍵。
3、RDMA智能無損,大幅提升帶寬吞吐
傳統(tǒng)TCP網(wǎng)絡(luò)因為主機側(cè)協(xié)議棧開銷大,無法充分利用網(wǎng)絡(luò)帶寬。RDMA通信技術(shù)通過網(wǎng)卡硬件實現(xiàn)通信控制,繞過了主機側(cè)協(xié)議棧,因此既避免了協(xié)議棧內(nèi)存拷貝,又節(jié)約了CPU的開銷。使RDMA通信相比TCP,具有更低時延和更高吞吐的特點,非常適合大模型GPU訓(xùn)練的場景。
但是,RDMA是無損協(xié)議,需要鏈路層PFC來保障不丟包。PFC在大規(guī)模集群可能會出現(xiàn)隊頭阻塞、擁塞擴散,甚至網(wǎng)絡(luò)死鎖等危害,因此直接大規(guī)模部署RDMA存在很高的風(fēng)險。華為智能無損RDMA,在標準RDMA over Ethernet(ROCE)的基礎(chǔ)上,通過PFC防死鎖技術(shù)解決了死鎖問題;通過基于AI的自適應(yīng)擁塞控制技術(shù),解決頭阻問題的同時保證了網(wǎng)絡(luò)的有效吞吐。
基于無損以太的數(shù)據(jù)中心網(wǎng)絡(luò)已經(jīng)可以支持RDMA應(yīng)用的規(guī)模部署,并且已經(jīng)在互聯(lián)網(wǎng)、教育、科研、氣象、金融、油氣等領(lǐng)域得到了廣泛的應(yīng)用。這些技術(shù)在大規(guī)模GPU集群中,也擁有極高的價值。
4、NSLB全網(wǎng)負載均衡,實現(xiàn)90%超高吞吐
現(xiàn)有的網(wǎng)絡(luò)負載均衡技術(shù)絕大多數(shù)只是解決了本地等價路徑之間的均衡,但對于整個網(wǎng)絡(luò)而言,局部均衡并不意味著全局均衡。更何況,對于ECMP這種依賴哈希隨機性的負載均衡技術(shù),在網(wǎng)絡(luò)流量比較少時,對于本地路徑的完美均衡都難以做到。就像拋10000次硬幣,正反面各出現(xiàn)一半很正常;但拋4次硬幣,就有63%幾率不是2正面2反面。AI訓(xùn)練是一種吞吐敏感型業(yè)務(wù),其典型流量特征是流數(shù)少、單流帶寬大、強同步,在這種場景下,ECMP技術(shù)因為可能出現(xiàn)的哈希不均勻,難以保證網(wǎng)絡(luò)負載均衡。
針對這個問題,華為提出了網(wǎng)絡(luò)級負載均衡(Network Scale Load Balance, NSLB)的概念。華為基于算網(wǎng)協(xié)同實現(xiàn)多任務(wù)全局均衡路由,基于全局擁塞狀態(tài)的自適應(yīng)路由算法,實現(xiàn)AI訓(xùn)練流量滿吞吐和網(wǎng)絡(luò)帶寬的完全利用。類似于擁有多條跑道的超大型機場的智慧調(diào)度系統(tǒng),多條跑道同時起飛降落時,也不會互相沖撞,同時也滿足最大游客吞吐量?;贜SLB,AI訓(xùn)練效率都可以大幅提升,如下圖的測試結(jié)果,單任務(wù)、多任務(wù)線性度均達到90%以上。
5、DPFR數(shù)據(jù)面故障快速自愈,使業(yè)務(wù)對故障0感知
傳統(tǒng)網(wǎng)絡(luò)的故障收斂依賴設(shè)備控制面或者集中的控制器的動態(tài)路由收斂,網(wǎng)絡(luò)故障收斂時間數(shù)百ms到數(shù)s,網(wǎng)絡(luò)故障盡管是可以恢復(fù)的,但是故障期間大量丟包,會導(dǎo)致RDMA連接中斷,直接影響AI訓(xùn)練業(yè)務(wù)的穩(wěn)定性和性能。下圖的紅線測試結(jié)果,我們看到由于鏈路故障,導(dǎo)致長達數(shù)秒的業(yè)務(wù)性能跌零。
針對這個問題,華為提出了一種基于數(shù)據(jù)面的故障無感自愈的方案,我們稱為數(shù)據(jù)面故障快速自愈(Data Plan Fast Recovery, DPFR),故障的感知、通告和自愈完全在數(shù)據(jù)面實現(xiàn),不需要控制面參與,基于這種技術(shù)網(wǎng)絡(luò)故障收斂,網(wǎng)絡(luò)故障基本可以做到業(yè)務(wù)無感。下圖的綠線就是開啟DPFR之后的業(yè)務(wù)表現(xiàn),在發(fā)生故障后數(shù)據(jù)面自動恢復(fù),使得上層應(yīng)用無感知。這項技術(shù)可以有效消除網(wǎng)絡(luò)故障對大規(guī)模AI訓(xùn)練的影響。
這就好比在一個部門里面,上級一開始就和下級以及周邊部門協(xié)商好了任務(wù)處理模式,當(dāng)有任務(wù)觸發(fā)時,下級部門直接就和周邊部門協(xié)同處理來提高工作效率,不用像傳統(tǒng)模式一層層協(xié)商匯報后再等上級部門下達命名再處理任務(wù)。華為做的就是開發(fā)出了這個“下級部門”的處理能力,不再單純只做執(zhí)行者。
6、應(yīng)勢而起,領(lǐng)勢而上
在機器學(xué)習(xí)大模型火熱的今天,如何有效訓(xùn)練這些大模型成為各大企業(yè)關(guān)注的焦點。華為超融合數(shù)據(jù)中心網(wǎng)絡(luò)中的智能無損RDMA技術(shù),網(wǎng)絡(luò)級負載均衡的NSLB技術(shù)和數(shù)據(jù)面故障快速自愈的DPFR技術(shù),給大規(guī)模GPU集群帶來了高質(zhì)量的網(wǎng)絡(luò)底座,助力超大模型的高效訓(xùn)練。
MWC 2023世界移動通信大會將于2月27日在西班牙巴塞羅那會展中心拉開帷幕,邀您相約在1號館Intelligent Data Center展島。華為將全新升級Easy CloudFabric數(shù)據(jù)中心網(wǎng)絡(luò)解決方案,助力各行業(yè)邁入多元算力新時代。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責(zé)任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )