瀏覽科技新聞頭條,你就會不由自主地認為人工智能(AI)即將改變幾乎所有行業(yè)。然而,通常情況下,這些故事描繪的人工智能驅動的顛覆仍然是假設的。而對于運營世界上最大數據中心的組織來說,轉型已經開始。
生成式人工智能(GenAI)應用對性能的超高要求及其爆炸式增長,正在將當前的數據中心網絡推向極限。為此,超大規(guī)模企業(yè)和云服務提供商正爭相添加數千個圖形處理單元和其他硬件加速器(xPU),以擴大人工智能計算集群。
連接它們需要網絡以前所未有的規(guī)模提供高吞吐量和低延遲,同時支持更復雜的流量模式,例如微突發(fā)。數據中心運營商不能像過去那樣,簡單地通過增加更多機架和光纖設備來滿足這些需求。無論是否準備好,他們別無選擇,只能重新構想數據中心架構。
新興的AI優(yōu)化數據中心結構將會是什么樣子?它們將使用哪些接口技術,以及它們將如何影響800-Gbps傳輸和下一代以太網的市場接受度?數據中心運營商目前正在研究這些問題,但即使在早期階段,我們也開始得到一些答案。
應對人工智能網絡挑戰(zhàn)
預計每兩年,人工智能應用流量將增長10倍,人工智能集群規(guī)模將增長4倍。這種增長部分源于人工智能應用的普及,但很大一部分源于AI模型本身日益復雜,以及隨之而來的xPU到xPU通信的超大規(guī)模。
為了理解其中的原因,我們可以回顧一下人工智能工作負載的實際含義。基本上,AI集群必須支持工作負載處理的兩個階段:
● 模型訓練涉及攝取大量數據集來訓練人工智能算法來尋找模式或建立關聯。
● 人工智能推理需要人工智能模型將其訓練應用于新數據。
這兩個階段都不會對主要用于數據采集的前端接入網絡產生重大的短期影響。然而,在后端集群中,密集的AI訓練和推理工作負載需要一個單獨的、可擴展的、可路由的網絡來連接數千甚至數萬個xPU。
許多云服務提供商已經在努力實現當前AI工作負載的TB網絡閾值。隨著人工智能模型的復雜性每三年增長1000倍,在不久的將來,他們可能需要支持具有數萬億個密集參數的模型。為了滿足這些需求,數據中心運營商需要提供以下功能的網絡結構:
極高的吞吐量:人工智能集群必須能夠處理極其計算和數據密集型的工作負載,并并行支持數千個同步作業(yè)。特別是AI推理工作負載,每個加速器產生的流量比前端網絡多5倍,需要的帶寬比前端網絡多5倍。
極低延遲:AI工作負載必須通過大量節(jié)點,因此系統(tǒng)中任何一點的過高延遲都可能導致嚴重延遲。當前AI工作負載處理中約三分之一的時間用于等待網絡。對于許多實時AI應用,此類延遲可能導致用戶體驗不佳,甚至導致應用無法使用。
零數據包丟失:當網絡嘗試緩沖或重新傳輸丟失的數據包時,數據包丟失可能是造成延遲的重要因素。這對于AI模型訓練來說是一個大問題,因為在接收到所有數據包之前,工作負載操作甚至無法完成。
大規(guī)模可擴展性:為了支持更先進的人工智能應用,模型訓練和其他分布式工作負載,必須能夠有效擴展到數千個節(jié)點上的數十億個參數。
總的來說,這些要求強調了后端AI基礎設施需要新的橫向擴展葉和脊架構。使用數千個xpu的中等規(guī)模AI應用可能需要帶有AI葉子層的機架級集群。連接數萬個加速器的最大人工智能集群將需要具有可路由結構和人工智能葉脊的數據中心規(guī)模架構。
人工智能市場不斷發(fā)展
關于人工智能的最大懸而未決的問題之一是新興應用將如何影響800G以太網等下一代接口技術的采用。這也是一個正在展開的故事,但我們開始對市場將如何發(fā)展有了些許了解。
由于前端數據中心網絡將在很大程度上遵循傳統(tǒng)的升級時間表,預計到2027年,800G以太網將占前端網絡端口的三分之一。然而,在后端網絡中,運營商的遷移速度要快得多。在那里,800Gbps接口的采用率將以三位數的速度增長,到2027年幾乎涵蓋所有后端端口。
我們也開始了解運營商將使用哪種接口技術。預計在可預見的未來,大多數運營商將繼續(xù)在前端網絡中使用以太網。后端網絡將更加混雜,因為運營商會權衡熟悉、經濟高效的以太網與專有InfiniBand(功能完善的網絡通信系統(tǒng))的無損傳輸能力。一些針對無法容忍不可預測性能的AI應用的運營商將選擇InfiniBand。其他運營商將結合使用以太網和新協(xié)議,以及每個流擁塞控制,以實現低延遲無損流。還有一些運營商將同時使用這兩種協(xié)議。
展望未來
目前,對于最佳AI集群大小、接口類型或高速接口遷移路徑,還沒有單一的答案。對于特定運營商來說,正確的選擇取決于多種因素,包括他們計劃針對的AI應用類型、這些工作負載的帶寬和延遲要求以及無損傳輸的需求。但考慮因素不僅僅是技術因素。運營商還需要考慮他們是否計劃在內部支持密集的模型訓練工作負載還是將其外包,他們對標準化技術還是專有技術的偏好,對不同技術規(guī)劃圖和供應鏈的適應程度等等。
無論運營商如何回答這些問題,有一個事實已經很清楚:鑒于人工智能應用的發(fā)展速度如此之快,適當的測試和驗證比以往任何時候都更加重要。驗證標準合規(guī)性、互操作性以及定時和同步的能力,是快速遷移到下一代網絡接口和架構的必備功能。幸運的是,測試和仿真工具正在與人工智能一起發(fā)展。無論未來的人工智能數據中心是什么樣子,業(yè)界都將準備好支持它們。
免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。