5月24日消息(邵鵬慧)昨日,CIOE中國(guó)光博會(huì)與C114通信網(wǎng)聯(lián)合舉辦的“2024中國(guó)光通信高質(zhì)量發(fā)展論壇”第四場(chǎng)——“AI時(shí)代:數(shù)據(jù)中心光互聯(lián)技術(shù)新趨勢(shì)”線上研討會(huì)順利召開(kāi)。
阿里云光網(wǎng)絡(luò)技術(shù)專(zhuān)家陳欽應(yīng)邀作了題為《AI網(wǎng)絡(luò)對(duì)光互聯(lián)的需求和挑戰(zhàn)》的主題演講。陳欽表示,AI應(yīng)用帶來(lái)了海量的光模塊需求,未來(lái)GPU間的scale-up網(wǎng)絡(luò)將持續(xù)推高光模塊的需求,同時(shí)AI也催化了光模塊更新迭代的速度,對(duì)光模塊的穩(wěn)定性要求也進(jìn)一步提高,AI對(duì)光模塊也帶來(lái)巨大的挑戰(zhàn),。
AI發(fā)展帶來(lái)海量光模塊新增需求
當(dāng)前,隨著AI和算力發(fā)展,作為數(shù)據(jù)中心內(nèi)部以及數(shù)據(jù)中心之間連接的重要技術(shù),光模塊產(chǎn)業(yè)快速崛起迎來(lái)高速發(fā)展時(shí)期,其速率和帶寬的提升對(duì)于滿足AI時(shí)代數(shù)據(jù)傳輸?shù)男枨笾陵P(guān)重要,AI網(wǎng)絡(luò)建設(shè)帶來(lái)海量的光模塊需求。
如何量化AI對(duì)光模塊的需求,陳欽介紹,在通用計(jì)算網(wǎng)絡(luò)中可以通過(guò)接入的服務(wù)器數(shù)量來(lái)獲得光模塊的需求量;同理在AI網(wǎng)絡(luò)中,可以通過(guò)GPU卡數(shù)量來(lái)推測(cè)光模塊的用量。
當(dāng)前AI網(wǎng)絡(luò)中,GPU卡和800G光模塊數(shù)量的比例約為1:3,未來(lái),Scale-up GPU網(wǎng)絡(luò)(compute Fabric)將帶來(lái)更多的光互聯(lián)需求,光模塊的需求和光模塊的成本支出在AI集群中占比將大幅上升。
AI催化光模塊技術(shù)演進(jìn):光模塊迭代周期縮減一倍
回顧過(guò)去10年數(shù)據(jù)中心光模塊演進(jìn)歷程,交換芯片的容量遵循每?jī)赡攴槐兜囊?guī)律,而這是通過(guò)Serdes 數(shù)量和Serdes 速率,每?jī)赡杲惶娴姆秮?lái)達(dá)到的;
Serdes單通道速率和光模塊單波長(zhǎng)速率實(shí)際上是每4年翻一倍,主流光模塊每4年更新一代。
AI的應(yīng)用催化了光互聯(lián)的演進(jìn)速率,光模塊從原本每4年更新一代,縮短為每2年更新一代,新一代光模塊研發(fā)到落地的周期將要求被大幅縮短,這個(gè)變化對(duì)于整個(gè)光模塊生態(tài)而言都是一個(gè)極大的挑戰(zhàn)。
AI網(wǎng)絡(luò)對(duì)光互聯(lián)穩(wěn)定性提出兩方面挑戰(zhàn)
陳欽表示AI大模型訓(xùn)練對(duì)光互聯(lián)的穩(wěn)定性要求極高,當(dāng)前AI網(wǎng)絡(luò)穩(wěn)定性的挑戰(zhàn)主要來(lái)自兩方面。
一方面是光模塊硬件,主要是光器件失效引起的,包括激光器和探測(cè)器失效。陳欽介紹,光器件的Wear-out失效不是問(wèn)題,早期失效和隨機(jī)失效才是關(guān)鍵。 當(dāng)前的行業(yè)標(biāo)準(zhǔn)GR468對(duì)光模塊和光芯片的測(cè)試標(biāo)準(zhǔn)太松,并不適用于AI網(wǎng)絡(luò)。鑒于此,阿里云對(duì)光器件的可靠性提出了更為嚴(yán)格的標(biāo)準(zhǔn)。
另一方面是光模塊軟件,高速光模塊普遍使用CMIS管理協(xié)議,帶來(lái)了強(qiáng)大的功能,但也使系統(tǒng)設(shè)備和模塊的交互變得更復(fù)雜。對(duì)此陳欽建議,光模塊廠家應(yīng)加強(qiáng)光模塊在各系統(tǒng)設(shè)備上的集成適配測(cè)試。
AI網(wǎng)絡(luò)下光模塊功耗挑戰(zhàn):TRO技術(shù)成為發(fā)展新方向
2018年 PAM4 DSP在光模塊中出現(xiàn),光的功耗開(kāi)始超過(guò)電的功耗,成為網(wǎng)絡(luò)中功耗占比最高的部分,到1.6T/3.2T光模塊,數(shù)據(jù)中心將需要新的技術(shù)處理功耗問(wèn)題,例如液冷技術(shù)。功耗的變化,將會(huì)給AI基礎(chǔ)設(shè)施帶來(lái)極大的技術(shù)挑戰(zhàn)。
那么應(yīng)該如何降低光模塊的功耗,陳欽表示最直接的手段就是去掉或減少DSP在光模塊內(nèi)部的使用,也就是被討論的技術(shù)熱點(diǎn):LPO、TRO、CPO技術(shù)。
CPO光和交換芯片共封裝融為一體,是一種完全封閉的生態(tài),它不符合數(shù)據(jù)中心開(kāi)放解耦的要求,也無(wú)法做到“pay as your growth”,此外CPO的運(yùn)維也面臨重重挑戰(zhàn),所以CPO只有在可插拔光模塊演進(jìn)不下去時(shí)才會(huì)被考慮。
LPO方案是完全去掉DSP,在功耗、成本和時(shí)延上有很大優(yōu)勢(shì)。但在標(biāo)準(zhǔn)化和互聯(lián)互通方面仍具有很大挑戰(zhàn)。若LPO無(wú)法做到互聯(lián)互通,便不符合數(shù)據(jù)中心對(duì)開(kāi)放解耦的要求。此外,LPO技術(shù)到單波200G是否可持續(xù)也有較大爭(zhēng)論,綜合來(lái)看,LPO技術(shù)落地的挑戰(zhàn)性較大。
TRO去掉一半DSP,是一種折中的技術(shù)方案,它也能夠有效降低功耗,得益于ASIC Serdes接收端強(qiáng)大的均衡能力,TRO的鏈路性能可以得到保證,另外TRO也更容易制定標(biāo)準(zhǔn)和互聯(lián)互通,符合數(shù)據(jù)中心對(duì)開(kāi)放解耦的要求,“TRO是一個(gè)非常有潛力的下一代光互聯(lián)技術(shù)方案”,陳欽表示。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長(zhǎng)
- 涉嫌違反限制性規(guī)定轉(zhuǎn)讓股票等行為 新易盛實(shí)控人、董事長(zhǎng)高光榮被立案調(diào)查
- 天音移動(dòng):將100個(gè)虛商號(hào)段交還中國(guó)聯(lián)通
- 長(zhǎng)沙電信員工反映加班嚴(yán)重 公司回應(yīng):避免無(wú)謂加班
- 中國(guó)移動(dòng)11月5G網(wǎng)絡(luò)客戶凈增143萬(wàn)戶,累計(jì)達(dá)5.47億戶
- 5G-A無(wú)源物聯(lián):夯實(shí)數(shù)字化底座,助力萬(wàn)物智聯(lián)發(fā)展
- Wi-Fi7:6GHzWi-Fi如何支持醫(yī)療保健新時(shí)代
- 未來(lái)最值得關(guān)注的人工智能和機(jī)器學(xué)習(xí)趨勢(shì)是什么?
- 物聯(lián)網(wǎng)實(shí)現(xiàn)智能農(nóng)業(yè)的五大方式
- 人工智能在網(wǎng)絡(luò)安全中的作用
- 光迅科技:自研光芯片沒(méi)有直接對(duì)外銷(xiāo)售,主要滿足自用需求
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。