近年來,人工智能正在從互聯(lián)網(wǎng)行業(yè)向通信、制造、能源、醫(yī)療、政府等各行各業(yè)滲透,成為了社會(huì)經(jīng)濟(jì)活動(dòng)中最具變革的力量。得益于5G技術(shù)的發(fā)展,AI在向這些傳統(tǒng)行業(yè)落地應(yīng)用的過程中,延伸到了網(wǎng)絡(luò)的邊緣端:通信運(yùn)營(yíng)商開始部署MEC,基于基站中的邊緣計(jì)算設(shè)施為附近設(shè)備產(chǎn)生的數(shù)據(jù)提供AI分析,鋼鐵廠可基于邊緣計(jì)算平臺(tái)的支持,實(shí)現(xiàn)產(chǎn)品智能質(zhì)檢模型下發(fā)和數(shù)據(jù)回傳等等,我們可以看到越來越多的AI場(chǎng)景在邊緣端落地應(yīng)用。
據(jù)IDC預(yù)測(cè),到2023年將有超過50%的新建企業(yè)基礎(chǔ)設(shè)施被部署在邊緣,而目前這一比例不到10%。AI走到邊緣,意味著什么?
IT標(biāo)準(zhǔn)與CT標(biāo)準(zhǔn)的碰撞
AI走到邊緣最直接的挑戰(zhàn)是物理環(huán)境的變化。AI服務(wù)器對(duì)云數(shù)據(jù)中心的空間、散熱等等都有嚴(yán)格的規(guī)定,可隨著AI場(chǎng)景離人們?cè)絹碓浇?,邊緣端受限的物理空間、復(fù)雜的環(huán)境都在阻礙著AI向邊緣的廣泛落地。
在這些不同環(huán)境的背后,其實(shí)是云端數(shù)據(jù)中心IT(Information Technology)標(biāo)準(zhǔn)與邊緣端CT(Communication Technology )標(biāo)準(zhǔn)有著本質(zhì)的區(qū)別。
IT基礎(chǔ)設(shè)施是規(guī)模化的,比如阿里巴巴等互聯(lián)網(wǎng)數(shù)據(jù)中心,承載其電商業(yè)務(wù)的服務(wù)器有幾十萬臺(tái),面向單一業(yè)務(wù)呈現(xiàn)出大規(guī)模、集中化的趨勢(shì)。但是CT的數(shù)據(jù)中心,也就是傳統(tǒng)的電信數(shù)據(jù)中心不是規(guī)?;模?yàn)檫\(yùn)營(yíng)商不太需要把流量匯聚到一起,而是要快速得下發(fā)下去,到了5G,更是如此,所以CT的規(guī)?;?yīng)是遠(yuǎn)低于IT的。但電信數(shù)據(jù)中心的多樣化遠(yuǎn)高于IT,因?yàn)殡娦胚\(yùn)營(yíng)商網(wǎng)絡(luò)要全覆蓋,不同的環(huán)境都要適應(yīng),比如青藏高原就很少能有互聯(lián)網(wǎng)數(shù)據(jù)中心,可電信數(shù)據(jù)中心就不能少,可以看出CT面臨的是多元化的需求。
追其根本,是因?yàn)镮T是以計(jì)算為核心,CT是以網(wǎng)絡(luò)流量為核心的。IT數(shù)據(jù)中心以服務(wù)器等計(jì)算設(shè)施為核心,需要更強(qiáng)的計(jì)算性能,更大的體積,設(shè)備一般深度80厘米以上,可達(dá)120厘米,也因?yàn)镮T設(shè)備規(guī)?;⒓谢?,所以環(huán)境需求單一。而CT以流量為核心,內(nèi)部擴(kuò)展要求低,所以設(shè)備更加小巧,深度一般在40厘米左右,可靠性、適應(yīng)性的要求高。
客戶需求對(duì)行業(yè)規(guī)范的挑戰(zhàn)
邊緣計(jì)算是IT和CT的融合,要在CT的規(guī)范中,履行IT功能。兩個(gè)行業(yè)標(biāo)準(zhǔn)的融合往往是痛苦的,對(duì)于執(zhí)行主體——廠商來說,尤其如此。
浪潮就接到過某個(gè)通信大廠邊緣AI算力的定制化需求??蛻籼岢鲆_發(fā)一款可以部署在邊緣端的最強(qiáng)AI算力服務(wù)器,讓邊緣數(shù)據(jù)中心具備最強(qiáng)的AI訓(xùn)練及推理能力。該服務(wù)器需部署于600mm深的電信機(jī)柜內(nèi),因此服務(wù)器設(shè)備體積和內(nèi)部部件的規(guī)劃為19英寸寬,10.5英寸(6U)高,46厘米深,支持2個(gè)CPU芯片和32顆AI芯片。
浪潮AI邊緣服務(wù)器前視圖
AI芯片是以模組方式而不是傳統(tǒng)的芯片方式供貨給設(shè)備商,而該模組主要應(yīng)用于IT場(chǎng)景,其140*78mm的尺寸是按照IT的大機(jī)柜場(chǎng)景設(shè)計(jì)的,在CT標(biāo)準(zhǔn)的狹小機(jī)箱內(nèi)實(shí)現(xiàn)32顆AI芯片是極具挑戰(zhàn)的。浪潮計(jì)劃采用8個(gè)1U寬,5U高的LC槽位,每槽位4顆AI芯片互連實(shí)現(xiàn)32顆AI芯片的規(guī)格。
受物理空間限制,一塊LC板上只能放置2個(gè)AI芯片模組,如何在這樣的槽位內(nèi)實(shí)現(xiàn)4個(gè)AI模組是達(dá)成該產(chǎn)品規(guī)格的關(guān)鍵問題。針對(duì)該問題,浪潮提出橋接,對(duì)扣,Retimer三種解決方案。由于芯片放置于AI模組上,模組同PCB連接時(shí)本身需要一對(duì)連接器,無論哪種方案都會(huì)涉及到AI芯片的25Gbps多次跨越連接器的問題。依據(jù)芯片廠家規(guī)范,4顆芯片無法多次跨越連接器,也就無法分布在兩塊單板上。但客戶需求是最強(qiáng)的AI算力,若不能實(shí)現(xiàn)單槽位4個(gè) AI芯片互聯(lián),服務(wù)器計(jì)算能力也會(huì)下降,無法滿足客戶需求。那就只剩一個(gè)選擇,突破廠家規(guī)范,解決25Gbps多次跨連接器的信號(hào)完整性問題,實(shí)現(xiàn)4顆芯片分布在2個(gè)板上互連。
三種芯片連接方案
跨板互連方案最大的技術(shù)挑戰(zhàn)是信號(hào)完整性設(shè)計(jì)。因?yàn)榭绨寤ミB方案不僅會(huì)導(dǎo)致信號(hào)傳輸距離大幅增加,而且當(dāng)25Gbps信號(hào)多次跨越連接器,會(huì)加大25Gbps信號(hào)之間的串?dāng)_,增大高速信號(hào)的抖動(dòng)。由于該應(yīng)用無法滿足芯片原廠對(duì)系統(tǒng)鏈路的設(shè)計(jì)規(guī)則要求,鮮有廠商敢于嘗試這項(xiàng)挑戰(zhàn)芯片廠商設(shè)計(jì)規(guī)則的研發(fā)任務(wù)。但為了服務(wù)用戶、滿足客戶邊緣端極致化的AI算力需求,浪潮承接了這項(xiàng)高難度的研發(fā)任務(wù)。
規(guī)范要向應(yīng)用妥協(xié)
要在1U的空間實(shí)現(xiàn)4顆AI芯片之間25Gbps跨板連接,就要解決信號(hào)跨板互連時(shí)的信號(hào)完整性問題。而造成信號(hào)失真的主要因素包括單板材料、傳輸長(zhǎng)度、連接器性能及數(shù)量等等。
芯片廠商對(duì)芯片板卡上的信號(hào)損耗、回?fù)p、串?dāng)_都會(huì)有明確的要求:
芯片系統(tǒng)的鏈路總插損要小于21dB,其中芯片模組本身會(huì)占據(jù)8dB,留給系統(tǒng)的損耗為13dB。
最好的PCB板材,信號(hào)布線最長(zhǎng)仍不能超過11英寸;
線路信號(hào)初始是900mV,到達(dá)接收端眼高會(huì)降低至0mV,需要靠芯片內(nèi)部的補(bǔ)償機(jī)制回復(fù)眼圖。傳輸過程多使用連接器傳輸距離就要變短,同時(shí)鏈路串?dāng)_要增加。每多使用1個(gè)連接器,就需要把總線長(zhǎng)縮短0.5英寸。同時(shí)鏈路串?dāng)_要小于7mV,多使用一次連接器,串?dāng)_會(huì)增加2mV左右。因此一般最多支持2個(gè)連接器。
“舉例來說,信號(hào)在PCB線路中傳輸就像冰壺在冰面上滑行,滑行的最長(zhǎng)距離取決于冰面本身的光滑程度,如果冰壺在冰面遇到障礙發(fā)生顛簸,或者和其他冰壺發(fā)生碰撞,就會(huì)減小冰壺滑行的最大距離。高速信號(hào)經(jīng)過信道中的連接器,就像冰壺遇到冰面的障礙,會(huì)引起信號(hào)的抖動(dòng)和衰減,可能會(huì)導(dǎo)致信號(hào)無法正確的傳輸?shù)浇邮斩恕?rdquo;浪潮研發(fā)工程師侯紹錚解釋。
“但由于邊緣端空間受限,4個(gè)AI模塊無法放置于同一塊單板上,要跨板連接就不得不在鏈路中增加連接器,那么如何系統(tǒng)性的減少鏈路長(zhǎng)度、改善鏈路反射點(diǎn)性能、優(yōu)化信號(hào)間的串?dāng)_是架構(gòu)設(shè)計(jì)、信號(hào)完整性設(shè)計(jì)能力的重要指標(biāo),也是產(chǎn)品成功與否的關(guān)鍵能力。”
通過前期的仿真分析,浪潮選定背扣式,即方案二作為了設(shè)計(jì)方案。為了保持信號(hào)傳輸路徑最短,滿足插損要求,信號(hào)線的布線路徑不能如下圖左側(cè)黃線路徑設(shè)計(jì),必須從連接器內(nèi)部穿過。而這會(huì)導(dǎo)致25Gbps信號(hào)穿過25Gbps信號(hào)過孔(紅圈)之間發(fā)生串?dāng)_。浪潮工程師通過合理的布線層設(shè)計(jì)及創(chuàng)新性使用背鉆技術(shù),改變過孔的長(zhǎng)度,規(guī)避了線到孔的信號(hào)串?dāng)_。
高速信號(hào)過孔情況
依據(jù)芯片廠家的設(shè)計(jì)規(guī)則,要求AI模組端連接器有效過孔深度小于50mil,而跨板互連連接器又必須滿足stub小于10mil的要求,兩者在本方案中是沖突的。為了解決這一問題浪潮通過對(duì)有效孔長(zhǎng)及stub對(duì)信號(hào)完整性的影響逐一仿真分析,并根據(jù)項(xiàng)目具體鏈路情況建模,先后仿真分析了3種不同布線方案的24種布線方式,依據(jù)該項(xiàng)目仿真結(jié)果同廠家規(guī)范允許的鏈路設(shè)計(jì)進(jìn)行了對(duì)比,確定最終設(shè)計(jì)方案。
浪潮PCBA板布線方案
盡管項(xiàng)目的設(shè)計(jì)、器件選型、驗(yàn)證無論是難度還是復(fù)雜度都很高,但隨著設(shè)計(jì)方案逐漸明晰,設(shè)計(jì)中的技術(shù)風(fēng)險(xiǎn)被一一攻克,浪潮開發(fā)的背扣式AI模組跨板互連方案,成功實(shí)現(xiàn)4個(gè)AI模組多次跨連接器的25Gbps互連,不僅達(dá)成了客戶的規(guī)格需求,也完善了面向邊緣端AI應(yīng)用場(chǎng)景的服務(wù)器設(shè)計(jì)規(guī)范。
眼圖結(jié)果
從AI到邊緣,客戶應(yīng)用打破規(guī)范是未來的趨勢(shì)
2019年5G商用牌照正式下發(fā),5G剛剛開始,邊緣計(jì)算也剛剛開始。靠近網(wǎng)絡(luò)邊緣側(cè)的計(jì)算是場(chǎng)景化的,是高度應(yīng)用驅(qū)動(dòng)的,不論是一般性的計(jì)算還是邊緣AI,都需要在實(shí)際應(yīng)用中一步步探索。這個(gè)過程就是技術(shù)上創(chuàng)新的過程。
這種技術(shù)創(chuàng)新不單單是要滿足更強(qiáng)的計(jì)算性能,更低的時(shí)延,更寬的帶寬,更是一個(gè)以實(shí)際需求,客戶實(shí)際應(yīng)用驅(qū)動(dòng)的不同技術(shù)標(biāo)準(zhǔn)和規(guī)范碰撞和調(diào)整的過程。可以預(yù)見,隨著5G和AI等技術(shù)的發(fā)展,面對(duì)客戶不同的邊緣AI場(chǎng)景下海量的計(jì)算需求,將會(huì)有越來越多的廠商去打破行業(yè)規(guī)范,為邊緣數(shù)據(jù)中心提供更加多元和創(chuàng)新的解決方案。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )