AMD能撼動英偉達(dá)嗎？

撰文 | 古芯

編輯 |? 李信馬

題圖 | IC Photo

自從去年11月ChatGPT發(fā)布以來，人工智能領(lǐng)域?qū)λ懔Φ男枨罂涨疤嵘?，英偉達(dá)幾乎壟斷了人工智能訓(xùn)練芯片市場，業(yè)內(nèi)一直沒有新玩家或新產(chǎn)品對其形成有效沖擊。

直至今年6月，英偉達(dá)的老對手，超威半導(dǎo)體（AMD）發(fā)布下一代數(shù)據(jù)中心加速處理器（APU）AMD MI300。業(yè)內(nèi)認(rèn)為，AMD的MI300，比英特爾和谷歌的產(chǎn)品更有機(jī)會挑戰(zhàn)英偉達(dá)在人工智能領(lǐng)域的行業(yè)地位。

MI300是AMD發(fā)布的第一款數(shù)據(jù)中心、高性能計算機(jī)群（HPC）級的APU，采用與英偉達(dá)Grace Hopper相同的CPU+GPU架構(gòu)，但是硬件參數(shù)更高。

MI300在CPU部分集成了24個ZEN4內(nèi)核，GPU部分集成了6塊使用CDNA3架構(gòu)的芯片，擁有1460億個晶體管，比英特爾GPU Ponte Vecchio多460億個晶體管，比英偉達(dá)H100多660億個晶體管，而且MI300的統(tǒng)一內(nèi)存可降低不同內(nèi)存間來回復(fù)制、同步和轉(zhuǎn)換數(shù)據(jù)所導(dǎo)致的編程復(fù)雜性。

封裝工藝方面，MI300使用最近爆火的3D Chiplet封裝技術(shù)，而GH200則使用CoWoS（2.5D）封裝，3D對比2.5D的優(yōu)勢在于性能更高、延遲和功耗更低。

從硬件參數(shù)上來看，AMD MI300已經(jīng)具備和英偉達(dá)叫板的能力，但顯卡領(lǐng)域完善軟件生態(tài)比堆硬件參數(shù)更難，AMD的軟件生態(tài)能否貼合人工智能行業(yè)的市場需求，是MI300能否搶走英偉達(dá)既有市場的重要影響因素。

一、軟件生態(tài)決定硬件市場規(guī)模

英偉達(dá)壟斷人工智能訓(xùn)練芯片市場的主要原因是其自研的CUDA生態(tài)。所以AMD MI300想要替代英偉達(dá)，首先需要兼容英偉達(dá)的CUDA生態(tài)，AMD為此推出ROCm生態(tài)圈，并實(shí)現(xiàn)通過HIP完全兼容CUDA。

作為AMD的GPU軟件開發(fā)框架，HIP對應(yīng)的是CUDA API，其提供的HIPify-perl和HIPify-clang工具，可用于CUDA到HIP的代碼轉(zhuǎn)換，轉(zhuǎn)碼后可在AMD GPU上編譯運(yùn)行，基于HIP開發(fā)的應(yīng)用也可用于AMD和英偉達(dá)的GPU上。

在此背景下，同一個數(shù)據(jù)中心內(nèi)，理論上可以同時使用AMD和英偉達(dá)的GPU，但不同公司的GPU產(chǎn)品對數(shù)據(jù)精度的標(biāo)準(zhǔn)和計算方法及順序配置不同，混合使用GPU難免會導(dǎo)致計算精度缺失等問題，直接影響模型訓(xùn)練效果。

而且從技術(shù)層面來看，兼容意味著被動、落后，因為CUDA每一次升級，ROCm都需要做出對應(yīng)升級，技術(shù)團(tuán)隊無法將所有精力用于ROCm生態(tài)圈的迭代上，應(yīng)用場景和使用體驗都會落后于英偉達(dá)。

回顧二者發(fā)展歷程，英偉達(dá)2007年發(fā)布CUDA，AMD2016年才發(fā)布ROCm，前者自問世起就支持Linux、Windows多平臺，后者則長期只能支持Linux系統(tǒng)，且不支持部分Linux的更新，并于今年4月才登錄Windows平臺。

同樣是今年4月，AMD剛解決消費(fèi)級產(chǎn)品與ROCm的適配，此前僅支持AMD高端GPU，限制了市場份額的提升。最后就是由于切入時間更晚，AMD開發(fā)者數(shù)量遠(yuǎn)低于英偉達(dá)的400萬。

對比CUDA和ROCm的開發(fā)活躍度，在全球最大的開發(fā)者社區(qū)之一StackOverflow中，“CUDA”的標(biāo)簽下有超過14000個問題討論，而ROCm在“amd-rocm”的標(biāo)簽下只有不到100個問題討論。在Github上，貢獻(xiàn)CUDA軟件包倉庫的開發(fā)者超過32600位，而ROCm只有不到600個。

為改變這種被動局面，AMD也在積極豐富其軟件生態(tài)。雖然目前僅有部分SKU支持Windows系統(tǒng)，但主流Radeon顯卡用戶可以開始試用過去僅專業(yè)顯卡才能使用的AMD ROCm(5.6.0Alpha)。

今年1季度，AMD宣布ROCm系統(tǒng)融入PyTorch2.0框架，目前TensorFlow和Caffe深度學(xué)習(xí)框架也已加入第五代ROCm。

故此，從軟件生態(tài)方面來看，現(xiàn)有的AMD MI300還不足以威脅英偉達(dá)的市場份額，想撼動英偉達(dá)在人工智能行業(yè)的地位，AMD還需時間。

二、選擇英偉達(dá)的理由

在MI 300之前，需要訓(xùn)練芯片的用戶大多數(shù)都選擇英偉達(dá)的產(chǎn)品，在MI 300之后，這個情況短期內(nèi)也不會改變。

據(jù)華泰證券預(yù)計，擁有1600張H100芯片是AI創(chuàng)業(yè)公司入門水平，GPT-4級別的大模型訓(xùn)練則需要1.6萬張H100GPU的算力，全球約有30家科技巨頭和300家AI初創(chuàng)企業(yè)進(jìn)行相關(guān)投資，未來GPU市場潛在需求達(dá)到300億美元，英偉達(dá)或許會憑借新產(chǎn)品GH200繼續(xù)維持極高市場份額。

作為H100的升級產(chǎn)品，DGX GH200使用的2.5D的封裝工藝雖然較MI300落后，但是英偉達(dá)通過 NVLink 互連技術(shù)及NVLink Switch System串聯(lián)了32臺由8塊GH200超級芯片組成的服務(wù)器，可以為用戶提供1exaFLOPS的算力與144TB的內(nèi)存。

對于業(yè)內(nèi)企業(yè)而言， DGX GH200提供的這種大規(guī)模共享內(nèi)存解決了大規(guī)模AI的關(guān)鍵瓶頸，適用于對性能要求較高且資金充沛的潛在客戶。目前市場有消息稱谷歌Google Cloud、Meta與微軟將成為DGX GH200的首批用戶。

值得注意的是，谷歌目前90%的AI工作負(fù)載都使用自研TPU，且部分性能優(yōu)于英偉達(dá)產(chǎn)品，在谷歌今年4月發(fā)布的關(guān)于TPUv4的論文中，谷歌強(qiáng)調(diào)TPU v4在BERT模型上比A100快1.15倍，而在ResNet模型上比A100快1.67倍，而A100的能耗是TPUv4的1.3-1.9倍。

與微軟Azure中布置的A100相比，谷歌云的TPUv4在BERT上最多可節(jié)省35%的訓(xùn)練成本，在ResNet上最多可節(jié)省50%。除AI工作負(fù)載之外，谷歌管理層此前還曾表示TPU已廣泛應(yīng)用于翻譯、相冊、搜索、Google助理和Gmail等眾多Google產(chǎn)品。

如果谷歌今年重新成為英偉達(dá)DGX GH200的用戶，意味著DGX GH200綜合表現(xiàn)再次超過谷歌的自研TPU。

而且谷歌重新選擇英偉達(dá)還有一個理由，華泰證券認(rèn)為，谷歌TPU專門針對谷歌開源深度學(xué)習(xí)框架TensorFlow進(jìn)行全面優(yōu)化，導(dǎo)致其他學(xué)習(xí)框架在TPU運(yùn)行的效率或不及TensorFlow，潛在用戶群不如使用A100的微軟Azure。

由此可見，和使用A100的平臺相比，谷歌云TPU的最大優(yōu)勢就是成本低，這也直接體現(xiàn)在終端用戶的使用成本上。在谷歌云上A100 80GB價格為3.93美元/芯片/小時，TPUv4價格為3.22美元/芯片/小時。

和谷歌TPU類似，AMD對MI300的定位是高性價比，試圖用和英偉達(dá)相似的性能，更低的價格打開云算力設(shè)備市場。

雖然目前谷歌、微軟等大廠都在積極布局云算力領(lǐng)域，但英偉達(dá)依舊是該領(lǐng)域最具競爭力的企業(yè)，谷歌TPU和AMD的產(chǎn)品同時聚焦高性價比市場，但由于后者可以全面兼容英偉達(dá)CUDA生態(tài)，對TensorFlow之外的深度學(xué)習(xí)框架包容度更高，故此在英偉達(dá)之外的玩家中，AMD的MI300或許有機(jī)會挑戰(zhàn)英偉達(dá)的行業(yè)地位。

結(jié)語

在全球各大企業(yè)都涌入人工智能賽道的背景下，為其提供算力支撐的GPU行業(yè)也越來越細(xì)分。

現(xiàn)階段，GPU行業(yè)逐漸分化為傳統(tǒng)GPU和GPGPU兩個細(xì)分市場，前者延續(xù)專門用于圖形圖像處理用途，內(nèi)置了視頻編解碼加速引擎、2D 加速引擎、3D 加速引擎、圖像渲染等專用運(yùn)算模塊。

后者作為運(yùn)算協(xié)處理器，并針對不同應(yīng)用領(lǐng)域的需求，增加了專用向量、張量、矩陣運(yùn)算指令，提升了浮點(diǎn)運(yùn)算的精度和性能，以滿足不同計算場景的需要，英偉達(dá)的GH200和AMDMI300均屬于這個領(lǐng)域。

作為人工智能領(lǐng)域最主要的協(xié)處理器解決方案，GPGPU占據(jù)人工智能90%以上的市場份額。這主要是因為GPGPU能提供的完善軟件生態(tài)系統(tǒng)，極大降低了各種已有應(yīng)用程序的移植和新算法的開發(fā)門檻，這也是英偉達(dá)不斷升級CUDA的主要原因。

伴隨AI浪潮持續(xù)推進(jìn)，各類模型訓(xùn)練需求與日俱增，根據(jù)前瞻產(chǎn)業(yè)研究院的數(shù)據(jù)，未來幾年內(nèi)，中國人工智能芯片市場規(guī)模將保持年均40%至50%的增長速度，到2024年，市場規(guī)模將達(dá)到785億元。

行業(yè)景氣度持續(xù)上升的背景下，誰能率先完成獨(dú)有的軟件生態(tài)，誰就有可能挑戰(zhàn)英偉達(dá)在訓(xùn)練芯片行業(yè)的市場地位，目前看，最有機(jī)會的就是AMD。

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請進(jìn)一步核實(shí)，并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時，應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

AMD能撼動英偉達(dá)嗎？

下一篇

精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

AMD能撼動英偉達(dá)嗎？

下一篇

AMD能撼動英偉達(dá)嗎？