撰文 | 古? ?芯
編輯 | 楊博丞
題圖 | IC Photo
ChatGPT的誕生是AI行業(yè)發(fā)展的一個里程碑,讓通用人工智能距離全面商用更進(jìn)一步。ChatGPT雖然屬于生成式人工智能技術(shù)(AIGC)的一種,卻可以訓(xùn)練其他AIGC產(chǎn)品,比如充當(dāng)AI畫圖模型Midjourney 的提示詞分析師。
由于ChatGPT的能力過于突出,其母公司2022年11月發(fā)布ChatGPT3.5版本后,迅速吸引大量用戶,同時也招來非議,最引人關(guān)注的莫過于全球首富馬斯克,聯(lián)合千人請愿全球停止研發(fā)類ChatGPT產(chǎn)品。
之所以說馬斯克的呼吁吸引眼球,不是因為他反對研發(fā)類ChatGPT產(chǎn)品,也不是因為他全球首富的身份,而是因為他呼吁停止研發(fā)類ChatGPT產(chǎn)品之前,剛表態(tài)要自建團隊,自備資金研發(fā)類ChatGPT產(chǎn)品;其次才是作為世界首富雄厚的財力,稍微出手,便囤了10000塊GPU芯片。
馬斯克對ChatGPT的表態(tài)看似矛盾,但是考慮到馬斯克2015年還是ChatGPT母公司OpenAI的聯(lián)合創(chuàng)始人,2018年就被現(xiàn)任CEO“奧特曼”擠走,這種類似吃不到葡萄說葡萄酸的心里也就容易理解了。更何況馬斯克一直站在新興技術(shù)風(fēng)口上,怎么可能容忍當(dāng)今最新潮的技術(shù)和自己沒關(guān)系?
只不過不止一次表態(tài)要切入人工智能(AI)賽道的馬斯克,為何成立AI部門之前先搶了一萬塊GPU(圖形處理器)芯片?搶購的又是什么型號的芯片?馬斯克買了這一萬塊芯片,會不會影響行業(yè)供需關(guān)系,國內(nèi)AI企業(yè)會不會受到影響,最重要地的是,國內(nèi)有沒有能做GPU的企業(yè),做到什么地步了?
01.GPU如何攪動人工智能行業(yè)
馬斯克購買一萬塊GPU芯片,主要是因為GPU的性能決定了行業(yè)天花板,相比于通用的CPU(中央處理器),GPU在人工智能行業(yè)被細(xì)分到“AI芯片”領(lǐng)域,也就是針對AI算法做了特殊加速設(shè)計的芯片。
狹義的人工智能芯片,指的就是專門優(yōu)化過的顯卡。在人工智能剛駛?cè)肟燔嚨赖?012年,前谷歌計算機科學(xué)家Alex Krizhevsky,使用深度學(xué)習(xí)+GPU的方案在Image Net LSVRC-2010圖像識別大賽中,將識別成功率從74%提升至85%,在行業(yè)內(nèi)引起廣泛關(guān)注。
GPU行業(yè)龍頭英偉達(dá)(NVIDIA)受此啟發(fā),投入大量人力物力又優(yōu)化自家GPU的CUDA深度學(xué)習(xí)生態(tài)系統(tǒng),有消息稱短短3年內(nèi),公司GPU產(chǎn)品性能提升了65倍,甚至還推出了基于自家GPU,覆蓋后端訓(xùn)練至前端應(yīng)用的全套方案。
眾所周知,GPU通常被用于圖像處理任務(wù),因為圖像是由多個像素組成,GPU想要高效完成圖像處理任務(wù),就需要大量可以完成獨立運算的單元,廠商也會極盡可能,在芯片內(nèi)放入更多獨立計算核心,2018年發(fā)布的英偉達(dá)GTX2080TI有4352個CUDA核心,到2022年發(fā)布的4090顯卡CUDA核心增至16384個。本就具備同時大量獨立計算的能力,所以只需要CPU給出正確的指令,GPU自然可以迅速完成深度學(xué)習(xí)型AI產(chǎn)品所需要的超規(guī)模計算。
我們今天熟悉的ChatGPT已經(jīng)迭代至第四代。以第一代ChatGPT為例,2018年6月發(fā)布的GPT-1只在8個GPU上訓(xùn)練了一個月,當(dāng)年運行TensorFlow單GPU深度學(xué)習(xí)研究,表現(xiàn)最佳的GPU是GTX2080TI,參數(shù)量約為1.17億,預(yù)測訓(xùn)練數(shù)據(jù)量僅有5GB;2019年2月發(fā)布的GPT-2預(yù)訓(xùn)練數(shù)據(jù)量增至40GB,參數(shù)量達(dá)到了15億,此時需要256個Google Cloud TPU v3上訓(xùn)練一周。
到2020年5月發(fā)布的GPT-3,預(yù)訓(xùn)練數(shù)據(jù)量猛增至45TB,參數(shù)量達(dá)到1750億,需要在355個GPU上訓(xùn)練一年,且訓(xùn)練總成本達(dá)到1200萬美元。GPT-3.5也就是我們現(xiàn)在熟悉的ChatGPT,和最新發(fā)布的ChatGPT4.0尚未公布相關(guān)數(shù)據(jù),可以肯定的是,這兩代ChatGPT均使用GPU訓(xùn)練。據(jù)華西證券數(shù)據(jù),ChatGPT母公司OpenAI已使用了約2.5萬個英偉達(dá)的GPU。
雖然微軟已經(jīng)將OpenAI收入麾下,并提供代號為“雅典娜”的人工智能芯片,但由于英偉達(dá)芯片在人工智能行業(yè)深耕多年,新玩家短期內(nèi)很難對其形成威脅,未來需求仍將繼續(xù)上升。
更為人熟知的CPU,與GPU相比具有明顯短板。因為CPU需要較高的通用性,較為高端的產(chǎn)品還需要在核心內(nèi)構(gòu)建3級緩存,所以單個核心會盡可能做的大而全,這就造成CPU可用于單獨計算的核心明顯少于GPU,無法專精處理某一項任務(wù),導(dǎo)致CPU在行計算、浮點計算以及矩陣運算方面存在明顯的先天不足,這三個能力恰恰是完成ChatGPT這種深度學(xué)習(xí)型AI產(chǎn)品迫切需要的。
英偉達(dá)為了進(jìn)一步提升旗下產(chǎn)品對AI深度學(xué)習(xí)的適應(yīng)性,特意推出用于超級計算機的深度學(xué)習(xí)的Tesla顯卡,最新型號為A100,2022年由于不可抗力,已經(jīng)被禁止向中國出口,轉(zhuǎn)而推出減配版A800。
和消費級顯卡相比,Tesla顯卡在完成圖像處理、語音識別、機器學(xué)習(xí)、物體檢測等任務(wù)時更快,根據(jù)相關(guān)測試,同樣是2020年推向市場的A100和3090,消費級顯卡3090 的tensor core只有A100的四分之一。在深度學(xué)習(xí)領(lǐng)域,無論是常見的CNN還是ChatGPT使用的Transformer,大多數(shù)浮點計算量,都集中于依托tensor core計算的矩陣乘法上面,所以使用A100可以更快完成深度學(xué)習(xí)產(chǎn)品的開發(fā)。
基于上述分析,不難發(fā)現(xiàn)海外對中國禁運A100的意圖,就是想要極大可能限制中國人工智能行業(yè)發(fā)展。
02.國產(chǎn)芯片露出微光
短期來看,中國人工智能行業(yè)可以選擇除A100外的次等GPU,但是長期來看,必須要突破封鎖,實現(xiàn)人工智能芯片國產(chǎn)化。
聚焦人工智能芯片領(lǐng)域,除GPU外,可用于AI算法的芯片還包括CPU、FPGA、MLU、TPU,以及最新研究方向類腦芯片,后者由于概念較為先進(jìn),預(yù)計最快將于2023年成熟,尚不足以撼動AI芯片競爭格局。同時出于現(xiàn)實考慮,國內(nèi)廠商在GPU芯片上和英偉達(dá)或AMD、Intel正面硬鋼,毫無勝算。
CPU方面雖然有近期龍芯有所突破,但是如前所述,CPU并行算力不足,不適合應(yīng)用于AI深度學(xué)習(xí);FPGA雖然已經(jīng)用于AI算法訓(xùn)練,但是市場規(guī)模較??;最有可能替代GPU的就是MLU、TPU通用AI芯片。
但根據(jù)ChatGPT發(fā)展歷程,Openai在開發(fā)GPT-2時,曾經(jīng)使用過谷歌TPU芯片,這是一種以ASIC作為底芯片的計算單元,專注于神經(jīng)網(wǎng)絡(luò)所需的矩陣運算的專用芯片,最先應(yīng)用于AlphaGo中。
但是鑒于使用ASIC技術(shù)的芯片需要定制化,用戶使用成本較GPU更高且更繁瑣,OpenAI開發(fā)GPT-3時重新選擇GPU,同時考慮到GPT-3模型參數(shù)量陡增,英偉達(dá)CUDA架構(gòu)較其他產(chǎn)品具有明顯優(yōu)勢,間接體現(xiàn)了英偉達(dá)GPU在人工智能芯片領(lǐng)域絕對龍頭的位置,但這不代表其他產(chǎn)品就沒有開發(fā)和應(yīng)用價值。
首先是以谷歌TPU、寒武紀(jì)MLU為代表的通用AI芯片,憑借針對特定算法深度優(yōu)化和加速,可以在確定性執(zhí)行模型的應(yīng)用需求中發(fā)揮作用;FPGA芯片依靠靈活多變的通用性,再加上可編程性,適用于開發(fā)周期較短的AI產(chǎn)品、傳感器數(shù)據(jù)預(yù)處理工作以及小型開發(fā)試錯升級迭代階段等。
?梳理國產(chǎn)芯片企業(yè)的格局,除寒武紀(jì)外,華為、國芯科技也布局了通用AI芯片(TPU\MLU);安路科技、紫光國微、復(fù)旦微電等企業(yè)布局FPGA芯片,試圖在這兩個領(lǐng)域突破海外對我國GPU芯片的封鎖。
目前寒武紀(jì)雖然尚未實現(xiàn)盈利,芯片市占率也不高,但芯片產(chǎn)品覆蓋了云端智能芯片及加速卡、訓(xùn)練整機、邊緣智能芯片及加速卡、終端智能處理器IP以及上述產(chǎn)品的配套軟件開發(fā)平臺。
另一個已經(jīng)被應(yīng)用于人工智能的算法訓(xùn)練的FPGA芯片領(lǐng)域,中國市場占有率最高的國產(chǎn)廠商是安路科技,目前公司在中低端產(chǎn)品線全面對標(biāo)海外龍頭企業(yè),考慮到建立FPGA芯片軟硬件生態(tài)體系行業(yè)壁壘較高,且用戶更換產(chǎn)品驗證周期長,安路科技未來有望依托現(xiàn)有市場擴大優(yōu)勢。
目前安路科技的產(chǎn)品廣泛應(yīng)于用網(wǎng)絡(luò)通信、消費電子、工業(yè)控制和數(shù)據(jù)中心等領(lǐng)域均能保持穩(wěn)健的成長,正在拓展無人機、自動駕駛、智慧城市等涉及人工智能的應(yīng)用領(lǐng)域。
不過目前最值得關(guān)注的國產(chǎn)AI芯片企業(yè)應(yīng)該是千芯科技,公司生產(chǎn)的存算一體AI芯片,通過自研存算一體技術(shù),可提供能效比超過10-100TOPS/W,在特定領(lǐng)域可以提供更大算力(1000TOPS以上),優(yōu)于其他類型AI芯片10-40倍的算力支持,應(yīng)用場景包括自然語言處理,一旦量產(chǎn),可用于類ChatGPT產(chǎn)品的研發(fā)。其他可以用于深度學(xué)習(xí)領(lǐng)域的國產(chǎn)芯片還包括北京君正的AI協(xié)處理器T02,燧原科技的邃思AI訓(xùn)練和推理芯片等。?
現(xiàn)階段,寒武紀(jì)、安路科技、千芯科技等國產(chǎn)AI芯片企業(yè)的產(chǎn)品,雖然尚不具備替代英偉達(dá)的能力,但是也給中國人工智能行業(yè)帶來一絲微光。回顧芯片行業(yè)的發(fā)展,無論是芯片設(shè)備還是芯片產(chǎn)品,只要中國企業(yè)突破封鎖,就能迅速改變行業(yè)格局,這其中就包括一種最常見的AI芯片。
03.AI芯片領(lǐng)域唯一的突破
這種最常見的AI芯片就是存儲芯片,日前國產(chǎn)存儲芯片生產(chǎn)商長江存儲憑一己之力,讓海外大廠三星等企業(yè)的固態(tài)存儲產(chǎn)品主動降價超50%。長江存儲芯片對三星帶來的危機感,是典型的彎道超車,也是國產(chǎn)芯片產(chǎn)業(yè)鏈尋求的最佳發(fā)力點。
過去很長一段時間,存儲芯片占全球芯片市場規(guī)模的27%,但是競爭格局較為固化,尤其是中國市場,2018年中國進(jìn)口的3120億美元的芯片中,存儲芯片進(jìn)口額高達(dá)1150億美元,占比超36%。
到2020年,中國存儲芯片規(guī)模增至全球存儲芯片的31%,但是自給率不足1%,競爭格局高度固化,韓國三星近乎壟斷高端存儲市場。
同時考慮到中國AI行業(yè)發(fā)展過于迅猛,有數(shù)據(jù)顯示,預(yù)計到2025年,中國人工智能核心市場規(guī)模有望達(dá)到4000億元,鑒于當(dāng)前國內(nèi)芯片行業(yè)發(fā)展現(xiàn)狀,CPU\GPU等產(chǎn)品研發(fā)周期太長,想要短期獲得國內(nèi)市場的話語權(quán)難度極高,所以在國家大基金的領(lǐng)導(dǎo)下,長江存儲加快3D NAND存儲芯片研發(fā)進(jìn)度,2019年推出64層3D NAND后,于2022年順利推出192層3D NAND芯片。
反觀壟斷中國存儲市場的三星,自從2013年推出24層3D NAND閃存芯片后,直到2019年才推出96層V-NAND,雖然研發(fā)進(jìn)度慢有更換技術(shù)路線的原因,但是同期另一家老牌存儲長海力士已經(jīng)推出128層4D NAND產(chǎn)品,三星此時已經(jīng)明顯落后于同業(yè)企業(yè),但仍領(lǐng)先長江存儲。
現(xiàn)如今,長江存儲不僅從技術(shù)層面實現(xiàn)趕超,還憑借中國特有的“量大管飽”生產(chǎn)模式,將產(chǎn)品售價一降再降,迫使三星在中國市場全面接受價格戰(zhàn),實現(xiàn)全系產(chǎn)品降價。
雖然目前有觀點認(rèn)為,三星存儲產(chǎn)品降價,以及一季度出現(xiàn)3.3萬億韓元的營業(yè)虧損,主要是因為過去幾年芯片行業(yè)產(chǎn)能過剩,不得已降價去庫存并首次減產(chǎn),這種觀點不能說錯,但確實很片面。
從市場角度出發(fā),目前在某電商平臺上,采用長江存儲自研3D NAND閃存芯片的存儲產(chǎn)品,2TB規(guī)格產(chǎn)品單價最低到了479元,600元以下的選擇非常多,而三星雖然大幅降價,但客單價依舊比致鈦高100元,比售價最低的近乎翻倍,如果三星不降價,繼續(xù)采取之前2TB規(guī)格產(chǎn)品動輒超2000元的單價,等于直接宣告退出中國消費級存儲市場的競爭。
中國存儲市場這塊大蛋糕,三星可不會輕易放棄。上文提及,到2025年,中國人工智能核心市場規(guī)模將達(dá)到4000億元,按照存儲芯片27%的占比計算,AI芯片領(lǐng)域存儲芯片市場規(guī)?;?qū)⑦_(dá)到1080億元??紤]到當(dāng)前存儲產(chǎn)品售價大幅降價,保守估計未來市場規(guī)模也有望超過500億。
而且在大數(shù)據(jù)時代,數(shù)據(jù)的產(chǎn)生和運算速度都在急速上升(參考GPT-3預(yù)訓(xùn)練數(shù)據(jù)量),所有云服務(wù)供應(yīng)商不僅需要更強的算力,還需要容量更大、讀取速度更快的存儲設(shè)備,所以即使未來存儲芯片還有降價的可能,更低的產(chǎn)品價格反而會催生行業(yè)內(nèi)固態(tài)存儲對機械存儲設(shè)備的替代。
這種行業(yè)趨勢其實從2019年就已經(jīng)開始顯露端倪。據(jù)民生證券數(shù)據(jù),2019年企業(yè)級SSD平均容量達(dá)到2.3TB,2020年將增長至2.7TB,設(shè)備出貨量年均復(fù)合增速達(dá)到15.8%。三星即使降產(chǎn)斷臂,也會極力平衡存儲產(chǎn)品的供給關(guān)系,繼續(xù)搶奪中國市場,只可惜三星再也沒機會躺平掙錢了。
因為長江存儲的芯片制程普遍處于22nm,海外制裁不涉及該部分,且國產(chǎn)設(shè)備目前已經(jīng)逐步覆蓋該領(lǐng)域的芯片制造。再想通過制裁簡單粗暴的限制中國芯片行業(yè)發(fā)展,只停留在理論層面,而一旦中國企業(yè)突破海外封鎖,將立刻改變行業(yè)競爭格局,幫它們真正參與理解,什么才是“市場競爭”。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 特斯拉CEO馬斯克身家暴漲,穩(wěn)居全球首富寶座
- 阿里巴巴擬發(fā)行 26.5 億美元和 170 億人民幣債券
- 騰訊音樂Q3持續(xù)穩(wěn)健增長:總收入70.2億元,付費用戶數(shù)1.19億
- 蘋果Q4營收949億美元同比增6%,在華營收微降
- 三星電子Q3營收79萬億韓元,營業(yè)利潤受一次性成本影響下滑
- 賽力斯已向華為支付23億,購買引望10%股權(quán)
- 格力電器三季度營收同比降超15%,凈利潤逆勢增長
- 合合信息2024年前三季度業(yè)績穩(wěn)健:營收增長超21%,凈利潤增長超11%
- 臺積電四季度營收有望再攀高峰,預(yù)計超260億美元刷新紀(jì)錄
- 韓國三星電子決定退出LED業(yè)務(wù),市值蒸發(fā)超4600億元
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。