芯片初創(chuàng)公司Etched近日宣布推出了一款針對(duì) Transformer架構(gòu)專用的AISC芯片 “Sohu”,并聲稱其在AI大語言模型(LLM)推理性能方面擊敗了NVIDIA最新的B200 GPU,AI性能達(dá)到了H100的20倍。
這也意味著Sohu芯片將可以大幅降低現(xiàn)有AI數(shù)據(jù)中心的采購成本和安裝成本。
目前,Etched公司已就其Sohu芯片的生產(chǎn)與臺(tái)積電4nm工藝展開直接合作,并且已從頂級(jí)供應(yīng)商處獲得足夠的 HBM 和服務(wù)器供應(yīng),以快速提高第一年的生產(chǎn)能力。
一些早期客戶已經(jīng)向Etched公司預(yù)訂了數(shù)千萬美元的硬件。
一、AI性能超過NVIDIA H100的20倍,是如何做到的?
據(jù)Etched公司介紹,Sohu是世界上第一個(gè)基于Transformer架構(gòu)的ASIC。
根據(jù)Etched公司披露的數(shù)據(jù)顯示,一臺(tái)配備了8顆Sohu芯片的服務(wù)器每秒可以處理超過 500,000 個(gè) Llama 70B Token,達(dá)到了同樣配備8張NVIDIA H100 GPU加速卡的服務(wù)器的20倍。
同樣,也遠(yuǎn)遠(yuǎn)超過了配備8張NVIDIA最新的B200 GPU加速卡的服務(wù)器約10倍。
△基準(zhǔn)測試針對(duì)的是 FP8 精度的 Llama-3 70B:無稀疏性、8x 模型并行、2048 輸入/128 輸出長度。使用 TensorRT-LLM 0.10.08(最新版本)計(jì)算的 8xH100,8xGB200 的數(shù)字是估算的。
Etched公司表示,Sohu速度比NVIDIA的最新一代Blackwell架構(gòu)的B200 GPU還要快一個(gè)數(shù)量級(jí),而且價(jià)格更便宜??梢詭椭蛻魳?gòu)建 GPU 無法實(shí)現(xiàn)的產(chǎn)品。
不過,這里還是要強(qiáng)調(diào)以下,雖然Sohu的AI性能要比NVIDIAGPU更好,但這是有一個(gè)前提的,因?yàn)镾ohu是專為基于Transformer架構(gòu)的大模型定制的,所以其也僅支持基于Transformer架構(gòu)的大模型加速。
“通過將Transformer架構(gòu)集成到我們的芯片中,雖然無法運(yùn)行大多數(shù)傳統(tǒng)的 AI 模型,比如為 Instagram 廣告提供支持的 DLRM、像 AlphaFold 2 這樣的蛋白質(zhì)折疊模型、像 Stable Diffusion 2 這樣的舊的圖像模型,以及CNN、RNN 或 LSTM等模型,但是針對(duì)基于Transformer架構(gòu)的大模型,Sohu將是有史以來最快的AI芯片,沒有哪個(gè)芯片能夠與之匹敵?!盓tched公司說道。
1、更高的計(jì)算利用率
由于Sohu只運(yùn)行Transformer這一種類型的算法,因此可以刪除絕大多數(shù)控制流邏輯,從而擁有更多數(shù)學(xué)計(jì)算邏輯。因此,Sohu的 FLOPS 利用率超過 90%(而使用 TRT-LLM 的GPU上 FLOPS 利用率約為 30%)。
雖然NVIDIA H200 擁有 989 TFLOPS 的 FP16/BF16 計(jì)算能力(無稀疏性),這無疑是非常強(qiáng)大的,甚至比谷歌的新 Trillium 芯片還要好。
但NVIDIA已經(jīng)發(fā)布的B200的計(jì)算能力僅高出25%(每個(gè)芯片 1,250 TFLOPS)。這是由于 GPU 的絕大部分區(qū)域都用于可編程性,因此專注于 Transformer 可以讓芯片進(jìn)行更多的計(jì)算。
比如,構(gòu)建單個(gè) FP16/BF16/FP8 乘加電路需要 10,000 個(gè)晶體管,這是所有矩陣數(shù)學(xué)的基石。NVIDIA H100 SXM 有 528 個(gè)張量核心,每個(gè)都有4 x 8 × 16FMA 電路。
因此,NVIDIA H100 有 27 億個(gè)專用于張量核心的晶體管。但是 H100 擁有 800 億個(gè)晶體管!這意味著 H100 GPU 上只有 3.3% 的晶體管用于矩陣乘法!
這是NVIDIA和其他靈活的 AI 芯片經(jīng)過深思熟慮的設(shè)計(jì)決定的。如果想要支持所有類型的模型(比如CNN、LSTM、SSM 等),那么沒有比這更好的設(shè)計(jì)了。
而Etched公司的Sohu芯片僅支持運(yùn)行Transformer架構(gòu)的AI大模型,這使得其可以在芯片上安裝更多的 FLOPS,且無需降低精度或稀疏性。
2、提升內(nèi)存帶寬利用率
通常來說,AI推理會(huì)受到內(nèi)存帶寬的限制,計(jì)算的限制相對(duì)較小。但是事實(shí)上,對(duì)于像Llama-3這樣的現(xiàn)代模型來說,需要更高的計(jì)算力來提升帶寬的利用率。
如果使用NVIDIA和 AMD 的標(biāo)準(zhǔn)基準(zhǔn):2048 個(gè)輸入標(biāo)記和 128 個(gè)輸出標(biāo)記。大多數(shù) AI 產(chǎn)品的提示比完成時(shí)間長得多(即使是新的 Claude 聊天應(yīng)用在系統(tǒng)提示中也有 1,000 多個(gè)標(biāo)記)。
在 GPU 和Sohu上,推理是分批運(yùn)行的。每個(gè)批次加載一次所有模型權(quán)重,并在批次中的每個(gè)標(biāo)記中重復(fù)使用它們。
通常,大語言模型輸入是計(jì)算密集型的,而輸出是內(nèi)存密集型的。當(dāng)我們將輸入和輸出標(biāo)記與連續(xù)批處理相結(jié)合時(shí),工作負(fù)載變得非常計(jì)算密集型。
以下是大語言模型連續(xù)批處理的示例。這里我們運(yùn)行具有四個(gè)輸入標(biāo)記和四個(gè)輸出標(biāo)記的序列;每種顏色都是不同的序列。
我們可以擴(kuò)展同樣的技巧來運(yùn)行具有 2048 個(gè)輸入標(biāo)記和 128 個(gè)輸出標(biāo)記的 Llama-3-70B。讓每個(gè)批次包含一個(gè)序列的 2048 個(gè)輸入標(biāo)記和 127 個(gè)不同序列的 127 個(gè)輸出標(biāo)記。
如果我們這樣做,每個(gè)批次將需要大約(2048 + 127) × 70B params × 2 bytes per param = 304 TFLOPs,而只需要加載70B params × 2 bytes per param = 140 GB模型權(quán)重和大約127 × 64 × 8 × 128 × (2048 + 127) × 2 × 2 = 72GBKV緩存權(quán)重。這比內(nèi)存帶寬要多得多。
NVIDIA H200需要6.8 PFLOPS的計(jì)算才能最大限度地利用其內(nèi)存帶寬。這是在100%的利用率下——如果利用率為30%,將需要3倍的計(jì)算量。
由于Sohu擁有如此之多的計(jì)算能力且利用率極高,因此可以運(yùn)行巨大的吞吐量而不會(huì)出現(xiàn)內(nèi)存帶寬瓶頸。
3、軟件問題不再是一場噩夢(mèng)
在 GPU 和 TPU 上,通常軟件開發(fā)是一場噩夢(mèng)。處理任意 CUDA 和 PyTorch 代碼需要極其復(fù)雜的編譯器。第三方 AI 芯片(AMD、英特爾、AWS 等)在軟件上總共花費(fèi)了數(shù)十億美元,但收效甚微。
但由于Etched公司的Sohu只運(yùn)行Transformers,因此開發(fā)人員只需要為 Transformer 編寫軟件!
大多數(shù)運(yùn)行開源或內(nèi)部模型的公司都使用特定于 Transformer 的推理庫,如 TensorRT-LLM、vLLM 或 HuggingFace 的 TGI。
這些框架非常僵化 ——雖然你可以調(diào)整模型超參數(shù),但實(shí)際上不支持更改底層模型代碼。但這沒關(guān)系,因?yàn)樗?Transformer 模型都非常相似(甚至是文本/圖像/視頻模型),調(diào)整超參數(shù)就是你真正需要的。
雖然這支持了 95% 的 AI 公司,但最大的 AI 實(shí)驗(yàn)室還是采用定制化。他們有工程師團(tuán)隊(duì)手動(dòng)調(diào)整 GPU 內(nèi)核以擠出更多的利用率,逆向工程哪些寄存器對(duì)每個(gè)張量核心的延遲最低。
Etched公司表示,“有了Sohu,您不再需要進(jìn)行逆向工程。因?yàn)槲覀兊能浖◤尿?qū)動(dòng)程序到內(nèi)核再到服務(wù)堆棧)都將是開源的。如果您想實(shí)現(xiàn)自定義轉(zhuǎn)換器層,您的內(nèi)核向?qū)Э梢宰杂傻剡@樣做?!?/p>
4、成本優(yōu)勢(shì)
對(duì)于目前的AI基礎(chǔ)市場運(yùn)營商來說,NVIDIA的AI GPU是最為高昂的一項(xiàng)投資,其H100 80G版本的價(jià)格高達(dá)3萬美元,即便是便宜的英特爾Gaudi 3 的價(jià)格也要15,650美元左右。
現(xiàn)在一座大型的AI數(shù)據(jù)中心的建設(shè)已經(jīng)達(dá)到了數(shù)百億美元,甚至傳聞微軟和OpenAI正計(jì)劃推出被稱為“星際之門”(Stargate)的AI超級(jí)計(jì)算機(jī),用來為OpenAI提供更強(qiáng)的算力支持,該項(xiàng)目的總成本或?qū)⒊^1150億美元。顯然,這當(dāng)中NVIDIAAI GPU將會(huì)占據(jù)相當(dāng)大的一部分成本。
并且這些高能耗的GPU還將會(huì)帶來龐大的能源供應(yīng)支出(按照現(xiàn)有的發(fā)展速度,很多地區(qū)的能源供應(yīng)已經(jīng)不足以支撐大型AI數(shù)據(jù)中心的建設(shè))互聯(lián)支出和散熱支出。
如果一顆Etched的Sohu芯片就能夠代替20顆NVIDIA H100芯片,那么這無疑將會(huì)帶來巨大的采購及建設(shè)成本和運(yùn)營成本的降低。
二、專用芯片替代GPU已不可避免
在Etched看來,近年來雖然GPU性能得到了增長,但是實(shí)際上并沒有變得更好,因?yàn)橹饕峭ㄟ^更先進(jìn)的制程工藝以及更大的芯片面積來實(shí)現(xiàn)的。
近四年來,GPU芯片單位面積的計(jì)算能力 (TFLOPS) 幾乎保持不變。比如NVIDIA的GB200、AMD的MI300、英特爾的Gaudi 3 和亞馬遜的Trainium2 幾乎都將兩塊芯片算作稱一張加速卡,以實(shí)現(xiàn)“雙倍”性能。
面對(duì)越來越龐大的大語言模型對(duì)于AI算力需求的快速增長,GPU芯片在摩爾定律放緩以及單位面積AI算力提升放緩的背景之下,已經(jīng)難以滿足需求,因此提高性能的唯一方法就是采用專用芯片。
Etched公司指出,在Transformer架構(gòu)的模型統(tǒng)治世界之前,許多公司都構(gòu)建了靈活的 AI 芯片和 GPU 來處理數(shù)百種不同的算法模型。
比如:NVIDIA的GPU、谷歌的TPU、亞馬遜的 Trainium、AMD的MI系列加速器、英特爾的Gaudi加速器、Graphcore 的 IPU、SambaNova SN 系列芯片、Cerebras的CS系列晶圓級(jí)AI芯片、Groq的GroqNode、Tenstorrent 的 Grayskull、D-Matrix 的 Corsair、寒武紀(jì)的思源等。
但是幾乎沒有廠商制造過專門針對(duì)Transformer架構(gòu)算法的專用 AI 芯片 (ASIC)。因?yàn)橐粋€(gè)芯片項(xiàng)目至少將花費(fèi) 5000 萬到 1 億美元,需要數(shù)年時(shí)間才能投入生產(chǎn)。
如果真的一個(gè)特定算法模型推出專用的AI芯片,很可能在這期間由于新的更優(yōu)秀算法架構(gòu)出現(xiàn),而使得原來的專用的AI芯片不再有效,這將會(huì)沒有市場。
但是現(xiàn)在情況變了,Transformer 架構(gòu)的算法模型市場規(guī)模正在迅速增長。在 ChatGPT 出現(xiàn)之前,Transformer 推理的市場規(guī)模約為 5000 萬美元,而現(xiàn)在已達(dá)到數(shù)十億美元。
所有大型科技公司都使用 Transformer 架構(gòu)的模型,比如OpenAI、谷歌、亞馬遜、微軟、Meta 等。
另外,AI算法經(jīng)過多年的發(fā)展,已經(jīng)開始出現(xiàn)架構(gòu)上的融合趨勢(shì)。AI模型過去發(fā)展很快,因此可能每個(gè)幾個(gè)月就會(huì)有新的AI模型出來。
但是自GPT-2以來,最先進(jìn)的模型架構(gòu)幾乎保持不變,不論是OpenAI 的 GPT 系列、Google 的 PaLM、Facebook 的 LLaMa,甚至 Tesla FSD 都是基于Transformer架構(gòu)。
△基于Transformer架構(gòu)的模型驚人地相似。諸如 SwiGLU 激活和 RoPE 編碼之類的調(diào)整被廣泛應(yīng)用于LLM、嵌入模型、圖像修復(fù)和視頻生成。
△雖然 GPT-2 和 Llama-3 是相隔五年的最先進(jìn)的 (SoTA) 模型,但它們的架構(gòu)幾乎相同,唯一的主要區(qū)別是規(guī)模。
在此背景之下,如果算法模型架構(gòu)開始趨于穩(wěn)定,那么想要進(jìn)一步提升算力,專擁的ASIC芯片將會(huì)是很好的選擇。
特別是在目前基于GPU的AI訓(xùn)練和推理基礎(chǔ)設(shè)施成本超過100億美元時(shí),這樣高昂的成本的壓力之下,專用的AISC是不可避免的,因?yàn)?%的改進(jìn)就足以覆蓋專用AISC的成本。
事實(shí)上,在特定算法模型上,ASIC 的速度可能會(huì)比 GPU 快幾個(gè)數(shù)量級(jí)。比如,當(dāng)針對(duì)比特幣礦機(jī)的AISC芯片于 2014 年進(jìn)入市場時(shí),傳統(tǒng)的利用GPU 來“挖礦”的做法很快被拋棄,因?yàn)槭褂肁ISC比使用GPU來挖掘比特幣更便宜。
顯然,在AI算法模型基礎(chǔ)架構(gòu)開始趨于穩(wěn)定,GPU算力提升遭遇瓶頸以及成本越來越高的情況下,人工智能領(lǐng)域可能也將會(huì)發(fā)生同樣的事情。這也正是Etched公司下重注推出基于Transformer架構(gòu)專用的AISC芯片 “Sohu”的原因。
三、對(duì)于未來的一場豪賭
與NVIDIA等頭部的AI公司一樣,Etched公司也預(yù)測,在五年內(nèi),AI模型在大多數(shù)標(biāo)準(zhǔn)化測試中將變得比人類更聰明。
Etched公司進(jìn)一步指出, Meta訓(xùn)練的 Llama 400B(2024 SoTA,比大多數(shù)人類都聰明)所用的計(jì)算量,比 OpenAI 在 GPT-2(2019 SoTA)上所用的計(jì)算量要高出 50,000 倍。通過為人工智能模型提供更多計(jì)算力和更好的數(shù)據(jù),它們會(huì)變得更聰明。
規(guī)模化將是未來幾十年來唯一持續(xù)有效的秘訣,每家大型人工智能公司(谷歌、OpenAI / 微軟、Anthropic / 亞馬遜等)都將在未來幾年投入超過 1000億美元來保持規(guī)模的增長。我們正處于有史以來最大規(guī)模的基礎(chǔ)設(shè)施建設(shè)中。
OpenAI 首席執(zhí)行官Sam Altman此前就曾表示:“規(guī)?;_實(shí)是一件好事。當(dāng)我們?cè)谔栔車ㄔ斐龃魃驎r(shí),我們就可以討論是否應(yīng)該停止規(guī)?;?,但在此之前不能停止?!?/p>
Anthropic 首席執(zhí)行官 Dario Amodei也表示:“我認(rèn)為 (我們)的規(guī)??梢詳U(kuò)大到 1000 億美元,我們將在幾年內(nèi)實(shí)現(xiàn)這一目標(biāo)?!?/p>
不過,如果按照現(xiàn)在的AI數(shù)據(jù)中心算力,再擴(kuò)大 1,000 倍,將會(huì)面臨非常昂貴的成本。下一代數(shù)據(jù)中心的成本將超過一個(gè)小國一年的GDP。按照目前的速度,現(xiàn)有的硬件、電網(wǎng)和資金投入都跟不上需求。
Etched公司表示:“我們并不擔(dān)心數(shù)據(jù)耗盡。無論是通過合成數(shù)據(jù)、注釋管道還是新的 AI 標(biāo)記數(shù)據(jù)源,我們都認(rèn)為數(shù)據(jù)問題實(shí)際上是推理計(jì)算問題。Meta CEO Mark Zuckerberg、Anthropic CEO Dario Amodei、 Google DeepMind CEO Demis Hassabis 似乎都同意這一觀點(diǎn)?!?/p>
基于這樣的發(fā)展趨勢(shì),Etched公司認(rèn)為,未來能夠獲勝的大模型一定會(huì)是那些能夠在硬件上運(yùn)行速度最快、成本最低的模型。
Transformer 功能強(qiáng)大、實(shí)用且利潤豐厚,足以在替代方案出現(xiàn)之前主宰每個(gè)主要的 AI 計(jì)算市場。
目前,Transformer 正在為每款大型 AI 產(chǎn)品提供動(dòng)力:從代理到搜索再到聊天。很多AI 實(shí)驗(yàn)室已投入數(shù)億美元進(jìn)行研發(fā),以優(yōu)化 GPU 以支持 Transformer。
并且當(dāng)前的和下一代最先進(jìn)的大模型也都是 Transformer架構(gòu)的。
隨著這些大模型的規(guī)模在未來幾年內(nèi)所需要的硬件資源從 10 億美元擴(kuò)大到 100 億美元,再到 1000 億美元,測試新架構(gòu)的風(fēng)險(xiǎn)也隨之飆升。
與其重新測試縮放定律和性能,不如花時(shí)間在 Transformer 之上構(gòu)建功能,例如多標(biāo)記預(yù)測等。
當(dāng)今的很多軟件堆棧也針對(duì) Transformer 進(jìn)行了優(yōu)化。每個(gè)流行的庫(TensorRT-LLM、vLLM、Huggingface TGI 等)都有用于在 GPU 上運(yùn)行 Transformer 架構(gòu)模型的特殊內(nèi)核。
許多基于Transformer 構(gòu)建的功能在替代方案中不易獲得支持(例如推測解碼、樹搜索)。
所以,未來的硬件堆棧也將持續(xù)針對(duì) Transformer 進(jìn)行優(yōu)化。比如,NVIDIA的 GB200 特別支持 Transformer(TransformerEngine)。
在Etched公司看來,Transformer架構(gòu)就是未來,“如果我們猜對(duì)了,Soho將改變世界。這就是我們下注的原因?!盓tched公司在網(wǎng)站上寫道。
在2022年的時(shí)候,Etched公司就已經(jīng)開始下注,開始研發(fā)基于Transformer架構(gòu)的Sohu芯片,當(dāng)時(shí)ChatGPT還沒有推出,圖像和視頻生成模型是 U-Nets,自動(dòng)駕駛汽車由 CNN 驅(qū)動(dòng),而 Transformer 架構(gòu)并未無處不在。顯然這是一場豪賭。
雖然現(xiàn)在看來,Sohu可以支持所有的Transformer架構(gòu)的AI大模型,比如OpenAI的GPT、Sora,谷歌的Gemini、Stability AI公司的Stable Diffusion 3 等,但是在兩年前,這些模型都還沒有出現(xiàn)。
如果,Transformer架構(gòu)的AI大模型沒有成為主流,再加上無法支持CNN、RNN 、LSTM等傳統(tǒng)模型以及SSM、RWKV 或其他的全新架構(gòu)的AI大模型,那么Sohu將會(huì)毫無用處。
幸運(yùn)的是,從目前來看,形勢(shì)已經(jīng)對(duì)Etched公司有利。從語言到視覺,每個(gè)領(lǐng)域的頂級(jí)模型現(xiàn)在都是基于Transformer架構(gòu)的。
這種融合不僅驗(yàn)證了Etched公司下對(duì)了賭注,也有望使Sohu成為十年來最重要的硬件項(xiàng)目。
“像 Sohu 這樣的 ASIC 芯片進(jìn)入市場,標(biāo)志著進(jìn)入一條不歸路。其他Transformer “殺手”要想成功,需要在 GPU 上的運(yùn)行速度需要比 Transformer 在 Sohu 芯片上的運(yùn)行速度更快。
如果發(fā)生這種情況,我們也會(huì)為此構(gòu)重新建一個(gè) ASIC!”Etched公司非常堅(jiān)定的說道。
最后說一句,Etched公司的看法與芯智訊在多年前所寫的《NVIDIA的AI盛世危機(jī)!》所表達(dá)的核心觀點(diǎn)類似,即GPU并是不專為處理特定AI算法所設(shè)計(jì)的,其優(yōu)勢(shì)在于比其他AI芯片更通用,可以適應(yīng)各種AI算法,但是當(dāng)未來AI算法的演進(jìn)開始趨于穩(wěn)定時(shí),那么屆時(shí)專用的面向特定算法的更高效的ASIC芯片無疑將會(huì)更具優(yōu)勢(shì)。
現(xiàn)在越來越多的云服務(wù)廠商都有推出自研的云端AI芯片也正是順應(yīng)這一趨勢(shì)。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 臺(tái)積電2納米芯片性能提升僅15%,知情人士稱試產(chǎn)良率超過60%
- 半導(dǎo)體2025:影響技術(shù)革命的新興趨勢(shì)
- 這家普通人不熟悉的公司,市值如何超過萬億美元
- 增資超30億元 華為增持旗下極目機(jī)器公司
- 傳蘋果將在新一代iPhone SE中采用自研5G基帶芯片,速度僅為高通的一半
- 美國模擬芯片巨頭亞德諾過去一年全球減員2000人,2024財(cái)年?duì)I收同比下降23%
- 移動(dòng)芯片之王Arm,下一步要做AI芯片之王
- 2025年全球半導(dǎo)體市場規(guī)模將達(dá)6971億美元,AI驅(qū)動(dòng)增長勢(shì)頭強(qiáng)勁
- 臺(tái)積電回應(yīng)美出口管制新規(guī):影響可控,2nm制程未來或轉(zhuǎn)移美國
- 背靠亞馬遜和三星的AI芯片創(chuàng)企爆紅,Tenstorrent向英偉達(dá)發(fā)起“價(jià)格戰(zhàn)”
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。