全球范圍內(nèi)大模型技術(shù)的競(jìng)爭(zhēng)速度正日益加快。據(jù)媒體報(bào)道,馬斯克僅用 19 天便成功打造出全球最強(qiáng)的“超算工廠”!文章稱,這座“超算工廠”配備了多達(dá) 10 萬(wàn)塊液冷 H100 GPU,已然成為全球規(guī)模最大的超算集群。此新聞一出,超算技術(shù)瞬間成為了眾人矚目的焦點(diǎn)。
為何馬斯克要構(gòu)建超算工廠以在 AI 賽道上展開(kāi)角逐呢?原因在于,若要開(kāi)發(fā)出能與現(xiàn)有領(lǐng)先大模型相抗衡的產(chǎn)品,就必須構(gòu)建足以支持大規(guī)模模型訓(xùn)練的計(jì)算基礎(chǔ)設(shè)施。并且,超算在大模型訓(xùn)練中所發(fā)揮的作用,絕非僅僅是提供強(qiáng)大的計(jì)算能力,還涵蓋了對(duì)訓(xùn)練流程中各個(gè)環(huán)節(jié)的優(yōu)化,以此確保大模型能夠在有限的時(shí)間內(nèi)實(shí)現(xiàn)最佳性能。
我國(guó)專家也持有相似的看法。在近日舉行的 2024 中國(guó)算力發(fā)展專家研討會(huì)上,面對(duì)美國(guó)禁止銷售高端 GPU、終止大模型源代碼分享以及中斷生態(tài)合作等一系列問(wèn)題,專家們表示,通過(guò)超算技術(shù)就能夠有效應(yīng)對(duì)。
此外,馬斯克用于大模型開(kāi)發(fā)的超級(jí)計(jì)算機(jī)屬于 AI 專用超算。超級(jí)計(jì)算機(jī)分為通用超級(jí)計(jì)算機(jī)和專用超級(jí)計(jì)算機(jī)?為何馬斯克選擇的是專用超算呢?
專用超算成為解決特定問(wèn)題的殺手锏
通用超算與專用超算的區(qū)別是,通用超算具備廣泛的適用性,能夠處理各種各樣的計(jì)算任務(wù),例如科學(xué)計(jì)算、數(shù)據(jù)分析、數(shù)值模擬等。它就像是一個(gè)多面手,可以應(yīng)對(duì)多種不同類型和規(guī)模的問(wèn)題。而專用超算則是為特定應(yīng)用領(lǐng)域而生,其硬件和軟件配置都是為了滿足特定需求而設(shè)計(jì),以便實(shí)現(xiàn)更高的性能和效率。
在大模型訓(xùn)練的場(chǎng)景下,專用超算通過(guò)針對(duì)特定算法和數(shù)據(jù)結(jié)構(gòu)的硬件架構(gòu)和軟件優(yōu)化,減少了不必要的計(jì)算開(kāi)銷,提高了計(jì)算資源的利用率。這種優(yōu)化不僅適用于大模型訓(xùn)練本身,還包括了數(shù)據(jù)預(yù)處理、模型調(diào)試、性能調(diào)優(yōu)等多個(gè)環(huán)節(jié),從而實(shí)現(xiàn)了整個(gè)訓(xùn)練流程的高效運(yùn)行。
中國(guó)科學(xué)院計(jì)算技術(shù)研究所研究員張?jiān)迫赋觯?ldquo;當(dāng)大模型需要1萬(wàn)至10萬(wàn)個(gè)GPU時(shí),通過(guò)開(kāi)發(fā)專用超級(jí)計(jì)算機(jī)克服高能耗、可靠性問(wèn)題和并行處理限制是至關(guān)重要的”。
可見(jiàn),專用超算是解決特定問(wèn)題的殺手锏。
各行各業(yè)都在用“專用超算”搶占競(jìng)爭(zhēng)優(yōu)勢(shì)
其實(shí),除了大模型賽道的“AI超算”外,各行各業(yè)都在使用“專用超算”搶占競(jìng)爭(zhēng)優(yōu)勢(shì)。
例如,除了構(gòu)建超算工廠外,馬斯克旗下公司特斯拉的Dojo就是一款專為大規(guī)模機(jī)器學(xué)習(xí)訓(xùn)練而設(shè)計(jì)的專用超級(jí)計(jì)算機(jī)。這款超級(jí)計(jì)算機(jī)特別針對(duì)特斯拉自動(dòng)駕駛技術(shù)的需求進(jìn)行了優(yōu)化,能夠高效處理和訓(xùn)練來(lái)自特斯拉車隊(duì)產(chǎn)生的大量視頻數(shù)據(jù)。Dojo的設(shè)計(jì)重點(diǎn)在于提高計(jì)算效率和降低能耗,通過(guò)高度定制化的硬件和軟件解決方案,能夠顯著減少訓(xùn)練時(shí)間并提升模型的準(zhǔn)確性。
DOJO超級(jí)計(jì)算機(jī)
還例如,安騰(Anton)超級(jí)計(jì)算機(jī)是特殊設(shè)計(jì)的、專門(mén)為生物分子動(dòng)力學(xué)模擬研發(fā)的專用超級(jí)計(jì)算機(jī),其計(jì)算效率比全球最強(qiáng)的通用超算高出數(shù)十倍。在美國(guó)AI制藥公司Relay Therapeutics的案例中,借助安騰超級(jí)計(jì)算機(jī)的幫助,該公司僅用了18個(gè)月、不到1億美元就確認(rèn)了一款創(chuàng)新藥物的結(jié)構(gòu),打破了傳統(tǒng)的“雙十”禁錮——即通常情況下研發(fā)一款新藥需要花費(fèi)10億美元、耗時(shí)10年。
美國(guó)安騰超級(jí)計(jì)算機(jī)
專用超算領(lǐng)域也需警惕“卡脖子”
隨著專用超算被越來(lái)越重視,我們也需要警惕可能出現(xiàn)的“卡脖子”現(xiàn)象。
眾所周知,英偉達(dá)H100 GPU的采購(gòu)受到限制,這使得我們?cè)赟cale Law方面難以跟進(jìn)。而在超算領(lǐng)域也有類似的趨勢(shì)。
目前,世界上僅有的幾臺(tái)安騰超級(jí)計(jì)算機(jī)分別安置在匹茲堡超算中心和位于紐約市的D. E. Shaw研究所中。超算安騰的上機(jī)時(shí)間根據(jù)提交給美國(guó)國(guó)家科學(xué)院獨(dú)立專家委員會(huì)的研究提案分配,只接受美國(guó)學(xué)術(shù)機(jī)構(gòu)的使用申請(qǐng),嚴(yán)格禁止中國(guó)等其他國(guó)家使用。
據(jù)環(huán)球時(shí)報(bào)報(bào)道,“超算曾經(jīng)是中美之間科技合作交流很密切的領(lǐng)域,如今超算國(guó)際交流領(lǐng)域中也是雷區(qū)重重。2021年4月,美國(guó)商務(wù)部將7個(gè)中國(guó)超算實(shí)體列入所謂“實(shí)體清單”,聲稱其涉嫌“破壞軍事現(xiàn)代化的穩(wěn)定”。中國(guó)發(fā)展超算技術(shù)動(dòng)輒被扣上“威脅美國(guó)國(guó)家安全”的帽子,并遭到無(wú)理的單邊制裁。全球超算TOP500排行榜每半年更新一次,中國(guó)、日本和美國(guó)超算都曾奪得“全球最快超算”的桂冠。但這兩年中國(guó)最領(lǐng)先的超算企業(yè)都不敢再參加TOP500的評(píng)選,原因是在該榜單上表現(xiàn)突出的企業(yè)有可能被美國(guó)列入黑名單、遭到更嚴(yán)厲制裁。”
可見(jiàn),專用超算將是全球領(lǐng)域的“下一個(gè)風(fēng)口”,而我國(guó)應(yīng)警惕美式霸權(quán)主義,需要積極研發(fā)具有自主知識(shí)產(chǎn)權(quán)的專用超算技術(shù)和產(chǎn)品,從而減少對(duì)國(guó)外技術(shù)的依賴。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )