標(biāo)題:DeepSeek引發(fā)熱議:技術(shù)成本挑戰(zhàn)與算力未來(lái)的辯論
DeepSeek的出現(xiàn)無(wú)疑在AI大模型領(lǐng)域引發(fā)了一場(chǎng)熱議。憑借其驚人的性能表現(xiàn)和低成本訓(xùn)練模式,DeepSeek迅速吸引了全球關(guān)注,熱度一直不減。然而,隨之而來(lái)的,是其成本、技術(shù)以及為未來(lái)作為大模型基礎(chǔ)設(shè)施的算力引發(fā)了爭(zhēng)議。
首先,我們來(lái)看DeepSeek的成本問(wèn)題。DeepSeek在原始報(bào)告中詳細(xì)解釋了這筆成本的計(jì)算:在預(yù)訓(xùn)練階段,每兆個(gè)token上訓(xùn)練DeepSeek-V3僅需要180K H800 GPU小時(shí),也就是說(shuō),在擁有2048個(gè)H800 GPU的集群上需要3.7天。因此,我們的預(yù)訓(xùn)練階段在不到兩個(gè)月的時(shí)間內(nèi)完成,耗費(fèi)2664K GPU小時(shí)。加上上下文長(zhǎng)度擴(kuò)充所需的119K GPU小時(shí)和后制訓(xùn)練所需的5K GPU小時(shí),DeepSeek-V3的完整訓(xùn)練僅需2.788M GPU小時(shí)。假設(shè)H800 GPU的租賃價(jià)格為每GPU小時(shí)2美元,我們的總訓(xùn)練成本僅為557.6萬(wàn)美元。然而,知名的SemiAnalysis發(fā)布的《DeepSeek Debates: Chinese Leadership On Cost, True Training Cost, Closed Model Margin Impacts》的報(bào)告中指出,DeepSeek論文中提到的600萬(wàn)美元成本僅指預(yù)訓(xùn)練運(yùn)行的GPU成本,這只是模型總成本的一小部分。他們?cè)谟布系幕ㄙM(fèi)遠(yuǎn)高于這個(gè)數(shù)字。例如,為了開(kāi)發(fā)新的架構(gòu)創(chuàng)新,在模型開(kāi)發(fā)過(guò)程中,需要投入大量資金來(lái)測(cè)試新想法、新架構(gòu)思路,并進(jìn)行消融實(shí)驗(yàn)。開(kāi)發(fā)和實(shí)現(xiàn)這些想法需要整個(gè)團(tuán)隊(duì)投入大量人力和GPU計(jì)算時(shí)間。例如DeepSeek的關(guān)鍵創(chuàng)新—多頭潛在注意力機(jī)制(Multi-Head Latent Attention),就耗費(fèi)了數(shù)月時(shí)間。這一點(diǎn)也得到了外媒的報(bào)道,李飛飛等斯坦福大學(xué)和華盛頓大學(xué)的研究人員以不到50美元的費(fèi)用,使用了16張英偉達(dá)H100 GPU,耗時(shí)26分鐘就完成了訓(xùn)練,成功“打造”出了一個(gè)名為s1-32B的人工智能推理模型。由此可見(jiàn),DeepSeek的成本并非如一些觀點(diǎn)所認(rèn)為的那樣低廉。
接下來(lái)是技術(shù)問(wèn)題。關(guān)于DeepSeek是否使用了蒸餾技術(shù),這是目前爭(zhēng)議的另一個(gè)焦點(diǎn)。最先提出質(zhì)疑的是OpenAI和微軟,他們向媒體證實(shí),已掌握疑似DeepSeek通過(guò)“蒸餾”(distillation)技術(shù),利用OpenAI專(zhuān)有模型來(lái)訓(xùn)練其AI大模型。盡管蒸餾是一項(xiàng)常見(jiàn)的技術(shù)手段,能夠?qū)penAI中的大量數(shù)據(jù)迅速提煉重點(diǎn)并快速理解和應(yīng)用,但這種模式只能讓DeepSeek接近OpenAI,而難以真正超越OpenAI。這一點(diǎn)也得到了蔡恒進(jìn)教授的觀點(diǎn)支持。他認(rèn)為DeepSeek在生成模型的成本在報(bào)告中已經(jīng)寫(xiě)的很清晰了,過(guò)于糾結(jié)前期的投入,有多少實(shí)際成本是不重要的,特別是對(duì)于國(guó)內(nèi)產(chǎn)業(yè)成本很低的情況下,前期做研究的成本也會(huì)比美國(guó)低很多。此外,蒸餾業(yè)內(nèi)通行做法,是非公婆各有理。
最后是算力問(wèn)題?;谖覀兦笆龀杀镜膬?yōu)勢(shì),有業(yè)內(nèi)觀點(diǎn)認(rèn)為DeepSeek的出現(xiàn)打破了英偉達(dá)等科技巨頭“堆積算力”的路徑。也就是說(shuō),美國(guó)AI巨頭們認(rèn)定的那個(gè)靠錢(qián)、靠更高算力芯片才能堆出來(lái)的更好的模型,不需要那么高昂的門(mén)檻了。然而蔡恒進(jìn)教授對(duì)此持有不同觀點(diǎn)。他認(rèn)為DeepSeek的發(fā)展走出了另一條路,即不一定要提升很高的參數(shù)規(guī)模就能實(shí)現(xiàn)很高的性能,可能對(duì)算力需求至少降到10倍以上?!岸阉懔Α北旧頉](méi)有錯(cuò),但隨著Deepseek的出現(xiàn)我們會(huì)發(fā)現(xiàn)這條路的性?xún)r(jià)比不高。DeepSeek-V3極低的訓(xùn)練成本預(yù)示著AI大模型對(duì)算力投入的需求將大幅下降。然而也有觀點(diǎn)認(rèn)為DeepSeek表現(xiàn)固然優(yōu)秀,但其統(tǒng)計(jì)口徑只計(jì)算了預(yù)訓(xùn)練,數(shù)據(jù)的配比需要做大量的預(yù)實(shí)驗(yàn),合成數(shù)據(jù)的生成和清洗也需要消耗算力。
回顧這場(chǎng)熱議,我們不禁要問(wèn):DeepSeek引發(fā)熱議究竟是技術(shù)的勝利還是成本的挑戰(zhàn)?是算力的未來(lái)還是技術(shù)的瓶頸?這一切都取決于我們?nèi)绾慰创屠斫釪eepSeek。我們不能忽視的是DeepSeek在技術(shù)上的創(chuàng)新和突破,也不能低估其對(duì)于未來(lái)AI發(fā)展的影響。與此同時(shí),我們也應(yīng)看到其面臨的成本和技術(shù)挑戰(zhàn),以及對(duì)于算力需求的潛在變化。這些變化將如何影響未來(lái)的AI發(fā)展?讓我們拭目以待。畢竟,“讓子彈再飛一會(huì)”吧!
- 中國(guó)電影新篇章:哪吒2破百億,里程碑之下見(jiàn)證電影輝煌
- DeepSeek開(kāi)發(fā)價(jià)值近乎零:博士大模型為何難逃閉源命運(yùn)
- 周鴻祎自曝清白:為DeepSeek搖旗,稱(chēng)其有顛覆性,理性推廣新創(chuàng)企業(yè)
- 蘋(píng)果研究人形機(jī)器人,字節(jié)因抄襲被判賠8266萬(wàn),科技巨頭新動(dòng)態(tài)引發(fā)熱議
- 字節(jié)抄襲判賠8266萬(wàn),抖音副總裁回應(yīng):美攝前員工所寫(xiě),抄襲行為不可取
- 抖音集團(tuán)回應(yīng)美攝起訴案:違規(guī)員工已經(jīng)離職,美攝索賠金額不合理
- 深度融合ChatBI,奇富科技Deepseek帶來(lái)全新數(shù)據(jù)洞察體驗(yàn)
- 阿里巴巴助力iPhone,AI服務(wù)升級(jí),科技巨頭如何合作共贏?
- 法拉第未來(lái)FF 91二手車(chē)賣(mài)出高價(jià):首臺(tái)二手車(chē)誕生,23.5萬(wàn)美元的轉(zhuǎn)售價(jià)值
- 自主崛起合資危機(jī):上汽通用或關(guān)閉四大生產(chǎn)基地,競(jìng)爭(zhēng)壓力山大
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。