未來AI模型訓練或許無需專用硬件,分布式訓練正改變規(guī)則,降低成本的同時提升模型泛化能力。
曾經(jīng)全球富豪熱衷于攀比游艇、私人飛機和島嶼,如今則是超級計算集群的較量。18個月前,OpenAI用約2.5萬張Nvidia頂級GPU訓練了GPT-4,而Elon Musk和Mark Zuckerberg則以更龐大的數(shù)據(jù)中心宣告自己的技術(shù)雄心:Musk稱他有10萬張GPU,計劃增至20萬,Zuckerberg則宣稱將達到35萬。
這種為更強AI模型建造超大計算集群的競爭無法無限持續(xù)。每增加一片芯片,不僅帶來計算力,還增加同步負擔。隨著芯片數(shù)量增多,數(shù)據(jù)中心用于數(shù)據(jù)傳輸?shù)臅r間遠多于實際計算工作,收益逐漸遞減。
計算機科學家正探索更智能、更省資源的訓練方法。一種可能是放棄專用大型計算集群,改用多個小型數(shù)據(jù)中心分布式完成訓練任務。一些專家甚至認為,這可能為更激進的目標鋪平道路:完全擺脫專用硬件進行訓練。
現(xiàn)代AI系統(tǒng)的訓練依賴于隱藏部分數(shù)據(jù)后讓模型預測結(jié)果。若預測錯誤,使用反向傳播方法調(diào)整模型參數(shù),使其逐漸接近正確答案。問題在于,當需要同時用兩塊或20萬塊GPU進行訓練時,每一步都需分享調(diào)整結(jié)果,以確保所有芯片協(xié)同工作。這個過程叫“檢查點記錄”,隨著芯片數(shù)量增加,其復雜度和耗時迅速上升。對于大規(guī)模訓練,近一半時間可能都花在了記錄檢查點上。
Google DeepMind工程師Arthur Douillard提出一個創(chuàng)新:減少檢查點記錄頻率。2023年底,他和團隊發(fā)表了一種名為“分布式低通信語言模型訓練”(DiLoCo)的方法,建議將訓練分散到多個“島嶼”式數(shù)據(jù)中心。島內(nèi)仍按常規(guī)記錄,但島間通信負擔減少了500倍。
這種方法存在權(quán)衡。與在單一數(shù)據(jù)中心訓練的模型相比,分布式訓練模型在特定任務中的表現(xiàn)略遜一籌,但在應對全新問題時表現(xiàn)更優(yōu)。這或許是因為每個“島嶼”在少受約束的間隙能探索更多路徑,類似大學生分組研究,盡管任務聚焦度下降,但經(jīng)驗更豐富。
Prime Intellect創(chuàng)始人Vincent Weisser基于DiLoCo方法開發(fā)了OpenDiLoCo,并用30個GPU集群訓練了10億參數(shù)模型Intellect-1,結(jié)果顯示效率顯著提升。Weisser表示,這種方法不僅降低了對稀缺大型數(shù)據(jù)中心的依賴,也讓訓練資源更分散,避免過度集中于某一國家或公司。
未來的夢想是徹底擺脫專用硬件,將訓練任務分配到消費級設(shè)備上,比如數(shù)以億計的iPhone。然而,這需要克服硬件性能和存儲瓶頸,還需全新計算技術(shù)支持。盡管挑戰(zhàn)巨大,分布式訓練方法的潛力令人期待。訓練成本降低后,或許富豪們將需要尋找新的競爭對象了。
本文譯自 economist,由 BALI 編輯發(fā)布。
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )