精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>
  • <span id="ixlwe"></span>

  • <abbr id="ixlwe"></abbr>

    AI大模型瘋長,存儲扛住了嗎?

    科技云報道原創(chuàng)。

    AI大模型正在倒逼數(shù)字基礎設施產(chǎn)業(yè)加速升級。

    過去一年半,AI大模型標志性的應用相繼出現(xiàn),從ChatGPT到Sora一次次刷新人們的認知。震撼的背后,是大模型參數(shù)指數(shù)級的增長。

    這種數(shù)據(jù)暴漲的壓力,快速傳導到了大模型的底層基礎設施。作為支撐大模型的底座“三大件”——算力、網(wǎng)絡、存儲,都在快速的迭代。

    算力方面,英偉達用了兩年的時間就將GPU從H100升級到了H200,讓模型的訓練性能提升了5倍。

    網(wǎng)絡方面,從之前的25G升級到現(xiàn)在的200G,網(wǎng)絡帶寬提升了6倍。隨著RDMA大規(guī)模的應用,網(wǎng)絡延遲也降低了60%。

    存儲方面,華為、阿里云、百度智能云、騰訊云等大廠,都相繼推出了面向AI大模型的存儲方案。

    那么作為基礎設施的三大件之一的存儲,在AI大模型的場景下到底發(fā)生了哪些變化?又有哪些新的技術挑戰(zhàn)?

    AI大模型帶來的 存儲挑戰(zhàn)

    算力、算法、數(shù)據(jù),在發(fā)展AI過程中的重要性早已為人所熟知,但是作為數(shù)據(jù)的承載,存儲卻往往被忽略。

    在訓練AI大模型的過程中,需要大量數(shù)據(jù)的交換,存儲作為數(shù)據(jù)的基礎硬件,并非僅僅只是簡單地記錄數(shù)據(jù),而是深刻參與到了數(shù)據(jù)歸集、流轉、利用等大模型訓練的全流程。

    如果存儲性能不強,那么可能需要耗費大量時間才能完成一次訓練,這就會嚴重制約大模型的發(fā)展迭代。

    事實上,不少企業(yè)在開發(fā)及實施大模型應用過程中,已經(jīng)開始意識到存儲系統(tǒng)所面臨的巨大挑戰(zhàn)。

    從AI大模型的研發(fā)生產(chǎn)流程看,可分為數(shù)據(jù)采集、清洗、訓練和應用四個階段,各階段都對存儲提出了新的要求,比如:

    在數(shù)據(jù)采集環(huán)節(jié),由于原始訓練數(shù)據(jù)規(guī)模海量,且來源多樣,企業(yè)希望能夠有一個大容量、低成本、高可靠的數(shù)據(jù)存儲底座。

    在數(shù)據(jù)清洗階段,網(wǎng)絡上收集的原始數(shù)據(jù)是不能直接用于AI模型訓練的,需要將多格式、多協(xié)議的數(shù)據(jù)進行清洗、去重、過濾、加工,行業(yè)內(nèi)稱其為“數(shù)據(jù)預處理”。

    與傳統(tǒng)單模態(tài)小模型訓練相比,多模態(tài)大模型所需的訓練數(shù)據(jù)量是其1000倍以上,一個典型的百TB級大模型數(shù)據(jù)集,預處理時長超過10天,占比AI數(shù)據(jù)挖掘全流程的30%。

    同時,數(shù)據(jù)預處理伴隨高并發(fā)處理,對算力消耗巨大。這就要求存儲能夠提供多協(xié)議、高性能的支持,用標準文件的方式完成海量數(shù)據(jù)的清洗和轉換,以縮短數(shù)據(jù)預處理的時長。

    在模型訓練環(huán)節(jié),通常會出現(xiàn)訓練集加載慢、易中斷、數(shù)據(jù)恢復時間長等問題。

    相較于傳統(tǒng)學習模型,大模型訓練參數(shù)、訓練數(shù)據(jù)集指數(shù)級增加,如何實現(xiàn)海量小文件數(shù)據(jù)集快速加載,降低 GPU等待時間是關鍵。

    目前,主流預訓練模型已經(jīng)有千億級參數(shù),而頻繁的參數(shù)調(diào)優(yōu)、網(wǎng)絡不穩(wěn)定、服務器故障等多種因素帶來訓練過程不穩(wěn)定,易中斷返工,需要Checkpoints機制來確保訓練回退到還原點,而不是初始點。

    當前,由于Checkpoints需要天級的恢復時長,導致大模型整體訓練周期陡增,而面對單次超大的數(shù)據(jù)量和未來小時級的頻度要求,需要認真考慮如何降低Checkpoints恢復時長。

    因此,存儲能否快速地讀寫checkpoint(檢查點)文件,也成了能否高效利用算力資源、提高訓練效率的關鍵。

    在應用階段,存儲需要提供比較豐富的數(shù)據(jù)審核的能力,來滿足鑒黃鑒暴安全合規(guī)的訴求,保證大模型生成的內(nèi)容是合法、合規(guī)的方式去使用。

    總的來說,AI大模型訓練的效率要達到極致,減少不必要的浪費,必須在數(shù)據(jù)上下功夫。準確地說,必須要在數(shù)據(jù)存儲技術上進行創(chuàng)新。

    AI倒逼存儲技術創(chuàng)新

    根據(jù)投資機構ARK Invest預算,到2030年,產(chǎn)業(yè)有望訓練出比GPT-3多57倍參數(shù)、多720倍Token的AI模型,成本將從今天的170億美元降至60萬美元。隨著計算價格降低,數(shù)據(jù)將成為大模型生產(chǎn)的主要限制因素。

    面對數(shù)據(jù)桎梏問題,不少企業(yè)已經(jīng)開始進行前瞻性布局。

    比如百川智能、智譜、元象等大模型企業(yè),都已采用騰訊云AIGC云存儲解決方案來提升效率。

    數(shù)據(jù)顯示,騰訊云AIGC云存儲解決方案,可將大模型的數(shù)據(jù)清洗和訓練效率均提升一倍,需要的時間縮短一半。

    科大訊飛、中科院等大模型企業(yè)和機構,則采用了華為AI存儲相關產(chǎn)品。

    數(shù)據(jù)顯示,華為OceanStor A310可實現(xiàn)從數(shù)據(jù)歸集、預處理到模型訓練、推理應用的AI全流程海量數(shù)據(jù)管理,簡化數(shù)據(jù)歸集流程,減少數(shù)據(jù)搬移,預處理效率提升30%。

    目前,國內(nèi)各大廠商也相繼發(fā)布了面向AI大模型場景的存儲方案。

    2023年7月,華為發(fā)布兩款面向AI大模型的存儲產(chǎn)品——OceanStor A310深度學習數(shù)據(jù)湖存儲和FusionCube A3000訓/推超融合一體機。

    2023年11月云棲大會上,阿里云推出一系列針對大模型場景的存儲產(chǎn)品創(chuàng)新,用AI技術賦能AI業(yè)務,幫助用戶更輕松地管理大規(guī)模多模態(tài)數(shù)據(jù)集,提高模型訓練、推理的效率和準確性。

    2023年12月,百度智能云發(fā)布了“百度滄?!ご鎯Α苯y(tǒng)一技術底座,同時面向數(shù)據(jù)湖存儲和AI存儲能力進行了全面增強。

    2024年4月,騰訊云宣布云存儲解決方案面向AIGC場景全面升級,針對AI大模型數(shù)據(jù)采集清洗、訓練、推理、數(shù)據(jù)治理全流程提供全面、高效的云存儲支持。

    綜合各大廠商的存儲技術創(chuàng)新,可以發(fā)現(xiàn)技術方向較為統(tǒng)一,都是基于AI大模型生產(chǎn)研發(fā)的全流程,對存儲產(chǎn)品進行有針對性的性能優(yōu)化。

    以騰訊云為例,在數(shù)據(jù)采集與清洗環(huán)節(jié),首先需要存儲能夠支持多協(xié)議、高性能、大帶寬。

    因此,騰訊云對象存儲COS能夠支持單集群管理百 EB 級別存儲規(guī)模,提供便捷、高效的數(shù)據(jù)公網(wǎng)接入能力,并支持多種協(xié)議,充分支持大模型PB級別的海量數(shù)據(jù)采集。

    同時,數(shù)據(jù)清洗時,大數(shù)據(jù)引擎需要快速地讀取并過濾出有效數(shù)據(jù)。騰訊云對象存儲COS通過自研數(shù)據(jù)加速器GooseFS提升數(shù)據(jù)訪問性能,實現(xiàn)了高達數(shù)TBps的讀取帶寬,支撐計算高速運行,大大提升數(shù)據(jù)清洗效率。

    在模型訓練環(huán)節(jié),通常需要每2-4小時保存一次訓練成果,以便能在GPU故障時時能回滾。

    騰訊云自主研發(fā)并行文件存儲CFS Turbo ,面向AIGC訓練場景的進行了專門優(yōu)化,每秒總讀寫吞吐達到TiB/s級別,每秒元數(shù)據(jù)性能高達百萬OPS,均為業(yè)界第一。3TB checkpoint 寫入時間從10分鐘,縮短至10秒內(nèi),使大模型訓練效率大幅提升。

    大模型推理場景對數(shù)據(jù)安全與可追溯性提出更高要求。

    騰訊云數(shù)據(jù)萬象CI為此提供圖片隱式水印、AIGC內(nèi)容審核、智能數(shù)據(jù)檢索MetaInsight等能力,為數(shù)據(jù)生產(chǎn)從“用戶輸入——預處理——內(nèi)容審核——版權保護——安全分發(fā)——信息檢索”業(yè)務全流程提供有力支撐,優(yōu)化AIGC內(nèi)容生產(chǎn)與管理模式,順應監(jiān)管導向,拓寬存儲邊界。

    同時,隨著訓練數(shù)據(jù)和推理數(shù)據(jù)的增長,需要提供低成本的存儲能力,減少存儲開銷。騰訊云對象存儲服務提供了高達12個9的數(shù)據(jù)持久性和99.995%的數(shù)據(jù)可用性,能夠為業(yè)務提供持續(xù)可用的存儲服務。

    總的來說,隨著AI大模型的推進,數(shù)據(jù)存儲出現(xiàn)了新的趨勢。市場渴望更高性能、大容量、低成本的存儲產(chǎn)品,并加速大模型各個環(huán)節(jié)的融合和效率提升。

    而各大廠商也在通過技術創(chuàng)新不斷滿足大模型各環(huán)節(jié)的需求,為企業(yè)實施大模型降低門檻。

    在AI大模型的倒逼下,存儲創(chuàng)新已在路上。

    【關于科技云報道】

    專注于原創(chuàng)的企業(yè)級內(nèi)容行家——科技云報道。成立于2015年,是前沿企業(yè)級IT領域Top10媒體。獲工信部權威認可,可信云、全球云計算大會官方指定傳播媒體之一。深入原創(chuàng)報道云計算、大數(shù)據(jù)、人工智能、區(qū)塊鏈等領域。

    免責聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關。文章僅供讀者參考,并請自行核實相關內(nèi)容。投訴郵箱:editor@fromgeek.com。

    極客網(wǎng)企業(yè)會員

    免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。

    2024-04-15
    AI大模型瘋長,存儲扛住了嗎?
    科技云報道原創(chuàng)。AI大模型正在倒逼數(shù)字基礎設施產(chǎn)業(yè)加速升級。過去一年半,AI大模型標志性的應用相繼出現(xiàn),從ChatGPT到Sora一次次刷新人們...

    長按掃碼 閱讀全文