2024全球AI芯片峰會(GACS 2024)近期在北京舉行。本屆峰會以「智算紀(jì)元 共筑芯路」為主題,全面展示AI芯片產(chǎn)業(yè)在算力、網(wǎng)絡(luò)、存儲、軟件、系統(tǒng)及應(yīng)用方面的前沿技術(shù)、最新成果與落地進(jìn)程。
云天勵飛副總裁、芯片產(chǎn)品線總經(jīng)理李愛軍受邀參加峰會,并在大會上介紹了“算力積木”AI芯片架構(gòu)。
李愛軍在演講中提到,大模型的落地給邊緣AI芯片帶來全新挑戰(zhàn)。
場景具有豐富性和碎片性的特點,用于邊緣的大模型的參數(shù)量從1.8B到13B不等,不同場景應(yīng)用對算力、內(nèi)存、帶寬的要求也不盡相同。因此,邊緣AI芯片需要有很強的靈活性和擴(kuò)展性,以滿足不同大模型落地不同場景的需求。
在此背景下,云天勵飛提出了“算力積木”AI芯片架構(gòu),讓芯片能夠像搭積木一樣靈活組建、靈活擴(kuò)展。
去年底云天勵飛正式發(fā)布的DeepEdge10系列芯片就是采用“算力積木”架構(gòu)設(shè)計的。
DeepEdge10系列芯片基于一個標(biāo)準(zhǔn)化的大模型計算單元打造,可實現(xiàn)1.8B大模型的實時高效推理。通過D2D Chiplet技術(shù)、C2C Mesh技術(shù)和C2C Mes Torus技術(shù),云天勵飛將標(biāo)準(zhǔn)計算單元像搭積木一樣,封裝成不同算力的芯片,可實現(xiàn)7B、14B、130B等不同參數(shù)量大模型在邊緣端的高效推理。
在標(biāo)準(zhǔn)化算力單元方面,云天勵飛也做了許多技術(shù)上的創(chuàng)新,以實現(xiàn)大模型在邊緣端的高效推理。
一是設(shè)計了近存計算架構(gòu),可實現(xiàn)Transformer計算的超低延時。通過可編程路由引擎,可以實現(xiàn)高效分布式的并行計算。
二是通過自研的多Router協(xié)同機(jī)制,可以有效地提高大模型的參數(shù)數(shù)據(jù)響應(yīng)速度,滿足高效推理的需求。
三是在C2C Mesh Torus結(jié)構(gòu)上,通過自適應(yīng)Router結(jié)構(gòu),減少數(shù)據(jù)搬運次數(shù),減少計算對帶寬的需求。
通過上述技術(shù)創(chuàng)新,云天勵飛實現(xiàn)了8×16個標(biāo)準(zhǔn)“算力積木”單元的Mesh Torus架構(gòu)互聯(lián),可提供2048Tops統(tǒng)一管理智能算力、512GB統(tǒng)一尋址內(nèi)存容量、3840GB/s統(tǒng)一調(diào)度內(nèi)存帶寬。
未來,云天勵飛還會推出基于Mesh Torus架構(gòu)的大模型邊緣推理一體機(jī):IPU X6000-Mesh 4U Server,以高峰值算力與突出的能效比支持大模型的單機(jī)部署,包括7B、70B、MoE等主流大模型的邊緣側(cè)推理部署。
云天勵飛一直堅持走芯片自主研發(fā)路線,希望能夠通過架構(gòu)創(chuàng)新,在國產(chǎn)工藝上實現(xiàn)芯片性能的突破,為行業(yè)帶來更高性價比的產(chǎn)品。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )