人工智能(AI)的興起帶動市場對AI芯片的需求,NVIDIA的GPU真正借著這股“東風”迅速成為AI市場的主流產(chǎn)品之一,其勢頭甚至蓋過了CPU。不過,GPU還不能算是真正的AI芯片,現(xiàn)在一大波新興的AI專用芯片正在路上,而IPU(智能處理器)在這之中相對比較成熟。目前,來自Graphcore的IPU芯片已真正量產(chǎn),應用效果非常好,由此也被不少人看好。
專為機器智能設計
Graphcore是IPU的扛旗人。Graphcore是一家來自英國的明星初創(chuàng)公司,到目前為止,公司總共融資超過4.5億美金,其中包括一些非常知名的金融投資者、戰(zhàn)略投資者,比如,微軟、三星、博世、寶馬、戴爾等。IPU是一種專為機器智能設計的全新芯片類型,采用的是完全不同于CPU、GPU的全新處理器架構,專門適用于AI負載。
Graphcore高級副總裁兼中國區(qū)總經(jīng)理盧濤告訴記者,機器智能是一類全新的計算負載,有自己的特點。比如,AI算法通常涉及大規(guī)模的并行計算;數(shù)據(jù)結構通常是非常稀疏的矩陣;和傳統(tǒng)的科學計算或者高性能計算(HPC)相比,智能計算普遍都是低精度計算。另外,AI應用經(jīng)常會有數(shù)據(jù)參數(shù)復用、靜態(tài)圖結構。由于這些特點的存在,使得傳統(tǒng)CPU、GPU在處理這類工作負載的效果并不理想,而IPU則有明顯優(yōu)勢。
Graphcore高級副總裁兼中國區(qū)總經(jīng)理盧濤
“CPU是面向應用和網(wǎng)絡設計的處理器,是一個標量處理器;GPU是面向圖形和高性能計算、以向量處理為核心的處理器。AI是一個全新的負載、是以計算圖作為表征,因此需要一種全新的處理器架構,而Graphcore開創(chuàng)的IPU就是針對計算圖的處理來設計的專用處理器?!北R濤說。
據(jù)盧濤介紹,Graphcore的IPU在架構上做了大量創(chuàng)新。其中一大創(chuàng)新是,IPU內(nèi)核采用了大規(guī)模并行MIMD,有一個非常大的分布式片上SRAM,這個SRAM高達300 MB。因此,相比CPU+DDR2或者GPU+GDDR/HBM,IPU能夠實現(xiàn)10到320倍的性能提升。
“近些年,芯片的計算能力提升很快,但內(nèi)存的性能提升卻相對緩慢。IPU的一個創(chuàng)新設計就是采用了大規(guī)模并行MIMD和龐大的分布式片上SRAM?!北R濤說。
Graphcore IPU的另一大架構創(chuàng)新是采用了構建大規(guī)模數(shù)據(jù)中心集群的BSP技術(Bulk Synchronous Parallel),這種技術目前在谷歌、Facebook、百度這樣的大規(guī)模數(shù)據(jù)中心都在使用。IPU也是目前世界上首款BSP處理器,通過硬件來支持BSP協(xié)議,并通過BSP協(xié)議把整個計算邏輯分為計算、同步、交換三方面。
據(jù)悉,Graphcore IPU已經(jīng)量產(chǎn)的GC2處理器擁有236億個晶體管的芯片,在120瓦的功耗下有125 TFlops的混合精度、1216個獨立的處理器核心(Tile),300 M的SRAM能夠把完整的計算模型放在片內(nèi)。另外,內(nèi)存的帶寬有45 TB/s、片上的交換是8 TB/s、片間的IPU-Links是2.5 TB/s。Graphcore IPU的這些硬件條件為其最后高性能地完成AI應用奠定了非常強大的基礎。
一款全新架構的處理器要想真正落地,配套的軟件自然必不可少,其中就包括編譯器、開發(fā)平臺以及其他相關的各種配套軟件和工具。對此,Graphcore推出了IPU配套的開發(fā)平臺——Poplar SDK。Poplar是架構在機器學習的框架軟件(比如TensorFlow、ONNX、PyTorch和PaddlePaddle)和硬件之間的一個基于計算圖的工具和庫,目前提供750個高性能計算元素的50多種優(yōu)化功能,可以支持各種標準的機器學習框架,包括TensorFlow 1/2、ONNX和PyTorch,很快也會支持百度飛槳。在部署方面,Poplar目前可以支持容器化部署,能夠快速啟動并運行。今年5月,Graphcore還推出了一款名為PopVision Graph Analyser的分析工具。開發(fā)人員在使用IPU進行編程的時候,可以通過PopVision這個可視化的圖形展示工具來分析軟件的運行情況、調(diào)試效率。
優(yōu)勢初步展現(xiàn)
硬件架構的創(chuàng)新加上配套軟件使得IPU在人工智能的應用上表現(xiàn)優(yōu)異。比如,在BERT訓練方面,采用NVLink-enabled的GPU平臺通常需要50多個小時才能達到一定精度,而IPU平臺只需36.3小時。在BERT推理方面,IPU目前在 BERT 上訓練的時間能夠比 GPU 縮短 25%以上。
微軟的一位機器學習專家在5月27日舉行的Intelligent Health峰會上分享了如何使用IPU訓練CXR(胸部X光射線樣片)。在微軟自己專門創(chuàng)新的SONIC CV 模型里,IPU只要30分鐘就能夠完成傳統(tǒng)的GPU需要5個小時才能完成訓練的工作量。
盧濤介紹,目前基于IPU的應用已經(jīng)覆蓋了機器學習的各個應用領域,包括自然語言處理、圖像/視頻處理、時序分析、推薦/排名及概率模型,廣泛應用于醫(yī)療、金融、制造以及5G等多個行業(yè),極大降低了開發(fā)者和用戶的決策與開發(fā)成本。
盧濤表示,目前中國企業(yè)使用IPU分為兩個渠道,其一是購買IPU服務器,戴爾已提供此類服務器;另一渠道是通過云服務商購買基于IPU的云服務。為了進一步配合IPU在中國的落地,Graphcore在中國已建立起兩支技術服務團隊——一支是以定制開發(fā)為主要任務的工程技術團隊,另一支是以客戶技術服務為主的現(xiàn)場應用團隊。
“AI應用需要專門的處理器,而IPU正是這樣的處理器。目前,AI在各行各業(yè)均得到廣泛應用,IPU可以基于自身優(yōu)勢為世界的智能化進程增添不竭動力?!北R濤最后總結道。
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )