12月21日消息, 近期,AI基準測試MLPerf公布了最新一期的訓練測試榜單,成為行業(yè)內關注的焦點。
IPU提供商Graphcore此次向MLPerf提交了IPU-POD16、IPU-POD64、IPU-POD128和IPU-POD256四種系統(tǒng)配置進行訓練測試,并獲得最新測試結果。在ResNet-50模型、自然語言處理(NLP)模型BERT的訓練性能方面均有大幅提升。ResNet-50模型訓練性能甚至超越NVIDIA DGX A100。
Graphcore專注于適用AI的IPU研發(fā),旗下?lián)碛蠭PU硬件和Poplar軟件兩項主要業(yè)務,通過輸出“軟硬一體解決方案”來服務機器智能需求。企查查信息顯示,Graphcore自2016年成立以來已獲得超過7.1億美元投資。
和自己比:ResNet-50模型訓練性能提升24% BERT模型訓練性能提升5%
Graphcore提交給MLPerf的IPU-POD16、IPU-POD64、IPU-POD128和IPU-POD256系統(tǒng)均由不同數量的IPU-M2000、雙CPU服務器構成。
IPU-POD16就是由4個1U的IPU-M2000構成,配有一臺雙CPU服務器,可提供4 petaFLOPS的AI算力。
其中,IPU-M2000是一款即插即用的機器智能刀片式計算單元,由Graphcore的7納米Colossus第二代GC200 IPU提供動力,并由Poplar軟件棧提供支持。
今年7月,Graphcore曾首次向MLPerf提交了IPU-POD16、IPU-POD64的訓練測試。這次Graphcore同樣有提交IPU-POD16、IPU-POD64進行測試,這兩項在硬件方面并未有變化。
最新測試結果顯示,與首次提交的MLPerf訓練結果相比,對于ResNet-50模型,Graphcore這次在IPU-POD16上實現24%的性能提升,在IPU-POD64上實現了41%的性能提升;對于模型BERT來說,在IPU-POD16上實現了5%的性能提升,在IPU-POD64上實現了12%的性能提升。
Graphcore大中華區(qū)總裁兼全球首席營收官盧濤表示,這些性能提升是自Graphcore首次提交以來僅通過軟件優(yōu)化就實現的。MLPerf測試結果表明Graphcore的IPU系統(tǒng)更加強大、高效,軟件也更成熟。
Graphcore大中華區(qū)總裁兼全球首席營收官盧濤
和同行比:ResNet-50模型訓練 IPU-POD16性能超NVIDIA DGX A100
最新的MLPerf測試結果還對比了Graphcore與NVIDIA的產品性能。
通常而言,ResNet-50模型主要用于計算機視覺領域,NVIDIA GPU在ResNet-50模型上的測試結果長期處于領先地位。
不過,最新的MLPerf測試結果顯示Graphcore的IPU-POD16在ResNet-50模型訓練方面的表現優(yōu)于NVIDIA的DGX A100。在DGX A100上訓練ResNet-50需要29.1分鐘,而IPU-POD16僅耗時28.3分鐘。
DGX A100是NVIDIA去年5月發(fā)布的旗艦產品,DGX A100使用兩顆AMD霄龍7742處理器,主打適用于所有AI工作負載。
對于Graphcore產品在ResNet-50模型測試上取得的成績,盧濤表示:“ResNet是一個2016年的模型,已經在GPU上優(yōu)化了5年。我們通過兩次的MLPerf測試,就能夠在這個GPU最主流的模型上超過GPU,這是非常自豪的一件事。而且我們后面還有進一步的提升空間。”
值得注意的是,Graphcore這一次MLPerf測試跟上一次相比最大的不同是首次提交了IPU-POD128和IPU-POD256大規(guī)模系統(tǒng)集群的測試。IPU-POD128和IPU-POD256也取得了很好的成績。
從ResNet-50模型在不同機器集群上的訓練性能來看,在IPU-POD16上的訓練時間是28.33分鐘,隨著系統(tǒng)的增大,訓練時間逐次遞減。在IPU-POD64上,只需要8.5分鐘;在IPU-POD128上訓練的時間為5.67分鐘;在IPU-POD256上,為3.79分鐘。
對于NLP模型BERT,Graphcore在開放和封閉類別分別提交了IPU-POD16、IPU-POD64和IPU-POD128的結果,在新的IPU-POD128上的訓練時間為5.78分鐘。
談及此次Graphcore提交系統(tǒng)測試性能整體都有提升的原因,盧濤向TechWeb表示,這一次提交了大規(guī)模集群,其背后是GCL(Graphcore Communication Library)通信庫的基本完備,能夠支撐搭建集群,這是Graphcore在產品和技術上邁進的重要一步。同時在產品細節(jié)上Graphcore團隊也做了很多優(yōu)化,如編譯器優(yōu)化、框架層面優(yōu)化、算法模型優(yōu)化、還有IPU跟CPU之間的通信優(yōu)化等等。
盧濤介紹,在MLPerf原始數據中,每家制造商系統(tǒng)相關的主機CPU數量都十分驚人,而Graphcore的主機CPU與IPU的比率始終是最低的。以BERT-Large模型為例,IPU-POD64只需要一個雙CPU的主機服務器。ResNet-50需要更多的主機處理器來支持圖像預處理,Graphcore為每個IPU-POD64指定了四個雙核服務器。1比8的比例仍然低于其他所有MLPerf參與者。能實現主機CPU與IPU的低比率是因為Graphcore的IPU僅使用主機服務器進行數據移動,無需主機服務器在運行時分派代碼。因此,IPU系統(tǒng)需要的主機服務器更少,從而實現了更靈活、更高效的橫向擴展系統(tǒng)。
在GPT2、ViT、EfficientNet等新模型上表現如何?
如果說ResNet-50、BERT等都是到2019年為止比較主流的模型。那么,近2年陸續(xù)涌現的GPT2、EfficientNet、ViT等新模型也越來越受到行業(yè)關注,比如,在AI領域,ViT已經成為學界和工業(yè)界用Transformer來做計算機視覺的一個比較典型的算法模型。
盡管沒有在MLPerf中測試,Graphcore中國工程總負責人、AI算法科學家金琛展示了Graphcore產品在GPT2、EfficientNet、ViT等新模型中表現。
以EfficientNet-B4為例,在IPU-POD16上的訓練需要20.7個小時,IPU-POD256則只需要1.8個小時,性能遠優(yōu)于DGX A100官方提供的數據。
Graphcore中國工程總負責人、AI算法科學家金琛
據介紹,目前Graphcore產品已經在金融、保險、天氣預測、科學計算等領域落地,盧濤稱,在金融領域案例中,IPU能夠比GPU快10倍。在保險算法模型方面的案例中,IPU的應用比GPU快5倍。天氣預測方面,在歐洲中期天氣預報中心的模型上,IPU比CPU快50倍、比GPU快5倍。
近期,國內百度深度學習平臺飛槳發(fā)布了在Graphcore IPU上實現訓練和推理全流程支持的開源代碼庫,百度飛槳的開發(fā)者可以在IPU上進行AI模型加速。國內的開發(fā)者小伙伴們不妨試試看IPU的加速效果。
(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )