人工智能浪潮的推動下,AI相關(guān)產(chǎn)業(yè)的商用場景正逐步大規(guī)模落地,基于AI技術(shù)的三大支柱:“算法+大數(shù)據(jù)+計算能力”智能應(yīng)用已成為計算機最主要的負載之一。我國在用戶數(shù)據(jù)方面擁有數(shù)量的先天優(yōu)勢,但面對有限的規(guī)模、結(jié)構(gòu)固定、能耗受限的硬件制約下,如何用AI芯片處理海量的并不斷演進的深度學習算法呢?跟隨OFweek編輯一起來看看各大科技巨頭們研發(fā)的AI芯片吧。(排名按首字母順序排列)
1.含光800
2019年的杭州云棲大會上,達摩院院長張建鋒現(xiàn)場展示了這款全球最強的 AI芯片——含光800。在業(yè)界標準的 ResNet-50 測試中,含光 800 推理性能達到 78563 IPS,比目前業(yè)界最好的 AI 芯片性能高 4 倍;能效比500 IPS/W,一個含光800的算力相當于10個GPU。
目前,含光800已經(jīng)實現(xiàn)了大規(guī)模應(yīng)用于阿里巴巴集團內(nèi)多個場景,例如視頻圖像識別/分類/搜索、城市大腦等,未來還可應(yīng)用于醫(yī)療影像、自動駕駛等領(lǐng)域。以杭州城市大腦實時處理1000路視頻為例,過去使用GPU需要40塊,延時為300ms,單路視頻功耗2.8W;使用含光800僅需4塊,延時150ms,單路視頻功耗1W。
2.Graphcore IPU
總部位于英國布里斯托的Graphcore公司日前推出了一款稱為智能處理單元(IPU)的新型AI加速處理器。芯片本身,即IPU處理器,是迄今為止最復雜的處理器芯片:它在一個16納米芯片上有幾乎240億個晶體管,每個芯片提供125 teraFLOPS運算能力。一個標準4U機箱中可插入8張卡,卡間通過IPU鏈路互連。8張卡中的IPU可以作為一個處理器元件工作,提供兩個petaFLOPS的運算能力。與芯片在CPU和GPU中的存在形式不同,它為機器智能提供了更高效的處理平臺。
Graphcore公司于2016年啟動風險投資計劃,并在2018年12月的最后一輪融資中募集了2億美元?;谄?7億美元的公司估值,Graphcore已成為西方半導體界的唯一“獨角獸”。它的投資者們包括戴爾、博世、寶馬、微軟和三星。
3.Inferentia芯片
2019年,亞馬遜的云服務(wù)業(yè)務(wù)AWS在其發(fā)布會AWS re:Invent上帶來了高性能機器學習加速芯片Inferentia。據(jù)了解,AWS Inferentia 是一個由 AWS 定制設(shè)計的機器學習推理芯片,旨在以極低成本交付高吞吐量、低延遲推理性能。該芯片將支持 TensorFlow、Apache MXNet 和 PyTorch 深度學習框架以及使用 ONNX 格式的模型。
每個 AWS Inferentia 芯片都能在低功率下支持高達 128 TOPS(每秒數(shù)萬億次運行)的性能,從而為每個 EC2 實例啟用多個芯片。AWS Inferentia 支持 FP16、BF16 和 INT8 數(shù)據(jù)類型。此外,Inferentia 可以采用 32 位訓練模型,并使用 BFloat16 以 16 位模型的速度運行該模型。與EC4上的常規(guī)Nvidia G4實例相比,借助Inferentia,AWS可提供更低的延遲和三倍的吞吐量,且每次推理成本降低40%。
4.昆侖芯片 2019年尾聲,百度宣布首款A(yù)I芯片昆侖已經(jīng)完成研發(fā),將由三星代工生產(chǎn)。該芯片使用的是三星14nm工藝技術(shù),封裝解決方案采用的是I-Cube TM。
據(jù)悉,昆侖AI芯片提供512Gbps的內(nèi)存帶寬,在150瓦的功率下實現(xiàn)260TOPS的處理能力,能支持語音,圖像,NLP等不同的算法模型,其中ERNIE模型的性能是T4GPU的三倍以上,兼容百度飛槳等主流深度學習框架。該款芯片主要用于云計算和邊緣計算,預(yù)計在2020年初實現(xiàn)量產(chǎn),
5.Nervana NNP 芯片
2019 英特爾人工智能峰會,英特爾推出面向訓練 (NNP-T1000) 和面向推理 (NNP-I1000) 的英特爾 Nervana 神經(jīng)網(wǎng)絡(luò)處理器 (NNP)。據(jù)了解,Nervana NNP-T 代號 Spring Crest,采用了臺積電的 16nm FF+ 制程工藝,擁有 270 億個晶體管,硅片面積 680 平方毫米,能夠支持 TensorFlow、PaddlePaddle、PYTORCH 訓練框架,也支持 C++ 深度學習軟件庫和編譯器 nGraph。
Nervana NNP-I,代號為 Spring Hill,是一款專門用于大型數(shù)據(jù)中心的推理芯片。這款芯片是基于 10nm 技術(shù)和 Ice Lake 內(nèi)核打造的,打造地點是以色列的 Haifa ,Intel 號稱它能夠利用最小的能量來處理高負載的工作,它在 ResNet50 的效率可達 4.8TOPs/W,功率范圍在 10W 到 50W 之間。
6.Orin芯片
2019年NVIDIA GTC中國大會中英偉達發(fā)布了全新的軟件定義自動駕駛平臺——NVIDIA DRIVE AGX Orin,該平臺內(nèi)置全新Orin系統(tǒng)級芯片,由170億個晶體管組成。
Orin系統(tǒng)級芯片集成了NVIDIA新一代GPU架構(gòu)和Arm Hercules CPU內(nèi)核以及全新深度學習和計算機視覺加速器,每秒可運行200萬億次計算,幾乎是NVIDIA上一代Xavier系統(tǒng)級芯片性能的7倍。此外,Orin可處理在自動駕駛汽車和機器人中同時運行的大量應(yīng)用和深度神經(jīng)網(wǎng)絡(luò),并且達到了ISO 26262 ASIL-D等系統(tǒng)安全標準。
7.邃思DTU
由騰訊領(lǐng)投、融資累計超過 6 億元的 AI 芯片公司燧原科技,在2019年發(fā)布會中推出自主研發(fā)的首款 AI 訓練芯片“邃思 DTU”。
據(jù)了解邃思DTU采用格羅方德12nm FinFET工藝,480平方毫米主芯片上承載141億個晶體管,實現(xiàn)2.5D高級立體封裝,據(jù)稱單卡單精度算力為業(yè)界第一,達20TFLOPS,首次支持混合精度,半精度及混合精度下算力達80TFLOPS,最大功耗僅225W。
邃思芯片基于可重構(gòu)芯片的設(shè)計理念,其計算核心包含 32 個通用可擴展神經(jīng)元處理器(SIP),每 8 個 SIP 組合成 4 個可擴展智能計算群(SIC)。SIC 之間通過 HBM 實現(xiàn)高速互聯(lián),通過片上調(diào)度算法,數(shù)據(jù)在遷移中完成計算,實現(xiàn)了 SIP 利用率最大化。
8.思元220芯片
寒武紀在第21屆高交會正式發(fā)布邊緣AI系列產(chǎn)品思元220(MLU220)芯片及M.2加速卡產(chǎn)品,標志寒武紀在云、邊、端實現(xiàn)了全方位、立體式的覆蓋。
思元220芯片采用了寒武紀在處理器架構(gòu)領(lǐng)域的一系列創(chuàng)新性技術(shù),其架構(gòu)為寒武紀最新一代智能處理器MLUv02,實現(xiàn)最大32TOPS(INT4)算力,而功耗僅10W,可提供16/8/4位可配置的定點運算。作為通用處理器,支持各類深度學習技術(shù),支持多模態(tài)智能處理(視覺、語音和自然語言處理),應(yīng)用領(lǐng)域廣泛,客戶可以根據(jù)實際應(yīng)用靈活的選擇運算類型來獲得卓越的人工智能推理性能。
9.昇騰910
2019年8月,華為在深圳總部發(fā)布AI處理器Ascend 910(昇騰910),據(jù)華為發(fā)布的參數(shù)顯示,昇騰910是一款具有超高算力的AI處理器,其最大功耗為310W,華為自研的達芬奇架構(gòu)大大提升了其能效比。八位整數(shù)精度(INT8)下的性能達到512TOPS,16位浮點數(shù)(FP16)下的性能達到256 TFLOPS。
作為一款高集成度的片上系統(tǒng)(SoC),除了基于達芬奇架構(gòu)的AI核外,昇騰910還集成了多個CPU、DVPP和任務(wù)調(diào)度器(Task Scheduler),因而具有自我管理能力,可以充分發(fā)揮其高算力的優(yōu)勢。
昇騰910集成了HCCS、PCIe 4.0和RoCE v2接口,為構(gòu)建橫向擴展(Scale Out)和縱向擴展(Scale Up)系統(tǒng)提供了靈活高效的方法。HCCS是華為自研的高速互聯(lián)接口,片內(nèi)RoCE可用于節(jié)點間直接互聯(lián)。最新的PCIe 4.0的吞吐量比上一代提升一倍。
10.征程二代
2019世界人工智能大會中,人工智能芯片初創(chuàng)公司地平線正式宣布量產(chǎn)中國首款車規(guī)級人工智能芯片——征程二代,并且獲得五個國家市場客戶的前裝定點項目。
據(jù)介紹,征程二代于今年初流片成功,搭載地平線自主創(chuàng)新研發(fā)的高性能計算架構(gòu)BPU2.0(Brain Processing Unit),可提供超過4TOPS的等效算力,典型功耗僅2瓦,滿足AEC-Q100標準,算力利用率超過90%,每TOPS算力可以處理的幀數(shù)可達同等算力GPU的10倍以上,識別精度超過99%,延遲少于100毫秒,多任務(wù)模式下可以同時跑超過60個分類任務(wù),每秒鐘識別目標數(shù)可以超過2000個。
此次地平線率先推出首款車規(guī)級AI芯片不僅實現(xiàn)了中國車規(guī)級AI芯片量產(chǎn)零的突破,也補齊了國內(nèi)自動駕駛產(chǎn)業(yè)生態(tài)建設(shè)的關(guān)鍵環(huán)節(jié)。
小結(jié)
目前通過CPU/GPU處理人工神經(jīng)網(wǎng)絡(luò)效率低下,谷歌大腦需要1.6萬個CPU核跑數(shù)天方能完成貓臉識別訓練;AIpha GO與李世石下棋時用了1000個CPU和200個GPU,AI芯片的發(fā)展是第三次AI浪潮中極為明顯的趨勢,算法已滲透到云服務(wù)器和智能手機的方方面面,未來每臺計算機可能都需要一個專門的深度學習處理器。
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )