精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>

<abbr id="ixlwe"></abbr>

<ol id="unvul"><progress id="unvul"></progress></ol>

<abbr id="unvul"><th id="unvul"><nobr id="unvul"></nobr></th></abbr>

直播
榜單
7x24h快訊

極客網(wǎng) > 智能硬件 >

揭開神秘面紗！谷歌TPU為何會比CPU、GPU快30倍？

人閱讀
2017-04-06 14:42:40
來源：雷鋒網(wǎng)
相關(guān)關(guān)鍵詞
- 谷歌TPU
- TPU處理器

谷歌硬件工程師揭秘，TPU為何會比CPU、GPU快30倍？

在谷歌發(fā)布TPU一年后，這款機器學(xué)習(xí)定制芯片的神秘面紗終于被揭開了。

昨日，谷歌資深硬件工程師Norman Jouppi刊文表示，谷歌的專用機器學(xué)習(xí)芯片TPU處理速度要比GPU和CPU快15-30倍（和TPU對比的是英特爾Haswell CPU以及Nvidia Tesla K80 GPU），而在能效上，TPU更是提升了30到80倍。

從這次發(fā)布的測試結(jié)果來看，TPU似乎已經(jīng)超出了業(yè)界的預(yù)期，但是藏在這一芯片背后的內(nèi)部架構(gòu)究竟有什么秘密呢，我們從Jouppi此前發(fā)布的論文當(dāng)中，可以找到答案。

據(jù)雷鋒網(wǎng)了解，早在四年前，谷歌內(nèi)部就開始使用消耗大量計算資源的深度學(xué)習(xí)模型，這對CPU、GPU組合而言是一個巨大的挑戰(zhàn)，谷歌深知如果基于現(xiàn)有硬件，他們將不得不將數(shù)據(jù)中心數(shù)量翻一番來支持這些復(fù)雜的計算任務(wù)。

所以谷歌開始研發(fā)一種新的架構(gòu)，Jouppi稱之為“下一個平臺”。Jouppi曾是MIPS處理器的首席架構(gòu)師之一，他開創(chuàng)了內(nèi)存系統(tǒng)中的新技術(shù)。三年前他加入谷歌的時候，公司上下正在用CPU、GPU混合架構(gòu)上來進行深度學(xué)習(xí)的訓(xùn)練。

Jouppi表示，谷歌的硬件工程團隊在轉(zhuǎn)向定制ASIC之前，早期還曾用FPGA來解決廉價、高效和高性能推理的問題。但他指出，F(xiàn)PGA的性能和每瓦性能相比ASIC都有很大的差距。他解釋說，“TPU可以像CPU或GPU一樣可編程，它可以在不同的網(wǎng)絡(luò)（卷積神經(jīng)網(wǎng)絡(luò)，LSTM模型和大規(guī)模完全連接的模型）上執(zhí)行CISC指令，而不是為某個專用的神經(jīng)網(wǎng)絡(luò)模型設(shè)計的。一言以蔽之，TPU兼具了CPU和ASIC的有點，它不僅是可編程的，而且比CPU、GPU和FPGA擁有更高的效率和更低的能耗。

TPU的內(nèi)部架構(gòu)

谷歌硬件工程師揭秘，TPU為何會比CPU、GPU快30倍？

該圖顯示了TPU上的內(nèi)部結(jié)構(gòu)，除了外掛的DDR3內(nèi)存，左側(cè)是主機界面。指令從主機發(fā)送到隊列中（沒有循環(huán)）。這些激活控制邏輯可以根據(jù)指令多次運行相同的指令。

TPU并非一款復(fù)雜的硬件，它看起來像是雷達應(yīng)用的信號處理引擎，而不是標(biāo)準(zhǔn)的X86衍生架構(gòu)。Jouppi說，盡管它有眾多的矩陣乘法單元，但是它GPU更精于浮點單元的協(xié)處理。另外，需要注意的是，TPU沒有任何存儲的程序，它可以直接從主機發(fā)送指令。

TPU上的DRAM作為一個單元并行運行，因為需要獲取更多的權(quán)重以饋送到矩陣乘法單元（算下來，吞吐量達到了64,000）。Jouppi并沒有提到是他們是如何縮放（systolic）數(shù)據(jù)流的，但他表示，使用主機軟件加速器都將成為瓶頸。

谷歌硬件工程師揭秘，TPU為何會比CPU、GPU快30倍？

256×256陣列縮放數(shù)據(jù)流引擎，經(jīng)過矩陣乘法積累后實現(xiàn)非線性輸出

從第二張圖片可以看出，TPU有兩個內(nèi)存單元，以及一個用于模型中參數(shù)的外部DDR3 DRAM。參數(shù)進來后，可從頂部加載到矩陣乘法單元中。同時，可以從左邊加載激活（或從“神經(jīng)元”輸出）。那些以收縮的方式進入矩陣單元以產(chǎn)生矩陣乘法，它可以在每個周期中進行64,000次累加。

毋庸置疑，谷歌可能使用了一些新的技巧和技術(shù)來加快TPU的性能和效率。例如，使用高帶寬內(nèi)存或混合3D內(nèi)存。然而，谷歌的問題在于保持分布式硬件的一致性。

TPU對比Haswell處理器

在和英特爾“Haswell”Xeon E5 v3處理器來的對比中，我們可以看到，TPU各方面的表現(xiàn)都要強于前者。

在Google的測試中，使用64位浮點數(shù)學(xué)運算器的18核心運行在2.3 GHz的Haswell Xeon E5-2699 v3處理器能夠處理每秒1.3 TOPS的運算，并提供51GB/秒的內(nèi)存帶寬；Haswell芯片功耗為145瓦，其系統(tǒng)（擁有256 GB內(nèi)存）滿載時消耗455瓦特。

相比之下，TPU使用8位整數(shù)數(shù)學(xué)運算器，擁有256GB的主機內(nèi)存以及32GB的內(nèi)存，能夠?qū)崿F(xiàn)34GB/秒的內(nèi)存帶寬，處理速度高達92 TOPS ，這比Haswell提升了71倍，此外，TPU服務(wù)器的熱功率只有384瓦。

谷歌硬件工程師揭秘，TPU為何會比CPU、GPU快30倍？

除此之外，谷歌還測試了CPU、GPU和TPU處理不同批量大小的每秒推斷的吞吐量。

谷歌硬件工程師揭秘，TPU為何會比CPU、GPU快30倍？

如上圖所示，在小批量任務(wù)中（16），Haswell CPU的響應(yīng)時間接近7毫秒，其每秒提供5482次推斷（IPS），其可以實現(xiàn)的最大批量任務(wù)（64）每秒則可以完成13194次推斷，但其響應(yīng)時間為21.3毫秒。相比之下，TPU可以做到批量大小為200，而響應(yīng)時間低于7毫秒，并提供225000個IPS運行推理基準(zhǔn)，是其峰值性能的80％，當(dāng)批量大小為250，響應(yīng)時間為10毫秒。

不過需要注意的是，谷歌所測試的Haswell Xeon處理器似乎也不能完全說明問題，英特爾Broadwell Xeon E5 v4處理器和最新的“Skylake”Xeon E5，每核心時鐘（IPC）的指令比這款處理器提升了約5％。在Skylake是28核，而Haswell為18核，所以Xeon的總體吞吐量可能會上升80％。當(dāng)然，這樣的提升與TPU相比仍有差距。

最后雷鋒網(wǎng)需要強調(diào)的是，TPU是一個推理芯片，它并非是要取代GPU，可以確定的是，TPU與CPU一起使用對訓(xùn)練分析更加有益。但對于CPU制造商而言，如何研發(fā)出像ASIC一樣兼顧性能和能效的芯片是現(xiàn)在以及未來要做的。

Jouppi表示谷歌TPU已經(jīng)開始出貨，而英特爾這些芯片商也將面臨更大的挑戰(zhàn)。

極客網(wǎng)企業(yè)會員

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負任何法律責(zé)任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時，應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明，并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

下一篇

阿斯麥訂單“腰斬”股價暴跌16%，半導(dǎo)體產(chǎn)業(yè)寒冬來了？

阿斯麥訂單腰斬阿斯麥訂單阿斯麥股價暴跌

極客觀察

專題報道

企業(yè)專欄

簡版
原版
投稿
回頂部

2017-04-06

揭開神秘面紗！谷歌TPU為何會比CPU、GPU快30倍？

在谷歌發(fā)布TPU一年后，這款機器學(xué)習(xí)定制芯片的神秘面紗終于被揭開了。昨日，谷歌資深硬件工程師Norman Jouppi刊文表示，谷歌的專用機器學(xué)習(xí)芯片TPU處理

長按掃碼閱讀全文