一年一度的谷歌AI總結公布了。
1月15日,谷歌高級研究員、谷歌AI負責人Jeff Dean發(fā)表了博文,回顧總結了2018年谷歌的技術研究進展。
Jeff Dean從谷歌的人工智能、量子計算、感知技術、算法理論、AutoML、機器人以及TPU等多個技術層面,系統(tǒng)地還原了谷歌AI的2018。
眾所周知,在去年一整年,谷歌遭遇了諸多危機,尤其是不作惡的原則受到內(nèi)外的質(zhì)疑。Jeff Dean博客中首要提到的便是谷歌的道德原則和AI。
道德原則和人工智能
今年,我們發(fā)布了Google AI原則,但是,由于AI的發(fā)展非常迅速,AI原則中諸如“避免制造或加強不公平的偏見”、“對人民負責”等也在不斷變化和改進。
其中,機器學習公平性和模型可解釋性等領域的新研究,正反向推動我們的產(chǎn)品進步,使其更具包容性。例如我們在谷歌翻譯中減少“性別偏見”,并允許探索和發(fā)布更具包容性的圖像數(shù)據(jù)集和模型,使計算機視覺能夠適應全球文化的多樣性。
社會公益
Jeff Dean舉例了AI應用于解決現(xiàn)實公共問題的案例:
洪水預測工作。該研究與Google的許多團隊合作,旨在提供有關洪水發(fā)生可能和范圍的準確細粒度信息,使洪水易發(fā)地區(qū)的人們能夠更好地保護自己及其財產(chǎn)。
地震余震預測的工作。谷歌展示了機器學習(ML)模型可以比傳統(tǒng)的基于物理的模型更準確地預測余震位置。
除此之外,還有許多Google研究人員和工程師合作,使用TensorFlow等開源軟件解決各種科學和社會問題,例如使用卷積神經(jīng)網(wǎng)絡來識別座頭鯨的位置,檢測新的系外行星,識別患病的木薯植物等。
AI輔助技術
為了使ML和計算機科學幫助用戶更快更有效地完成任務,谷歌推出了智能語音技術Google Duplex。
這是一個囊括自然語言研究和對話理解以及文本、語言識別的技術。其核心是一個循環(huán)神經(jīng)網(wǎng)絡,使用的是TensorFlow Extend(TFX)的機器學習平臺構建。
當Google Duplex撥打電話時,它的聲音近乎真實的普通人。你可以聽到Google Duplex幫你打電話預約理發(fā)。
其他應用案例還包括Smart Compose,它可以使用預測模型提供有關如何撰寫電子郵件的相關建議,使電子郵件撰寫過程更快更容易的工具。
我們研究的一個重點是讓Google智能助理這樣的產(chǎn)品支持更多語言,并且可以更好地理解語義相似性。
量子計算
在過去的一年里,我們制作了許多令人興奮的量子計算新成果,包括開發(fā)了一種新的72比特通用量子計算設備Bristlecone,該設備可以擴大量子計算機在量子領域可以解決的問題。
我們還發(fā)布了量子計算機的開源編程框架Cirq,并探討了量子計算機如何用于神經(jīng)網(wǎng)絡。最后,我們分享了量子處理器性能波動的經(jīng)驗和技術以及量子計算機如何作為神經(jīng)網(wǎng)絡計算基板的一些想法。
自然語言理解
2018年,Google的自然語言研究在基礎研究和以產(chǎn)品為中心的合作上都取得了非常棒的成果。我們在之前的機器學習模型基礎上開發(fā)了一個新的并行版本的模型 Universal Transformer,它在包括翻譯和語言推理在內(nèi)的許多自然語言任務中都顯示出強大的技術能力。
我們還開發(fā)了BERT,這是第一個深度雙向,無監(jiān)督的自然語言處理模型,僅使用純文本語料庫進行預訓練,就能使用遷移學習對各種自然語言任務進行微調(diào)。
感知
我們的感知研究解決了允許計算機理解圖像,聲音以及為圖像獲取,壓縮,處理,創(chuàng)造性表達和增強現(xiàn)實提供更強大工具的難題。
Google AI使命的一個關鍵是讓其他人能夠從我們的技術中受益,今年我們在改進作為Google API一部分的功能和構建塊方面取得了很大進展。比如通過ML Kit 在Cloud ML API和面部相關設備構建塊中實現(xiàn)視覺和視頻的改進和新功能。
MobileNetV2是谷歌的下一代移動計算機視覺模型,我們的MobileNets廣泛應用于學術界和工業(yè)界。MorphNet提出了一種有效的方法來學習深層網(wǎng)絡的結構,從而在計算資源有限的同時,改進圖像和音頻模型上的性能。
計算攝影
手機拍照性能的提升不僅僅在于物理傳感器的改進,更大部分要歸咎于計算攝影技術的發(fā)展。
我們的計算攝影技術正在與Google的Android和消費者硬件團隊密切合作,將這項研究交付給最新的Pixel和Android手機及其他設備。2014年,我們推出了HDR +,可以在軟件中對齊幀,并將它們與計算軟件結合,使圖片具有比單次曝光更高的動態(tài)范圍。這是2018年我們能夠在Pixel 2中開發(fā)Motion Photos,以及Motion Stills中開發(fā)增強現(xiàn)實模式的基礎。
今年,我們在計算攝影研究方面的主要工作之一就是創(chuàng)造一種名為Night Sight的新功能,即便在沒有閃光燈的情況下,也能讓Pixel用戶在非?;璋档膱鼍爸信某銮逦恼掌?/p>
算法和理論
在過去的一年中,我們的研究涵蓋從理論基礎到應用算法,從圖形挖掘到隱私保護計算等廣泛領域。我們在優(yōu)化方面的工作涉及從研究機器學習的持續(xù)優(yōu)化到分布式組合優(yōu)化的領域。在前一領域,我們研究用于訓練神經(jīng)網(wǎng)絡的隨機優(yōu)化算法的收斂性(其贏得了ICLR 2018)最佳論文獎),展示了流行的基于梯度的優(yōu)化方法(例如ADAM的一些變體)的問題,為新的基于梯度的優(yōu)化方法提供了堅實的基礎。
軟件系統(tǒng)
我們對軟件系統(tǒng)的大部分研究仍然與構建機器學習模型,尤其是TensorFlow有關。我們的一些新研究引入了Mesh TensorFlow,這使得用模型并行性指定大規(guī)模分布式計算變得容易。另外,我們還使用TensorFlow發(fā)布了一個可擴展的深度神經(jīng)排序庫。
另一個重要的研究方向是將ML應用于軟件系統(tǒng)的堆棧層面。在安全漏洞問題方面,我們的編譯器研究團隊將他們用于測量機器指令延遲和端口壓力的工具集成到LLVM中,從而可以做出更好的編譯決策。
我們研究了Google軟件定義網(wǎng)絡WAN,這是一個獨立的聯(lián)合查詢處理平臺,可以在許多存儲系統(tǒng)中對基于不同文件格式存儲的數(shù)據(jù)執(zhí)行SQL查詢(BigTable,Spanner, Google Spreadsheets等)
運行內(nèi)容托管等大型Web服務需要在動態(tài)環(huán)境中實現(xiàn)穩(wěn)定的負載平衡。我們開發(fā)了一致的哈希方案,對每臺服務器的最大負載提供了嚴格的可證明保證,并將其部署到Google Cloud Pub / Sub中的云客戶。
AutoML
去年,我們展示了如何使用進化算法自動發(fā)現(xiàn)最先進的神經(jīng)網(wǎng)絡架構,快速構建計算機視覺模型的AutoML。還探討了強化學習如何應用于除神經(jīng)網(wǎng)絡架構搜索之外的其他問題,表明它可以用于1)自動生成圖像變換序列,以提高各種圖像模型的準確性,以及2)找到新的符號優(yōu)化表達式,比常用的優(yōu)化更新規(guī)則更有效。
我們的另一個重點是自動發(fā)現(xiàn)計算效率高的神經(jīng)網(wǎng)絡架構,以便它們可以在自動駕駛環(huán)境中運行,這些環(huán)境對計算資源或推理時間有嚴格的限制。為此,我們認為在強化學習架構搜索的獎勵函數(shù)中將模型的準確性與其推理計算時間相結合,可以找到高度準確的模型,同時滿足特定的性能約束。我們還探索了使用ML來學習自動壓縮ML模型以獲得更少的參數(shù)并使用更少的計算資源。
TPU
TPU已經(jīng)實現(xiàn)了谷歌研究方面的突破,例如BERT(前面已討論過)。它還允許世界各地的研究人員通過開源建立谷歌研究,并尋求自己的新突破。例如,任何人都可以通過Colab免費對TPU上的BERT進行微調(diào),而TensorFlow Research Cloud讓數(shù)千名研究人員有機會從更大量的免費云TPU計算能力中受益。
在谷歌內(nèi)部,TPU還推動了Google的核心產(chǎn)品的重大改進,包括搜索,YouTube,Gmail,Google智能助理,谷歌翻譯等等。
開源軟件和數(shù)據(jù)集
我們的開源工具TensorFlow已經(jīng)被下載超過3000萬。2018年,TensorFlow有八個主要版本,并增加了快速執(zhí)行和分發(fā)策略等功能。隨著TensorFlow Lite、TensorFlow.js 和TensorFlow Probability等相關產(chǎn)品的推出,TensorFlow生態(tài)系統(tǒng)在2018年大幅增長。
除了繼續(xù)開發(fā)現(xiàn)有的開源生態(tài)系統(tǒng)之外,我們在2018年引入了一個新的框架,用于靈活和可重復強化學習的可視化工具,可以快速了解數(shù)據(jù)集的特征(無需編寫任何代碼)。
今年,我們很高興發(fā)布Google數(shù)據(jù)集搜索,這是一種從所有網(wǎng)絡中查找公共數(shù)據(jù)集的新工具。多年來,我們還策劃并發(fā)布了許多新穎的數(shù)據(jù)集。
我們發(fā)布了Open Images V4數(shù)據(jù)集,包含190萬張圖片,共計600個類別,共標記了1540萬個邊界框,這是迄今的有對象位置注釋的最大數(shù)據(jù)集。這些邊界框大部分都是由專業(yè)注釋人員手動繪制的,確保了它們的準確性和一致性。
健康
在過去幾年中,我們一直將ML應用于健康,我們在這個領域的一般方法是與醫(yī)療保健組織合作解決基礎研究問題(利用臨床專家的反饋優(yōu)化技術),然后將結果發(fā)表在同行評審的科學和臨床期刊上。一旦研究得到臨床和科學驗證,我們就會進行用戶和HCI研究,以了解我們?nèi)绾卧诂F(xiàn)實臨床環(huán)境中進行部署。2018年,我們在計算機輔助診斷上取得新的突破。
2018年,我們研發(fā)了一個可以與視網(wǎng)膜專家相媲美的深度學習模型。我們與Verily的Alphabet同事合作,在印度的Aravind Eye Hospitals和泰國衛(wèi)生部附屬的Rajavithi醫(yī)院等 10多個地點部署了這種糖尿病視網(wǎng)膜病變檢測系統(tǒng)。
我們還發(fā)表了一種機器學習模型的研究,該模型可以評估視網(wǎng)膜圖像的心血管風險,可以幫助臨床醫(yī)生更好地了解患者的健康狀況。
研究之外
2018年,我們在加納阿克拉建立了我們在非洲的第一個人工智能研究辦公室,同時擴大了在巴黎,東京和阿姆斯特丹的人工智能研究,并在普林斯頓開設了一個研究實驗室。
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )