圖片出處:Apple
作為市值超過兩萬億美元、現(xiàn)金流領(lǐng)跑業(yè)界的科技巨頭,蘋果擁有十分雄厚的學(xué)術(shù)研究后盾。不過,在人工智能和機(jī)器學(xué)習(xí)(AI & ML)學(xué)術(shù)領(lǐng)域,我們更多聽到的是來自谷歌、Facebook、微軟、亞馬遜團(tuán)隊的研究發(fā)布的成果和頻繁在各大頂會拿獎的消息,或者在自家的發(fā)布會上給 AI技術(shù)保絕對的留C位。而蘋果似乎給人一種掉隊的感覺。
也正因如此,業(yè)內(nèi)有一種說法認(rèn)為,蘋果在人工智能領(lǐng)域?qū)儆凇昂髞碚摺薄?/p>
蘋果正在修正這種錯覺。
蘋果AI觀念的改變
時至今日,AI 已經(jīng)幾乎成為每家科技公司吸引消費(fèi)者的標(biāo)配說辭,仿佛推出新產(chǎn)品時如果不提到機(jī)器學(xué)習(xí)或神經(jīng)網(wǎng)絡(luò),就像在兜售手搖計算器。盡管這種做法可能導(dǎo)致對消費(fèi)者做出過度承諾。蘋果在這一點(diǎn)上似乎并無什么事業(yè)心:既然可以用產(chǎn)品本身的便利來吸引用戶,為什么要給他們列數(shù)學(xué)公式和數(shù)據(jù)圖表?
在2017年的一次媒體采訪中,蘋果 CEO 庫克回應(yīng)了蘋果很少談及AI以及外界不看好蘋果做AI的問題。他表示:“蘋果的 AI 不被看好,是因?yàn)槲覀儾幌矚g談?wù)摬⑽磳?shí)現(xiàn)的功能”。
在那次采訪中,他列出了蘋果公司使用機(jī)器學(xué)習(xí)技術(shù)的一個清單:對照片進(jìn)行圖像識別;Apple Music 能夠從我們的音樂記錄中學(xué)習(xí)我們的音樂偏好,以此向我們推薦相應(yīng)的歌曲;甚至, iPhone 的電源管理系統(tǒng)也使用機(jī)器學(xué)習(xí)來研究我們的使用情況并做出相應(yīng)的優(yōu)化,以延長 iPhone 電池的待機(jī)時間。
其實(shí),想想蘋果在計算硬件上下的工夫——比如近期宣布由外部采購走向完全自有的A系列芯片,也可推測它要用多少AI 技術(shù)去“消耗”掉這些算力:蘋果多次公布的 iOS、iPadOS 和 macOS 更新中,有許多以機(jī)器學(xué)習(xí)為核心的功能,例如 iPhone、iPad 和手表的實(shí)時翻譯、健康數(shù)據(jù)收集、iPad 防誤觸等功能。有些功能甚至沒有標(biāo)識用了 AI技 術(shù),但我們可以很肯定蘋果用了與之相關(guān)的技術(shù),例如iPad的手寫識別功能,它在圖像識別任務(wù)方面非常出色,特別是頗有難度的中英文字符識別。
AI成果與自家產(chǎn)品深度綁定,但又比較“藏著掖著”,無論是產(chǎn)品發(fā)布會還是開發(fā)者大會,蘋果都傾向于突出產(chǎn)品的創(chuàng)新,其次才是背后的AI技術(shù)。這是2018年之前的蘋果典型做派。
相比之下,谷歌和 Facebook 等巨頭們則是更為開放和高調(diào)的主流派,因此也吸引了更多的關(guān)注度。用庫克的話來說,他們喜歡談?wù)撨€處在“未來”當(dāng)中的東西。
比較顯著的改變出現(xiàn)在2018年底前后,這家公司開始更積極介入到學(xué)術(shù)圈,包括參加和贊助各種大會,發(fā)表預(yù)印本論文,公開的研究成果也逐漸不再局限于自家產(chǎn)品。
發(fā)生這樣變化的主要原因之一在于,那個時間段,蘋果招募了多名AI大牛人物,例如 John Giannandrea 和 Ian Goodfellow(GANs之父,蘋果的第一篇機(jī)器學(xué)習(xí)論文便是關(guān)于GANs,如下圖)。
蘋果的第一篇機(jī)器學(xué)習(xí)論文 | Apple
兩人均來自谷歌AI 團(tuán)隊,前者是谷歌的人工智能和搜索主管,加入蘋果后負(fù)責(zé)公司的人工智能戰(zhàn)略,后者是谷歌大腦的明星研究科學(xué)家,加入蘋果之后則負(fù)責(zé)機(jī)器學(xué)習(xí)小組。兩人為蘋果帶去了積極建設(shè)AI科研社區(qū)的精神。
“(2018年底)剛加入蘋果時,我去軟件部門尋找做手寫技術(shù)的機(jī)器學(xué)習(xí)團(tuán)隊,竟然沒找到,”Giannandrea在一次采訪中表示。
“我當(dāng)時就知道,蘋果在機(jī)器學(xué)習(xí)領(lǐng)域有太多應(yīng)該做的事情,但都沒有行動。在過去的2-3年里,這個現(xiàn)象發(fā)生了巨大改變,未來還會繼續(xù)?!?/p>
目前,蘋果正在人工智能領(lǐng)域發(fā)力,來提升其軟件和硬件能力,應(yīng)用的最主要產(chǎn)品是 FaceID 、 Siri 和自動駕駛技術(shù)。
與上述故事線平行進(jìn)行的另一個線索,是蘋果于2017年年中悄悄上線的官方AI博客——Apple Machine Learning Journal。
這個開設(shè)時間晚于業(yè)界大部分巨頭的AI博客,自然不能和 DeepMind AI Blog 這樣的老牌博客相提并論,但也是蘋果為提升自身公眾關(guān)注度做的努力。
真正有趣的事情還是這個博客的內(nèi)容。我們能看到蘋果正在嘗試用AI解決哪些問題,或許下一個十年最具顛覆性的應(yīng)用就藏身其中。
Apple Machine Learning Journal
蘋果AI團(tuán)隊都在做什么研究?
Apple Machine Learning Journal的“開門之作”,是重發(fā)了一遍蘋果2016年12月發(fā)布的一篇論文,內(nèi)容與蘋果AI研究的一個核心弱點(diǎn)有關(guān):缺少數(shù)據(jù)來源。
蘋果長期標(biāo)榜的商業(yè)模式是“不窺探用戶”、靠賣硬件盈利(近幾年軟硬兼顧),因而在獲取大量數(shù)據(jù)的渠道上受到了限制。這項名為“Improving the Realism of Synthetic Images”的研究,便描述了一種創(chuàng)建可用于訓(xùn)練面部識別系統(tǒng)的圖像合成方法。雖不是開創(chuàng)性的研究,但也象征著蘋果AI研究如何響應(yīng)眼前需求。
在那之后,這個博客的內(nèi)容也越來越多:從圖像到語音到自然語言處理,從深度強(qiáng)化學(xué)習(xí)到隱私計算到智能代理,Siri團(tuán)隊、手寫識別團(tuán)隊、隱私團(tuán)隊輪番登場,覆蓋的頂會也已經(jīng)囊括CVPR、ACL、Interspeech、KDD。
博客的論文數(shù)量也由2017年的9篇,發(fā)展至2020年年初至今的32篇。顯然,蘋果的AI研究輸出越來越密集。
那么,蘋果的AI團(tuán)隊都在關(guān)心哪些AI方向?
以2020年年初至今的32篇文章為樣本,18篇與語音和自然語言處理有關(guān),占比最大。其次是機(jī)器學(xué)習(xí)方法和算法相關(guān)論文,共計10篇。余下的涉獵領(lǐng)域包括計算機(jī)視覺、健康、人機(jī)交互、平臺和框架,以及知識庫和搜索,各有1-3篇不等。有的論文還會同時涉獵多個領(lǐng)域。
這些論文都是預(yù)印本,以公布科研成果為主,其中不乏“造輪子”的理論研究和機(jī)器學(xué)習(xí)新框架。另一方面,一些實(shí)用性較強(qiáng)的技術(shù)很可能已經(jīng)應(yīng)用到了蘋果產(chǎn)品中,比如 Siri 和 iOS 中。
最新的一篇是關(guān)于糖尿病的研究,被主打機(jī)器學(xué)習(xí)用于醫(yī)療健康的會議MLHC(machine learning for health care) 所接收。根據(jù)介紹,團(tuán)隊開發(fā)了一種預(yù)測1型糖尿病患者血糖的胰島素動力學(xué)模型,通過引入由機(jī)器學(xué)習(xí)序列模型驅(qū)動的動力學(xué)來擴(kuò)充現(xiàn)有的生物醫(yī)學(xué)模型。
今年的5篇有趣研究
在所有 2020 年蘋果技術(shù)團(tuán)隊發(fā)表的論文中,我們挑選了 5 篇最具有代表性和實(shí)用性的論文。
1、實(shí)時識別手寫漢字
在針對手寫漢字的研究中,蘋果 AI 團(tuán)隊利用CNN神經(jīng)網(wǎng)絡(luò)模型,打造了一個漢字識別系統(tǒng)。它可以識別多達(dá) 3 萬個手寫體漢字,在多個移動設(shè)備上實(shí)時運(yùn)行。
該任務(wù)的難點(diǎn)在于漢字書寫的獨(dú)特性。每個人的書寫習(xí)慣不同,導(dǎo)致每個字都有很多樣式,或許還與標(biāo)準(zhǔn)體存在較大差距。同時,AI 還要面對龐大的漢字詞庫,甚至還有簡繁之分。這對系統(tǒng)的運(yùn)算速度提出了很高的要求。
以書寫風(fēng)格為例。在現(xiàn)實(shí)生活中,人們習(xí)慣用簡化和連筆來提高書寫速度。但 AI 想要準(zhǔn)確識別“王和五”,“的和以”之類的十分相似的連筆寫法并不容易。更何況,它還要在不同語種之間切換,分辨用戶寫的是連筆“二”還是“Z”或“2”。
為了兼顧速度和準(zhǔn)確度,研究團(tuán)隊格外注意了訓(xùn)練數(shù)據(jù)的收集條件,書寫風(fēng)格的代表性和訓(xùn)練技巧。比如他們特意收集了“花”字的多種寫法,以訓(xùn)練模型學(xué)會區(qū)分不同的風(fēng)格:避免把草字頭錯誤地認(rèn)成十十。
圖 | 研究團(tuán)隊收集的“花”字寫法
這些字出自不同地區(qū),年齡,性別和教育背景的中國用戶。在碰到生僻字時,有的人還會寫錯筆畫順序,或者是寫出不協(xié)調(diào)的字體結(jié)構(gòu)。這些意外情況無疑增加了模型的學(xué)習(xí)難度,但也更符合實(shí)際應(yīng)用情景。
研究團(tuán)隊在MobileNetV2 CNN的基礎(chǔ)上進(jìn)行了優(yōu)化和改良。結(jié)果顯示,無論是應(yīng)對3755個常用字,還是3萬漢字詞庫,模型的準(zhǔn)確率始終穩(wěn)定在96.6%以上,而體積最大只有19MB,在移動端運(yùn)行完全不成問題。
雖然研究人員沒有提到該技術(shù)是否已經(jīng)實(shí)裝,但今年6月的WWDC上,蘋果展示了iPadOS 14的實(shí)時手寫識別功能,漢字識別出現(xiàn)在了現(xiàn)場演示中。或許其背后就用到了這篇論文中的技術(shù)。
2、Hey Siri關(guān)鍵詞觸發(fā)檢測
如前文所說,語音識別和自然語言處理是蘋果發(fā)表論文最多的領(lǐng)域,而Siri 必然是從中受益的產(chǎn)品之一。僅今年一年,就有至少3篇論文討論的技術(shù)和模型可以應(yīng)用于Siri上。
最典型的應(yīng)用場景是降低喚醒詞 Hey Siri(你好,Siri)的誤識別率。
在一篇論文中,研究團(tuán)隊為服務(wù)器端的大詞匯量連續(xù)語音識別(LVCSR)構(gòu)建了一個 RNN 神經(jīng)網(wǎng)絡(luò),用于后處理設(shè)備端發(fā)回的語音數(shù)據(jù)。目的是對其進(jìn)行二次分析,確認(rèn)用戶是否真的說出了激活詞。
理論上,我們可以直接改進(jìn) LVCSR,讓它識別語音數(shù)據(jù)的開頭是否存在激活詞。但在實(shí)際操作中,LVCSR 傾向于判定開頭存在激活詞,效果不佳。
為此,研究團(tuán)隊創(chuàng)造了一個 1500 個參數(shù)的雙向 LatticeRNN 神經(jīng)網(wǎng)絡(luò)模型,用于從統(tǒng)計角度推理關(guān)鍵詞觸發(fā)的概率,還要保證不能增加太多延遲。
該模型可以很好地補(bǔ)強(qiáng) LVCSR 不足的地方。由于信息的傳輸有特定的方向,因此在明確給出激活詞的時候,Hey 和 Siri 與執(zhí)行任務(wù)的關(guān)系更加緊密(需要用到后驗(yàn)概率),而在誤判的情況下,語音數(shù)據(jù)中各個詞匯的關(guān)系很松散。
舉個例子,當(dāng)你讓Siri查詢天氣時,Hey Siri 和后面的查詢天氣存在清晰的聯(lián)系。但如果是一段電視廣告,或者是發(fā)音相似的詞匯激活了 Siri,那么詞匯的關(guān)系大概率是隨機(jī)的,找不到太大的關(guān)聯(lián)。訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)就可以利用這點(diǎn)來判斷。
結(jié)果顯示,引入雙向LatticeRNN之后,誤觸發(fā)幾率比只用LVCSR大幅下降60%。
類似的技術(shù)也可以應(yīng)用在智能音箱上。在另一篇論文中,另一隊研究人員就采用多任務(wù)學(xué)習(xí)策略,改進(jìn)了現(xiàn)有的 biLSTM 模型,以提升智能音箱在不同環(huán)境下捕捉激活關(guān)鍵詞的準(zhǔn)確率。也許日后會在蘋果升級版HomePod 上見到。
3、預(yù)測糖尿病患者血糖變化
今年8月6日,蘋果AI發(fā)表了第一篇健康領(lǐng)域的論文,討論如何利用機(jī)器學(xué)習(xí)模型預(yù)測1型糖尿病患者的血糖水平。這有助于制定更有效的血糖控制策略和閉環(huán)治療方案。
由于身體無法產(chǎn)生足夠的胰島素,糖尿病患者必須終身依賴胰島素治療。但研究表明,胰島素的注射量最好與血糖變化水平吻合,才能最大程度上發(fā)揮作用,并且避免胰島素過多導(dǎo)致的低血糖等問題。
為了找到“恰到好處”的劑量,研究人員在現(xiàn)有的生物醫(yī)學(xué)模型基礎(chǔ)上,引入了機(jī)器學(xué)習(xí)技術(shù),構(gòu)建了一套血糖-胰島素動態(tài)模型,可以預(yù)測1型糖尿病患者的血糖變化水平,時長最多可以達(dá)到6個小時。
他們采用的深度狀態(tài)空間模型(Deep State-Space Model)可以在胰島素敏感性,時間和血糖數(shù)據(jù)等參數(shù)之間建立動態(tài)聯(lián)系。這既保證了算法的靈活性,也保證了臨床上的可解釋性。
在與 LSTM 和 ARMA 等基準(zhǔn)模型對比時,該模型的預(yù)測表現(xiàn)超出它們30%以上,而且與胰島素和碳水化合物形成的生理效應(yīng)一致。
論文中用到的血糖變化數(shù)據(jù)收集自蘋果健康套件 HealthKit ,但不清楚是不是由蘋果手表完成的。最近已有多家媒體報道,蘋果正在研發(fā)非侵入式血糖測量技術(shù),還有消息人士披露,CEO 庫克還親自佩戴了原型產(chǎn)品。
HealthKit是蘋果進(jìn)軍健康產(chǎn)業(yè)的重要基石,拓展它的能力范圍,就相當(dāng)于拓展未來的業(yè)務(wù)范疇。如果未來手表可以預(yù)測血糖水平,一定會成為很多糖尿病患者的福音。
4、利用GAN改進(jìn)虛擬鍵盤滑行輸入
虛擬鍵盤滑行輸入,是蘋果在 iOS13 新加入的功能,但其實(shí)很多第三方輸入法早就開發(fā)了相同的功能。熟練掌握后,它可以顯著提高輸入速度。不過預(yù)測滑行輸入的詞匯更為復(fù)雜,因?yàn)榛袔в懈嗟牟淮_定性。
蘋果 AI 團(tuán)隊今年4月發(fā)表了一篇論文,討論了使用基于 Bi-LSTM 的對抗生成網(wǎng)絡(luò) GAN 改進(jìn)滑行輸入預(yù)測。
這是一種十分新穎的解決思路。傳統(tǒng)方法需要大量訓(xùn)練數(shù)據(jù),而真實(shí)的滑行輸入軌跡很難收集和注釋。利用 GAN,可以模擬出更加真實(shí)的軌跡,幫助改進(jìn)滑行輸入法的預(yù)測模型。
研究團(tuán)隊首先收集了 665 名用戶的真實(shí)滑動輸入軌跡。他們的年齡在18-70歲之間,大約20%是左撇子。每人都被要求在6個不同布局和尺寸的屏幕上輸入,最終共收集5.5萬個英文單詞,平均每人畫出了3300條軌跡。
這些數(shù)據(jù)被用來訓(xùn)練GAN,同時還涉及到風(fēng)格轉(zhuǎn)移技術(shù)。結(jié)果顯示,GAN生成的滑動軌跡的確更像真實(shí)用戶的操作。
單詞“Anybody”的滑行軌跡:真實(shí)用戶軌跡(上),普通合成軌跡(左下),GAN生成軌跡(右下)
例如,在連接兩個距離較遠(yuǎn)的字母時,人類的軌跡會出現(xiàn)自然的弧度,而不是一條直線。原因可能是屏幕尺寸較小,人們有時會轉(zhuǎn)動手腕帶動手指移動。此外,在單詞結(jié)尾處,人類偶爾受慣性影響會稍微滑過一些,不會100%停留在正確的字母上。
這些小細(xì)節(jié)都被GAN捕捉到了。最終測試顯示,將GAN生成的軌跡用于訓(xùn)練預(yù)測模型后,該模型的準(zhǔn)確率最高提升了4.6%。
5、預(yù)測詞語流行度,提高語音助手準(zhǔn)確率
對于Siri之類的虛擬語音助手來說,當(dāng)用戶只給出一個名詞時,往往是最困難的時刻。缺少背景資料和動詞,不僅會讓它不知所措,還會降低識別準(zhǔn)確率,混淆發(fā)音相似的詞。
可是在日常生活中,很多人偏偏喜歡只說一個詞或者人名。通常是想查詢有關(guān)該實(shí)體的基本信息,但也帶著一絲考驗(yàn)。
蘋果AI團(tuán)隊專門研究了這種情況。在今年5月發(fā)表的論文中,他們探索了如何提升虛擬語音助手對此類問題的應(yīng)對能力。
具體來說,論文討論了三大課題:
1.能否從虛擬助手的查詢記錄中預(yù)測某個詞語或?qū)嶓w的流行度,并用預(yù)測結(jié)果改善語音識別準(zhǔn)確率?
2.添加更多的歷史數(shù)據(jù)能否改善實(shí)體流行度的預(yù)測準(zhǔn)確度?
3.不同信號(模型特征)在相互獨(dú)立的狀態(tài)下能否有好的表現(xiàn)?
針對上述課題,研究團(tuán)隊首先開發(fā)了一套框架,用于在自動語音識別系統(tǒng)(ASR)中找出經(jīng)常出現(xiàn)的詞語主體。這實(shí)際上是對歷史語音數(shù)據(jù)的的檢索,因此用到了機(jī)器學(xué)習(xí)和信息檢索技術(shù)。
圖 | 引入機(jī)器學(xué)習(xí)模型之后,錯誤率有所降低
他們使用了兩套機(jī)器學(xué)習(xí)模型:AdaBoost和前饋神經(jīng)網(wǎng)絡(luò)。模型本身并不復(fù)雜,但足以勝任該任務(wù)的分類器。
至于訓(xùn)練數(shù)據(jù),他們收集了超過30萬個不同實(shí)體名詞的語音數(shù)據(jù)。論文提到它們來自“某款美國流行的語音助手”,鑒于這是蘋果自家的研究團(tuán)隊,十有八九是來自Siri的數(shù)據(jù)。
結(jié)果顯示,無論是AdaBoost和前饋神經(jīng)網(wǎng)絡(luò),都能有效降低單詞識別錯誤率。
歷史數(shù)據(jù)越多,準(zhǔn)確率越高,但最明顯的是歷史數(shù)據(jù)時長從1周增加到2周,準(zhǔn)確率提升了20%,隨后每增加1周數(shù)據(jù),帶來的提升只有1%左右。此外,表現(xiàn)最好的模型是將所有特征集合起來,而非獨(dú)立狀態(tài)。
當(dāng)然,除了5篇論文,蘋果還有很多論文值得一讀,例如用語音數(shù)據(jù)檢測用戶情緒元素,創(chuàng)造新的問題查詢分析框架Tempura,提升智能音箱的多語種處理能力等等。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )