2019 年 5 月 26 日,得到 App 正式上線 3 周年,得到 App 通過(guò) 16 場(chǎng)主題演講完整公開(kāi)了得到團(tuán)隊(duì)從事知識(shí)服務(wù) 3 年來(lái)的工作心法。在當(dāng)天的演講中,得到 App 首席數(shù)據(jù)科學(xué)家楊溥解釋了為什么知識(shí)服務(wù)要以程序員為本。他首次公開(kāi)了「得到大腦」計(jì)劃,并表示「得到大腦」要做的核心就是利用人工智能技術(shù),為用戶(hù)建立某個(gè)領(lǐng)域的知識(shí)圖譜。
本文為楊溥在當(dāng)天的演講內(nèi)容。
大家好,我叫楊溥,我是得到的首席數(shù)據(jù)科學(xué)家。在過(guò)去十年的時(shí)間里,我一直在做和人工智能相關(guān)的事情。
大家都知道,得到是一家知識(shí)服務(wù)公司,做課程、做電子書(shū)、做跨年演講。去年呢,我們的創(chuàng)始人提了一個(gè)夢(mèng)想,要建立一所為終身學(xué)習(xí)者服務(wù)的通識(shí)教育大學(xué)。然后呢,這個(gè)任務(wù)就交給了我們。
你可能要問(wèn),為什么建學(xué)校這件事,不是交給老師,也不是交給班主任,而是交給了我們程序員呢?這是因?yàn)闅v史上的每一次知識(shí)大爆炸,都是靠背后的工程師來(lái)搞定的,就像蔡倫造紙,古騰堡發(fā)明印刷術(shù),他們給全世界帶來(lái)了知識(shí)。所以我現(xiàn)在的工作,就是要用我們這一代的技術(shù),去解決未來(lái)的學(xué)習(xí)問(wèn)題。
顯然,這一代的技術(shù),必然離不開(kāi)人工智能的支持。說(shuō)到人工智能,我們生活中已經(jīng)隨處可見(jiàn)了,但是大家有沒(méi)有發(fā)現(xiàn)一些問(wèn)題。比如,我打開(kāi)外賣(mài)平臺(tái)點(diǎn)餐,系統(tǒng)在首頁(yè)上給我推薦了日餐,但事實(shí)上,我已經(jīng)連續(xù)吃了5天的日餐了;再比如,我打開(kāi)電商平臺(tái)購(gòu)買(mǎi)了一件運(yùn)動(dòng)服,系統(tǒng)仍然會(huì)不停的給我推薦各種不同品牌的運(yùn)動(dòng)服,而實(shí)際上,為了下定決心去運(yùn)動(dòng),我已經(jīng)購(gòu)買(mǎi)了6件運(yùn)動(dòng)服了。
這就是現(xiàn)在很多智能推薦系統(tǒng)和內(nèi)容平臺(tái)的做法,它在根據(jù)我過(guò)往的行為,預(yù)測(cè)我的喜好,并不停的給我推薦類(lèi)似的商品和內(nèi)容。作為一個(gè)從業(yè)者,我會(huì)問(wèn)自己:“得到也要這樣做么?”
如果一個(gè)用戶(hù)在得到上,已經(jīng)學(xué)習(xí)了長(zhǎng)時(shí)間的《薛兆豐經(jīng)濟(jì)學(xué)》,我們還應(yīng)該反復(fù)的給他推薦經(jīng)濟(jì)學(xué)的內(nèi)容嗎?按照這種邏輯,他的首頁(yè),可能永遠(yuǎn)只會(huì)是這塊內(nèi)容了。
所以,類(lèi)似這樣的人工智能方法,在學(xué)習(xí)領(lǐng)域并不能滿(mǎn)足需求。特別是得到用戶(hù),是一群對(duì)未知有著強(qiáng)烈好奇心的人,他們的好奇心會(huì)驅(qū)使他們學(xué)習(xí)不一樣的內(nèi)容。所以,得到面臨的挑戰(zhàn),是全新的。
今天,我想給大家分享的是一個(gè)內(nèi)部稱(chēng)做“得到大腦”的項(xiàng)目。在上臺(tái)之前,我問(wèn)過(guò)公司的法務(wù),這個(gè)項(xiàng)目可以披露嗎?他們說(shuō):反正一時(shí)半會(huì)你也做不出來(lái),隨便你。那什么是得到大腦呢?得到大腦就是期望通過(guò)技術(shù)的手段,來(lái)盡可能的改善大家的學(xué)習(xí)體驗(yàn),就像給我們的大腦,增加了一個(gè)外掛。
前段時(shí)間,我接待了一個(gè)得到的重度用戶(hù),她給我詳細(xì)的介紹了她在得到里的學(xué)習(xí)歷程。最初她是被薛兆豐的經(jīng)濟(jì)學(xué)課吸引了進(jìn)來(lái);學(xué)完經(jīng)濟(jì)學(xué)之后,就想去學(xué)金融學(xué)。學(xué)金融學(xué)的時(shí)候,當(dāng)看到非理性的股市時(shí),就想去了解心理學(xué)對(duì)人決策的影響。之后,她又想去了解更底層的生命科學(xué),她說(shuō)她最近正在學(xué)習(xí)王立銘老師的課程,并且因?yàn)閷?duì)生命產(chǎn)生了敬畏,已經(jīng)在小本上列了下一步的計(jì)劃,那就是學(xué)習(xí)高爽老師的天文學(xué)。
你看,這個(gè)過(guò)程就有點(diǎn)像我們的學(xué)習(xí)過(guò)程,最開(kāi)始只是黑暗中的一團(tuán)小火苗,但是因?yàn)橹R(shí)之間的互相關(guān)聯(lián),從而變成了熊熊烈火,點(diǎn)燃了我們的探索之路。這也正是終身學(xué)習(xí)和傳統(tǒng)的學(xué)校學(xué)習(xí)不一樣的地方,它不是一個(gè)線性的,越來(lái)越專(zhuān)業(yè)的學(xué)習(xí),而是在不斷擴(kuò)大你的知識(shí)范圍。
當(dāng)然,剛才只是她一個(gè)人的探索路線,每個(gè)人的探索道路都會(huì)不一樣,但探索不是搜索,得到大腦的目標(biāo)不是做一個(gè)更好的搜索引擎,而是去給每個(gè)用戶(hù)都展示一個(gè),可以自由探索的知識(shí)世界,幫助用戶(hù)完成自己的探索。
長(zhǎng)期思考的人都知道,要想讓自己的認(rèn)知能力突飛猛進(jìn),很多時(shí)候不是因?yàn)槟闼鸭硕嗌傩畔?,而是在你探索的時(shí)候,有個(gè)瞬間,你突然意識(shí)到了一個(gè)從來(lái)沒(méi)有想過(guò)的維度,知識(shí)和知識(shí)之間突然產(chǎn)生了化學(xué)反應(yīng)。
所以,得到大腦第一步想要完成的,就是要借助機(jī)器的力量,給每個(gè)人配上一個(gè)學(xué)習(xí)助理,然后從各種維度,主動(dòng)的幫你將所有相關(guān)的信息整合在一起,再傳達(dá)給你。
但是,新的問(wèn)題又來(lái)了。目前,以深度學(xué)習(xí)為主的人工智能技術(shù),我們稱(chēng)作為感知智能,它還無(wú)法完成這樣的工作。接下來(lái),我們需要達(dá)到認(rèn)知智能的水平,也就是讓機(jī)器“能理解,會(huì)思考”,而知識(shí)圖譜就是認(rèn)知智能中最核心的技術(shù)。
知識(shí)圖譜這個(gè)概念,最早是在2012年由谷歌提出來(lái)的,主要用來(lái)提升谷歌的語(yǔ)義搜索服務(wù)能力。今天,當(dāng)你搜索一個(gè)問(wèn)題,比如“C羅的生日”,它給出的不僅僅是關(guān)鍵詞匹配的結(jié)果,它還會(huì)給出具體的生日日期,C羅的百科介紹,甚至還有C羅在球隊(duì)中的統(tǒng)計(jì)資料。
現(xiàn)在,當(dāng)有了知識(shí)圖譜,再結(jié)合虛擬現(xiàn)實(shí)的技術(shù),我們就可以想象出未來(lái)學(xué)習(xí)的場(chǎng)景了。比如,你想了解蘇東坡這個(gè)人。你只需要一個(gè)入口,然后,你就可以跟著他的腳步,知道他哪一年走出四川,哪一年走進(jìn)開(kāi)封,哪一年被貶黃州,哪一年寫(xiě)了《赤壁賦》;每一年遇到了什么樣的人,做了什么樣的事,寫(xiě)了什么樣的詩(shī)詞。這每一個(gè)人、每一件事、每一首詩(shī),過(guò)往的學(xué)者對(duì)它們做了什么樣的研究,寫(xiě)出了什么樣的著作。你現(xiàn)在所在的地方,和蘇東坡當(dāng)年待過(guò)的地方,相距有多遠(yuǎn)。他的遺作,藏在了你身邊的哪一座博物館里……
過(guò)程中,你突然對(duì)曾經(jīng)看不慣蘇東坡的王安石,產(chǎn)生了興趣,你可以繼續(xù)跳轉(zhuǎn)到他的視角,開(kāi)啟新的知識(shí)探索。你看,整個(gè)過(guò)程,你不是在學(xué)習(xí)蘇東坡,而是在代入蘇東坡。
好了,那這一系列的場(chǎng)景,它背后的知識(shí)圖譜是什么樣的呢?圍繞著蘇東坡,我們從時(shí)間、空間、人物、作品等各種各樣的維度,構(gòu)建了這樣的一張知識(shí)圖譜。它類(lèi)似于思維導(dǎo)圖,但是它具有更規(guī)范的層次結(jié)構(gòu)和更強(qiáng)大的知識(shí)表示能力。為了構(gòu)造知識(shí)的基本框架,知識(shí)圖譜除了包含實(shí)體之外,還需要包括概念、屬性、關(guān)系這些信息。因?yàn)槿说恼J(rèn)知過(guò)程,正是不斷用這些概念、屬性和關(guān)系去理解世界、解釋世界。
《福爾摩斯探案集》的作者亞瑟·柯南道爾有句名言:“一個(gè)邏輯學(xué)家,不需要親眼見(jiàn)過(guò)或聽(tīng)過(guò)大西洋和尼亞加拉大瀑布,他從一滴水中就能推測(cè)出它們。”
知識(shí)圖譜也是如此,它采集碎片化的信息和數(shù)據(jù),然后按照標(biāo)準(zhǔn)化的方式加以整理,再將各種看似不相關(guān),但背后有著共同聯(lián)系的信息關(guān)聯(lián)起來(lái)。
好了,確定完技術(shù)方向,下一步,我們?cè)撊绾螛?gòu)建一個(gè)面向?qū)W習(xí)者的知識(shí)圖譜呢?
首先,需要確定知識(shí)圖譜的構(gòu)建范圍。顯然,在知識(shí)服務(wù)領(lǐng)域,我們將會(huì)圍繞“通識(shí)教育”和“學(xué)科教育”,去構(gòu)建一個(gè)領(lǐng)域知識(shí)圖譜。
接下來(lái),我們需要填充知識(shí)圖譜中的內(nèi)容。主要是兩塊內(nèi)容:第一塊,是以“知識(shí)點(diǎn)”為中心的實(shí)體內(nèi)容,比如一些專(zhuān)業(yè)術(shù)語(yǔ)、歷史人物、著作等等。第二塊,就是這些知識(shí)點(diǎn)之間的關(guān)系內(nèi)容。
這些內(nèi)容需要借助大量的自然語(yǔ)言處理技術(shù),甚至輔助一定的人工手段,從海量的結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)、非結(jié)構(gòu)化的文本中挖掘出來(lái)。比如,對(duì)于知識(shí)點(diǎn)的挖掘,我們會(huì)用到“領(lǐng)域詞挖掘”、“命名實(shí)體識(shí)別”這些技術(shù)。
對(duì)于關(guān)系的挖掘,我們會(huì)用到“事件抽取”、“關(guān)系抽取”的技術(shù)。其中,“事件抽取”是從文本中抽取出重要的事件信息,比如事件發(fā)生的時(shí)間、地點(diǎn)、人物、原因等等,然后再將這些信息與知識(shí)點(diǎn)相關(guān)聯(lián)。
知識(shí)圖譜中的知識(shí),會(huì)按照前面的步驟不斷的進(jìn)行擴(kuò)充。這個(gè)過(guò)程,我們還會(huì)結(jié)合“知識(shí)融合”相關(guān)的技術(shù),用來(lái)消除歧義信息,保證只有高質(zhì)量的知識(shí)才可以進(jìn)入圖譜。當(dāng)知識(shí)達(dá)到一定量級(jí)以后,就可以開(kāi)始知識(shí)的探索之旅了。
事實(shí)上,借助“實(shí)體鏈接”的技術(shù),機(jī)器就擁有了“理解”的能力。當(dāng)你提出一個(gè)問(wèn)題,問(wèn)題中的信息就會(huì)和圖譜中的信息鏈接起來(lái)。接下來(lái),你可以在其中任意的穿梭,發(fā)現(xiàn)一個(gè)又一個(gè)有興趣的關(guān)聯(lián)。這個(gè)過(guò)程,就像是今天你喜歡的逛商場(chǎng)、打游戲。
可更多的時(shí)候,當(dāng)你面對(duì)一個(gè)新領(lǐng)域,我們是沒(méi)有明確目標(biāo)的。尤其是當(dāng)你學(xué)習(xí)的范圍越來(lái)越廣,涉及的領(lǐng)域越來(lái)越多的時(shí)候,你就越覺(jué)得自己無(wú)知,這也是學(xué)習(xí)最大的難題。
更高效的做法,不僅是要讓機(jī)器理解知識(shí),還要能夠懂你、了解你,讓你知道先學(xué)什么、后學(xué)什么。這也是為什么很多時(shí)候,當(dāng)你想要快速的學(xué)習(xí)一個(gè)新的領(lǐng)域,你會(huì)找到這個(gè)領(lǐng)域中最專(zhuān)業(yè)的朋友進(jìn)行溝通,因?yàn)樗榷畬?zhuān)業(yè)知識(shí),也懂你。
所以,得到大腦第二步想要做的事,就是著手研究,如何為學(xué)習(xí)者量身打造合適的學(xué)習(xí)路徑。
首先,我們需要去挖掘知識(shí)的脈絡(luò)結(jié)構(gòu),比如知識(shí)點(diǎn)的前后依賴(lài)關(guān)系、上下位關(guān)系、從簡(jiǎn)單到復(fù)雜的遞進(jìn)關(guān)系等等。目前我們也正在和國(guó)內(nèi)的高校團(tuán)隊(duì)進(jìn)行合作,目標(biāo)是從高質(zhì)量的圖書(shū)中挖掘出這些關(guān)系,并將這些關(guān)系按照一顆顆“知識(shí)樹(shù)”的形態(tài)來(lái)構(gòu)建。
接著,就是在這顆知識(shí)樹(shù)上,找到用戶(hù)的定位。一方面,對(duì)于老用戶(hù),我們可以根據(jù)他的歷史閱讀記錄、搜索記錄,了解他對(duì)知識(shí)點(diǎn)的掌握情況,并映射到對(duì)應(yīng)的知識(shí)樹(shù)中。另一方面,對(duì)于新用戶(hù),我們可以提供一些標(biāo)簽入口,讓用戶(hù)自己選擇一些感興趣的領(lǐng)域,然后不斷收集他的行為記錄。當(dāng)用戶(hù)了解了自己的定位以后,學(xué)習(xí)上就可以更容易的進(jìn)行取舍了。比如,哪些知識(shí)又是僅限于目前的了解就夠了的,哪些知識(shí)是必不可少的,哪些知識(shí)又是要繼續(xù)深入學(xué)習(xí)的。
所以,這就是“得到大腦”正在開(kāi)展的兩個(gè)方向。未來(lái),當(dāng)你帶著問(wèn)題來(lái)到得到,AI會(huì)為你找到問(wèn)題相關(guān)的知識(shí),并在小范圍內(nèi)呈現(xiàn)給你。當(dāng)你面對(duì)一個(gè)新的領(lǐng)域,不清楚該學(xué)習(xí)什么的時(shí)候,AI會(huì)為你推薦合適的學(xué)習(xí)路徑。
你可能要問(wèn)我,什么時(shí)候能用到這些東西,現(xiàn)在我還不能明確的告訴你。但我能明確的是,當(dāng)你用上這些功能的時(shí)候,我們已經(jīng)在探索更遠(yuǎn)的方向了。
好了,剛才的那些技術(shù)細(xì)節(jié),可能并不是很好理解,但是沒(méi)關(guān)系,實(shí)際上我想講的是:我們正在努力做的這件事,就是為了讓你的探索更自由。
謝謝大家。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長(zhǎng)
- 為什么年輕人不愛(ài)換手機(jī)了
- 柔宇科技未履行金額近億元被曝已6個(gè)月發(fā)不出工資
- 柔宇科技被曝已6個(gè)月發(fā)不出工資 公司回應(yīng)欠薪有補(bǔ)償方案
- 第六座“綠動(dòng)未來(lái)”環(huán)保公益圖書(shū)館落地貴州山區(qū)小學(xué)
- 窺見(jiàn)“新紀(jì)元”,2021元宇宙產(chǎn)業(yè)發(fā)展高峰論壇“廣州啟幕”
- 以人為本,景悅科技解讀智慧城市發(fā)展新理念
- 紐迪瑞科技/NDT賦能黑鯊4 Pro游戲手機(jī)打造全新一代屏幕壓感
- 清潔家電新老玩家市場(chǎng)定位清晰,攜手共進(jìn),核心技術(shù)決定未來(lái)
- 新思科技與芯耀輝在IP產(chǎn)品領(lǐng)域達(dá)成戰(zhàn)略合作伙伴關(guān)系
- 芯耀輝加速全球化部署,任命原Intel高管出任全球總裁
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。