精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>
  • <span id="ixlwe"></span>

  • <abbr id="ixlwe"></abbr>

    2020 WAIC明略科技吳信東深度解讀知識(shí)圖譜的自動(dòng)構(gòu)建

    2020年7月11日,世界人工智能大會(huì)WAIC·開(kāi)發(fā)者日:開(kāi)發(fā)·開(kāi)源·社區(qū)主題論壇召開(kāi),全球有影響力的圖靈獎(jiǎng)得主、頂級(jí)技術(shù)專(zhuān)家和開(kāi)發(fā)者代表云聚一堂,對(duì)當(dāng)下人工智能前沿理論技術(shù)和開(kāi)發(fā)實(shí)踐進(jìn)行深度解讀。明略科技首席科學(xué)家、明略科學(xué)院院長(zhǎng)吳信東受邀發(fā)表主題演講,分享知識(shí)圖譜自動(dòng)構(gòu)建的方法論和實(shí)踐,并宣布明略科技HAO圖譜開(kāi)放Text2KG API能力,賦能開(kāi)發(fā)者和企業(yè)級(jí)用戶。

    數(shù)據(jù)圖譜不是知識(shí)圖譜

    吳信東認(rèn)為,大多數(shù)情況下,我們所說(shuō)的、所用到的圖譜并沒(méi)有后臺(tái)知識(shí),只是數(shù)據(jù)圖譜,而不是知識(shí)圖譜。知識(shí)圖譜應(yīng)該有三個(gè)組成部分,首先是概念,即圖譜的節(jié)點(diǎn)。概念跟概念之間是連接,是關(guān)系,即圖譜的邊。只有概念和關(guān)系還不夠,還需要背景知識(shí)解釋概念,和連接的語(yǔ)義。如果只有概念、關(guān)系,是數(shù)據(jù)圖譜,而不是具有背景知識(shí)的知識(shí)圖譜。

    從數(shù)據(jù)圖譜到知識(shí)圖譜的構(gòu)建,可分成三個(gè)階段。第一階段,人工階段。對(duì)當(dāng)前問(wèn)題充分理解,把概念、關(guān)系形成節(jié)點(diǎn)和邊,用計(jì)算機(jī)程序的方式進(jìn)行連接、溝通。第二階段,眾包構(gòu)建。當(dāng)實(shí)體太多,關(guān)系類(lèi)型非常復(fù)雜時(shí),需要涉及到群體,形成分布式的開(kāi)發(fā)環(huán)境進(jìn)行集成。第三階段,自動(dòng)構(gòu)建。自動(dòng)構(gòu)建,始于美國(guó)的華盛頓大學(xué),卡內(nèi)基梅隆大學(xué),Google的一些早期項(xiàng)目,采取計(jì)算機(jī)輔助,做自動(dòng)融合、自動(dòng)容錯(cuò)的檢測(cè)機(jī)制。

    知識(shí)圖譜的構(gòu)建,首先要有數(shù)據(jù)來(lái)源。數(shù)據(jù)類(lèi)型可分成結(jié)構(gòu)化數(shù)據(jù),例如,表格數(shù)據(jù),一個(gè)成型的數(shù)據(jù)庫(kù),關(guān)系型數(shù)據(jù)庫(kù),或者其他層次化的數(shù)據(jù);非結(jié)構(gòu)化數(shù)據(jù),包括新聞網(wǎng)頁(yè),手寫(xiě)的字段,圖片,視頻,中間可能是根據(jù)需要、場(chǎng)景采集到的數(shù)據(jù)片段;半結(jié)構(gòu)化數(shù)據(jù),例如,網(wǎng)絡(luò)文章,雖然不是完全結(jié)構(gòu)化的,但一般而言都有標(biāo)題、作者、摘要,分段落以及結(jié)束語(yǔ),所以具備一定的形式,即半結(jié)構(gòu)化數(shù)據(jù)。

    知識(shí)圖譜的構(gòu)建,要考慮到三種不同的數(shù)據(jù)類(lèi)型。其中,非結(jié)構(gòu)化數(shù)據(jù),由于語(yǔ)言、描述形式呈現(xiàn)了多樣性或靈活性,因此抽取實(shí)體、語(yǔ)義關(guān)系是知識(shí)圖譜自動(dòng)構(gòu)建面臨的挑戰(zhàn)。具體而言,信息抽取,需要判斷哪些信息的短語(yǔ)、動(dòng)詞是和知識(shí)圖譜構(gòu)建相關(guān)的。知識(shí)融合,需要把每個(gè)句子里面存儲(chǔ)的不同片段的信息,形成一個(gè)整體,所形成的描述形式用于其他的知識(shí)處理。

    無(wú)論是從信息抽取做知識(shí)融合,還是做知識(shí)處理,最核心的三部分,一是實(shí)體涉及到的名詞,二是涉及到中間的關(guān)系,三是實(shí)體和關(guān)系之間,可能有同名,有共線(Co-references),如何沖突消解。

    知識(shí)圖譜的構(gòu)建方法

    圖譜構(gòu)建主要有三大挑戰(zhàn):第一,在構(gòu)建中間可能做了一些信息搜索;第二,后臺(tái)的知識(shí)庫(kù)可能做了一些信息冗余;第三,隨著時(shí)間和空間的變化,信息要進(jìn)行更新迭代。那么,如何構(gòu)建知識(shí)圖譜?方法主要有四大類(lèi)。

    第一類(lèi)是邏輯建模,用邏輯描述所要抽取的知識(shí)圖譜包含了哪些概念、關(guān)系和背景知識(shí)。目前,大多數(shù)知識(shí)圖譜都是邏輯+概率。邏輯,是名詞跟名詞的關(guān)系。當(dāng)涉及到日常生活、社會(huì)經(jīng)濟(jì)系統(tǒng),這些名詞的關(guān)系不是確定的,所以要加上概率的描述方式。概率+邏輯,通常是用來(lái)描述知識(shí)圖譜的第一種技術(shù)手段。其中涉及到一些技術(shù)問(wèn)題,如,邏輯變量、邏輯規(guī)則,當(dāng)量非常大時(shí),使用馬爾可夫邏輯網(wǎng)對(duì)問(wèn)題進(jìn)行簡(jiǎn)化處理。對(duì)問(wèn)題求解關(guān)注度比較高的一些描述形式,把馬爾可夫邏輯網(wǎng)介入到概念衍生過(guò)程中,達(dá)到高效的知識(shí)圖譜構(gòu)建和利用。

    第二類(lèi)知識(shí)圖譜的構(gòu)建方法是隱含空間,涉及隱含變量,即有哪些背景知識(shí)來(lái)解釋文本。文本包含的社會(huì)背景、人物關(guān)系、組織結(jié)構(gòu),沒(méi)有在文本中體現(xiàn),但是要進(jìn)行了解、梳理。隱含空間分析有多種方法,第一種方法是距離模型,一個(gè)三元組,一個(gè)head,通過(guò)一個(gè)relation,推演將來(lái)tail究竟是什么。例如,我走到哪一個(gè)大樓,到了具體哪一層,中間可能涉及到隱含的變量。假設(shè)我今天的目標(biāo)是要去訪問(wèn)客戶,或者做一個(gè)項(xiàng)目答辯。根據(jù)當(dāng)前的情況,背景的隱含空間,可以映射我的目標(biāo),要到什么地方去,這就涉及到背景知識(shí)。所以隱含變量和隱變量模型,核心都是有一些變量是無(wú)法看到的,文本沒(méi)有進(jìn)行具體刻畫(huà)的隱含信息。這就涉及到神經(jīng)網(wǎng)絡(luò)經(jīng)常用到的張量模型,張量是全方位的,是三維空間的描述,用像機(jī)、二維模型刻畫(huà),有些變量、特征不容易展現(xiàn)出來(lái)。由此引出矩陣分解,一個(gè)矩陣中間可能有一個(gè)隱含矩陣,從M到N,中間讓它變成N×K的矩陣的描述形式。所以,隱含變量帶來(lái)了很多的空間和機(jī)會(huì),相對(duì)困難?,F(xiàn)在國(guó)內(nèi)用的比較多的是TransE翻譯模型,是從當(dāng)前的一個(gè)變量,翻譯到一定程度。

    第三類(lèi)知識(shí)圖譜的構(gòu)建方法是人機(jī)交互,通過(guò)人在回路,以計(jì)算機(jī)和人交互的方式,完成對(duì)信息的搜集、聚合、消解。核心是一個(gè)交互接口。人機(jī)交互的圖譜構(gòu)建,基本上有三種不同的模式。第一種模式是通過(guò)設(shè)計(jì)一個(gè)計(jì)算機(jī)程序,讓計(jì)算機(jī)程序?qū)θ祟?lèi)專(zhuān)家進(jìn)行提問(wèn),一旦把這些問(wèn)題進(jìn)行完整的回答,就把該問(wèn)題涉及到的概念和關(guān)系建立模型,生成知識(shí)圖譜。人機(jī)交互的范式里有Structured Interactive Knowledge Transfer(SIKT),即結(jié)構(gòu)化的交互知識(shí)牽引,通過(guò)計(jì)算機(jī)交互,把人腦中存在的關(guān)于問(wèn)題的描述,形成知識(shí)圖譜。面向?qū)ο?把實(shí)體里面關(guān)于知識(shí)的描述、知識(shí)的牽引進(jìn)行刻畫(huà),形成Knowledge Object的表示方法,這是第二種模式。第三種模式,是明略科技近兩年所做的一種嘗試,把人類(lèi)智能、人工智能、組織智能所涉及的概念、關(guān)系進(jìn)行描述,通過(guò)人在回路進(jìn)行問(wèn)題的刻畫(huà)。這三種模式,都涉及人機(jī)交互,也涉及一些特定的行業(yè)知識(shí)。

    第四類(lèi)知識(shí)圖譜的構(gòu)建方法是本體模型。本體模型的意思是,我們?cè)谧x一個(gè)文本的同時(shí),后臺(tái)有一個(gè)詞典,或者是有一個(gè)知識(shí)庫(kù),幫助我們理解當(dāng)前的問(wèn)題描述。國(guó)際上比較經(jīng)典、成功的是Cyc循環(huán)獲取方法,基本上有七個(gè)步驟,從問(wèn)題領(lǐng)域的界定,到創(chuàng)建實(shí)例,來(lái)形成知識(shí)圖譜。Ontology Development七步法中間也涉及本體的半自動(dòng)構(gòu)建,利用一些專(zhuān)業(yè)詞典、敘詞表,缺點(diǎn)是在復(fù)用本體的概念和關(guān)系時(shí),對(duì)當(dāng)前的問(wèn)題不一定能夠做到完全匹配。而自動(dòng)構(gòu)建則有基于語(yǔ)言規(guī)則的方法和基于機(jī)器學(xué)習(xí)的方法。基于語(yǔ)言的方法,涉及到一些語(yǔ)義的模式。基于統(tǒng)計(jì)學(xué)的機(jī)器學(xué)習(xí)方法,涉及到數(shù)據(jù)的聚類(lèi),還有一些模式數(shù)據(jù)的挖掘。

    圖譜的自動(dòng)構(gòu)建涉及兩個(gè)核心要素,第一,要有一個(gè)領(lǐng)域知識(shí)庫(kù),第二,對(duì)數(shù)據(jù)和知識(shí)庫(kù)進(jìn)行匹配時(shí),需要自動(dòng)糾錯(cuò)、自主學(xué)習(xí),因此強(qiáng)化學(xué)習(xí)和人機(jī)交互是關(guān)鍵。

    HAO圖譜的核心技術(shù)和應(yīng)用場(chǎng)景

    明略科技的HAO圖譜,基于HAO智能框架。其中“HAO”,指代的是Human intelligence,Artificial intelligence,Organizational intelligence。目前,以明略科技HAO智能理論框架為基礎(chǔ),形成了從感知到認(rèn)知,再到?jīng)Q策的三個(gè)能力階段的HAO技術(shù)體系,包括HAO感知、HAO數(shù)據(jù)一體機(jī),HAO交互、HAO圖譜、HAO模型、HAO情報(bào)、HAO預(yù)測(cè),HAO代理、HAO排序等系列基礎(chǔ)軟件模型、應(yīng)用工具和解決方案。

    在HAO智能技術(shù)環(huán)境中,實(shí)現(xiàn)從數(shù)據(jù)圖譜到HAO圖譜。數(shù)據(jù)圖譜在HAO交互技術(shù)環(huán)節(jié)完成。比如,演講現(xiàn)場(chǎng),HAO交互技術(shù)可以實(shí)時(shí)采集發(fā)言者的語(yǔ)音數(shù)據(jù),然后HAO圖譜技術(shù)可在后臺(tái)實(shí)時(shí)生成圖譜,首先把聲音翻譯成實(shí)體和關(guān)系,然后再精簡(jiǎn)、關(guān)聯(lián)。“HAO”圖譜是目前第一個(gè)從聲音直接生成圖譜的系統(tǒng)。

    HAO圖譜有三項(xiàng)關(guān)鍵技術(shù)。第一,句子級(jí)的信息抽取,生成名詞和名詞之間的關(guān)系連接以后,要理解中間哪些語(yǔ)義內(nèi)容是句子級(jí)的,再?gòu)木渥蛹?jí),生成更高層次的內(nèi)容分析。

    第二,篇章級(jí)的信息抽取。多個(gè)句子就形成一個(gè)整體描述,整體描述中涉及多個(gè)概念、關(guān)系,描述一個(gè)整體現(xiàn)象,即是篇章級(jí)的信息抽取。

    第三,動(dòng)態(tài)和靜態(tài)的知識(shí)表示。從不同的篇章中間做話題演化時(shí),隨著社會(huì)、經(jīng)濟(jì)和當(dāng)前討論熱點(diǎn)的變化,話題關(guān)注點(diǎn)可能發(fā)生遷移,因此話題目錄要做一些變化,當(dāng)進(jìn)行知識(shí)圖譜構(gòu)建抽取事件時(shí),要考慮隨著時(shí)間和空間的變化而變化,進(jìn)行動(dòng)態(tài)和靜態(tài)的知識(shí)圖譜的表示。

    目前,HAO圖譜已在公共安全、數(shù)字城市、金融、工業(yè)、廣告營(yíng)銷(xiāo)等多個(gè)場(chǎng)景中落地。

    在輿情分析和個(gè)性化營(yíng)銷(xiāo)場(chǎng)景中,基于知識(shí)圖譜,可以把用戶產(chǎn)生的評(píng)論,與品牌相結(jié)合,去看用戶的輿情走勢(shì),然后將結(jié)果整合到BI系統(tǒng),為運(yùn)營(yíng)人員提供用戶需求洞察,同時(shí),在此基礎(chǔ)之上進(jìn)行千人千面的個(gè)性化廣告生成和智能商品推薦。

    在智能導(dǎo)購(gòu)場(chǎng)景中,在尊重和保護(hù)用戶隱私和數(shù)據(jù)安全的前提下,把銷(xiāo)售溝通話術(shù),經(jīng)過(guò)語(yǔ)音轉(zhuǎn)成文本,進(jìn)行話題分類(lèi),形成話題轉(zhuǎn)移的知識(shí)圖譜,計(jì)算出話題之間轉(zhuǎn)移的概率,幫助銷(xiāo)售人員復(fù)盤(pán),分析流單的主要環(huán)節(jié),改善話題轉(zhuǎn)移和引導(dǎo),提高成單率。

    HAO圖譜技術(shù)模塊,依托明略科技新一代人工智能國(guó)家開(kāi)放創(chuàng)新平臺(tái),已于2020年7月11日正式對(duì)外開(kāi)放Text2KG API,賦能更多開(kāi)發(fā)者和企業(yè)級(jí)用戶,基于明略科技知識(shí)圖譜的底層技術(shù),更高效地探索更多行業(yè)細(xì)分場(chǎng)景。

    (免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
    任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )