科技云報道原創(chuàng)。
過去10年,知識圖譜可謂是最接近“人工智能”的概念。業(yè)內(nèi)普遍認為,知識圖譜的概念最先是由谷歌于2012年正式提出,主要用來支撐下一代搜索和在線廣告業(yè)務。
此后,這項技術(shù)迅速火爆,被國內(nèi)外多家搜索引擎公司所采用,如:美國的微軟必應,中國的百度、搜狗等,都在短短的一年內(nèi)紛紛宣布了各自的“知識圖譜”產(chǎn)品,足以看出這項革新對整個搜索引擎界的整體影響。
但這項技術(shù)的應用并不僅拘泥于搜索引擎領(lǐng)域范圍。由于讓人工智能具備了認知能力和邏輯能力,知識圖譜進而實現(xiàn)了智能分析、智能搜索、人機交互、個性化推薦等場景應用,成為互聯(lián)網(wǎng)知識驅(qū)動的智能應用的基礎(chǔ)設施。
可以說知識圖譜與大數(shù)據(jù)和深度學習一起,成為推動互聯(lián)網(wǎng)和人工智能發(fā)展的核心驅(qū)動力之一。
然而,ChatGPT的橫空出世讓整個AI界都沸騰了。
ChatGPT帶來的震撼在于,它不用借助知識圖譜就可以很好地解決用戶對話知識問答相關(guān)的任務,具有非常強大的理解能力、流暢的對話能力和上下文的刻畫能力。
更重要的是,它將原來基于特定任務的模型變成了一個統(tǒng)一的、基于提示的、任務無關(guān)的模型,可以去嘗試解決非常復雜或困難的、人類參與很多的任務。
這也讓AI界認知產(chǎn)生了分化,有觀點認為有了ChatGPT這種大語言模型后,知識圖譜完全沒有存在的意義,甚至有的公司已經(jīng)徹底拋棄了知識圖譜路線。
那么,在大模型時代,知識圖譜真的要消亡了嗎?
知識圖譜vs大語言模型
在討論這個問題之前,先來了解一下知識圖譜和大語言模型的異同。
知識圖譜從字面上看,可以拆分為知識+圖譜,這樣就可以理解:將需要的知識數(shù)據(jù)(結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù))以圖譜的形式進行展示,這種簡單的過程也是知識圖譜的構(gòu)建過程。
知識圖譜通常包含實體、關(guān)系和屬性三個要素,例如人名、國家、語言等實體,以及人口、首都、官方語言等關(guān)系和屬性。它可以根據(jù)圖譜中定義的關(guān)系提供精確且邏輯一致的答案,因此對于信息檢索、問答和結(jié)構(gòu)化數(shù)據(jù)推理等任務特別有用。
大語言模型是基于深度學習和神經(jīng)網(wǎng)絡,像GPT-4這樣的大語言模型是在大量文本數(shù)據(jù)上進行訓練,以學習模式、上下文以及單詞和短語之間的關(guān)系。
它們可以生成類似人類的文本、回答問題、提供建議以及執(zhí)行其他自然語言任務,還可以很好地處理模棱兩可和不完整的信息,并且處理廣泛的主題。
不難發(fā)現(xiàn),兩者在知識的學習、分析、推理方面有著類似的功能,但卻各有優(yōu)劣勢。
知識圖譜通常需要手動或半自動構(gòu)建,是一種非常耗時耗人力的工作,隨著知識的不斷擴展和變化,知識圖譜也需要不斷更新;
同時,它的作用僅限于圖譜編碼中的知識范圍,這使得它在處理模棱兩可或不完整的信息時準確率較低。
但它的優(yōu)勢在于準確的知識庫,對于事實性的、專業(yè)性的知識有著非常高的準確度。
相反,專業(yè)知識在大模型訓練語料里占比非常少,這也使得ChatGPT等語言大模型生成的內(nèi)容的可靠性和真實性備受質(zhì)疑。
它無法將真實與想象、真實與虛構(gòu)分開,這種現(xiàn)象甚至促使創(chuàng)造了一個新術(shù)語:人工智能幻覺,維基百科將其定義為“人工智能的自信反應,其訓練數(shù)據(jù)似乎沒有合理性”。
同時,語言大模型需要大量的計算能力和資源來進行訓練和微調(diào),其花費的時間和成本也不容小覷。
目前,語言大模型只在通用領(lǐng)域給出了較為驚艷的表現(xiàn),至于在知識圖譜廣泛應用的垂直領(lǐng)域,語言大模型暫時未顯示出領(lǐng)先的一面。
知識圖譜退場為時尚早
正因為語言大模型暫時還無法解決事實準確性、可信度、可追溯等問題,知識圖譜的存在就非常有意義。
知識圖譜或者類似的知識庫、知識引擎,能夠為大模型提供準確的知識,它可以被用來通知、聚焦、過濾和控制生成式人工智能,增強大模型響應的智能和可靠性,使其更適合關(guān)鍵任務。
當大模型真正落地到工業(yè)應用時,也需要有知識圖譜對專業(yè)領(lǐng)域知識的支撐,至少短期來看是非常需要的。
因此,我們也可以說,知識圖譜的構(gòu)建原來有各種各樣的構(gòu)建方式,現(xiàn)在又多了一種構(gòu)建方式——用大模型去輔助整個知識圖譜構(gòu)建,通過大量語料和大數(shù)據(jù)的學習,通過Prompt去進行知識的激發(fā)。
同時知識圖譜反過來也能夠去推動大模型Prompt工程里的相關(guān)工作,融入到大模型的訓練中,使得生成更可控,更準確。同時,知識圖譜也可以提供很多額外的語義信息,幫助大模型的知識推理做得更好。
所以從本質(zhì)上看,大語言模型出現(xiàn)后,并不是將知識圖譜消滅了,而是可以發(fā)揮知識圖譜和大模型這兩種技術(shù)的優(yōu)勢:在需要可控知識或可控邏輯的時候,知識圖譜會發(fā)揮更大作用;在需要更自由的交互任務理解和生成時,大模型發(fā)揮更好的作用。
結(jié)合這兩種方法的優(yōu)勢,可以產(chǎn)生更強大和有效的自然語言處理系統(tǒng)。
知識圖譜與大語言模型的結(jié)合
那么,知識圖譜如何與大語言模型相結(jié)合呢?
有意思的是,ChatGPT給出了將知識圖譜集成到大語言模型中的幾種方法:
使用知識圖譜數(shù)據(jù)進行預訓練
將知識圖譜中的知識注入到大語言模型的預訓練階段,可以幫助大模型學習實體與其屬性之間的關(guān)系??梢酝ㄟ^將知識圖譜三元組(主語、謂語、賓語)轉(zhuǎn)換為自然語言句子并將它們添加到訓練語料庫中來完成。
使用基于圖的目標進行微調(diào)
在預訓練之后,使用基于圖的目標對特定任務的模型進行微調(diào),可以幫助大模型學習使用圖中編碼的知識進行推理和推理。這可能涉及將自然語言查詢轉(zhuǎn)換為基于圖形的查詢,以及開發(fā)將基于圖形的推理與基于文本的推理相結(jié)合的方法。
例如,可以對模型進行微調(diào),以預測圖形中缺失的實體或關(guān)系,這可以提高其對底層結(jié)構(gòu)的理解。
改進實體鏈接和消除歧義
增強模型識別文本中的實體并將其鏈接到知識圖譜中相應節(jié)點的能力。這可以通過在訓練或微調(diào)期間結(jié)合高級實體鏈接和消除歧義技術(shù)來實現(xiàn)。
集成圖嵌入
圖嵌入是一種用于將圖中的節(jié)點、邊或整個子圖轉(zhuǎn)換為連續(xù)向量或低維表示的技術(shù),機器學習算法可以更輕松地處理這些向量或低維表示。
圖嵌入在知識工程的上下文中特別有用,因為它可以幫助將知識圖譜中的結(jié)構(gòu)化信息轉(zhuǎn)換為可以更容易地與機器學習算法(尤其是神經(jīng)網(wǎng)絡)集成的格式。
使用圖神經(jīng)網(wǎng)絡或其他圖表示學習方法學習,并可用于豐富模型對實體及其關(guān)系的理解。
推理時查詢知識圖譜
當模型遇到需要精確、結(jié)構(gòu)化知識的問題或任務時,可以查詢知識圖譜獲取相關(guān)信息。這可以通過將自然語言查詢轉(zhuǎn)換為基于圖形的查詢(例如,使用SPARQL),然后使用檢索到的信息來回答問題或執(zhí)行任務來完成。
知識圖譜引導生成
將大語言模型的生成能力與知識圖譜中的結(jié)構(gòu)化信息相結(jié)合,可以生成更準確、更相關(guān)的文本。例如,在生成實體的摘要或描述時,模型可以對知識圖譜中的信息進行優(yōu)先級排序,以確保事實的正確性。
混合模型
開發(fā)包含基于圖和基于神經(jīng)網(wǎng)絡的組件的混合模型,可以利用這兩種方法的優(yōu)勢。例如,圖神經(jīng)網(wǎng)絡(GNN)可用于學習圖結(jié)構(gòu)數(shù)據(jù)的潛在表示,然后可以將其與大語言模型集成以執(zhí)行自然語言處理任務。
鼓勵可解釋性和可解釋性
開發(fā)允許大語言模型基于知識圖譜為其推理和預測生成解釋的方法。這可以幫助用戶了解模型如何利用知識圖譜中的結(jié)構(gòu)化信息,并有助于調(diào)試和優(yōu)化模型。
結(jié)語
技術(shù)的浪潮總是洶涌而至,在新的技術(shù)革新來臨之際,我們更應該客觀看待新舊技術(shù)的優(yōu)劣,而不是沖動地去擁抱新技術(shù),拋棄現(xiàn)有成熟技術(shù)。
對于知識圖譜來說,大模型的出現(xiàn)并不是一個沖擊,恰恰是給了知識圖譜一個新的生長空間。當我們將大模型與自身優(yōu)勢的行業(yè)應用去深度結(jié)合,形成數(shù)據(jù)和算法的持續(xù)迭代,必將看到更好的結(jié)果持續(xù)涌現(xiàn)。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 美媒聚焦比亞迪“副業(yè)”:電子代工助力蘋果,下個大計劃瞄準AI機器人
- 微信零錢通新政策:銀行卡轉(zhuǎn)入資金提現(xiàn)免手續(xù)費引熱議
- 消息稱塔塔集團將收購和碩印度iPhone代工廠60%股份 并接管日常運營
- 蘋果揭秘自研芯片成功之道:領(lǐng)先技術(shù)與深度整合是關(guān)鍵
- 英偉達新一代Blackwell GPU面臨過熱挑戰(zhàn),交付延期引發(fā)市場關(guān)注
- 馬斯克能否成為 AI 部部長?硅谷與白宮的聯(lián)系日益緊密
- 余承東:Mate70將在26號發(fā)布,意外泄露引發(fā)關(guān)注
- 無人機“黑科技”亮相航展:全球首臺低空重力測量系統(tǒng)引關(guān)注
- 賽力斯發(fā)布聲明:未與任何伙伴聯(lián)合開展人形機器人合作
- 賽力斯觸及漲停,汽車整車股盤初強勢拉升
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。