知識圖譜重構(gòu)數(shù)據(jù)價(jià)值
通俗來講,知識圖譜就是一種以相互連接的實(shí)體和他們的屬性構(gòu)成的信息組織形式。也可以說是由一條條知識組成的一個集合,每條知識表示為一個SPO(Subject-Predicate-Object)三元組。谷歌正是利用這一方式將散落在互聯(lián)網(wǎng)上的結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化信息進(jìn)行組織,使計(jì)算機(jī)能夠理解人類的語言交流模式,實(shí)現(xiàn)智能交互。同樣,在銀行風(fēng)險(xiǎn)管理工作中,利用知識圖譜技術(shù),可以在各種數(shù)據(jù)來源的信息上疊加領(lǐng)域知識,最后輔以各種數(shù)據(jù)可視化手段,展示目標(biāo)對象的風(fēng)險(xiǎn)全景視圖,滿足風(fēng)險(xiǎn)識別、監(jiān)測等多種需要。
如圖是一個知識圖譜系統(tǒng)的基本架構(gòu):從內(nèi)外部的各類數(shù)據(jù)源獲取信息,信息抽取之后經(jīng)歷信息的融合和計(jì)算完成知識圖譜構(gòu)建。在實(shí)際使用中,可能還會涉及知識準(zhǔn)確性校驗(yàn)等工作。
圖 知識圖譜系統(tǒng)架構(gòu)
知識獲取
信息不對稱是很多風(fēng)險(xiǎn)的根源,在知識獲取階段,需要突破廣度和深度的瓶頸,盡可能做到全面、應(yīng)有盡有,滿足完整性原則。銀行內(nèi)部數(shù)據(jù)非常龐大,如何從中抽取業(yè)務(wù)場景所需的信息是知識獲取的關(guān)鍵。以信用風(fēng)險(xiǎn)為例,客戶的財(cái)務(wù)狀況、貸款記錄、交易行為等能準(zhǔn)確反映其信用狀況。這些內(nèi)部數(shù)據(jù)基本都以結(jié)構(gòu)化的形式貯存在銀行內(nèi)部的關(guān)系型數(shù)據(jù)庫中。
另外一方面,隨著整個社會電子化程度的不斷深入,能夠從外部獲取到的數(shù)據(jù)源也在逐年擴(kuò)大。比如企業(yè)的工商登記、法院的案件和執(zhí)行、各類行政和環(huán)保處罰、納稅記錄等,這些數(shù)據(jù)都以各種半結(jié)構(gòu)化或非結(jié)構(gòu)化的形式駐留在各類機(jī)構(gòu)、媒體的服務(wù)器上。銀行通過有償?shù)臄?shù)據(jù)接入或者公開渠道爬取的方式獲得這些信息。
知識融合
融合過程中需要滿足準(zhǔn)確性原則,具體操作上存在兩個維度的融合:一方面是銀行內(nèi)部數(shù)據(jù)之間;另一方面是外部數(shù)據(jù)和內(nèi)部數(shù)據(jù)之間。其根本是要解決本體的一致性認(rèn)定,一般采用數(shù)據(jù)映射技術(shù)或者實(shí)體匹配來進(jìn)行本體融合。在具體實(shí)現(xiàn)中,通過對不一致的具體問題具體分析,有助于突破知識融合的難點(diǎn)。
一個比較大的不一致根源是數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一。對于內(nèi)部數(shù)據(jù)而言,可以要求逐步統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn),以保證后續(xù)數(shù)據(jù)的一致性。但對于大量的外部數(shù)據(jù)和內(nèi)部歷史數(shù)據(jù)很難苛求,只能通過各自業(yè)務(wù)領(lǐng)域約定俗成的規(guī)則來進(jìn)行匹配。比如企業(yè)通過組織機(jī)構(gòu)代碼證,個人通過身份證號來匹配。還有一些比較復(fù)雜和耗時的,比如同名行外戶的本體識別等。
另外一個比較大的不一致來源于同一個本體在時序上的表現(xiàn)狀態(tài)差異化。比如公司更名、貸款重組等。這類不一致往往是各類風(fēng)險(xiǎn)隱患的溫床,是需要重點(diǎn)突破的地方,成功與否決定著最后知識應(yīng)用的效果。
在解決本體一致性認(rèn)定問題之后,還需要完成本體之間的顯性關(guān)系整理。這類關(guān)系整理相對容易,一般在銀行內(nèi)部以關(guān)系型數(shù)據(jù)的方式留存,采用傳統(tǒng)的ETL方式即可。從貸款的擔(dān)保中整理本體之間的擔(dān)保關(guān)系,從工商注冊登記中整理出本體之間的投資、股權(quán)、分支機(jī)構(gòu)和法人、任職等關(guān)系。但也有一些常識性的顯性關(guān)系反而不容易通過電子渠道獲得,比如配偶、兄弟等關(guān)系,這些就需要嚴(yán)控?cái)?shù)據(jù)錄入源頭、提升數(shù)據(jù)采集能力。
知識計(jì)算
本文討論的問題域是銀行風(fēng)險(xiǎn),構(gòu)建的是一個特定專業(yè)領(lǐng)域的知識圖譜,而不是一個普適性的,因此在知識計(jì)算上應(yīng)該滿足適用性原則。以風(fēng)險(xiǎn)管理領(lǐng)域知識和需求為出發(fā)點(diǎn)來進(jìn)行知識重構(gòu),本質(zhì)上是要挖掘出知識之間的關(guān)系,主要是非顯性的關(guān)系——隱性關(guān)系分析及深層次關(guān)系探索。在方法上,采用通用推理邏輯結(jié)合業(yè)務(wù)領(lǐng)域知識來發(fā)現(xiàn)隱含的知識。
利用文本分析技術(shù),完成對輿情、案件等非結(jié)構(gòu)數(shù)據(jù)的處理,構(gòu)建出隱性關(guān)系。對于深層次的關(guān)系需要針對具體的問題場景制訂模型進(jìn)行分析。在結(jié)構(gòu)上,知識圖譜以RDF圖的形式構(gòu)成,采用一些基本的圖推斷方式發(fā)現(xiàn)本體的隱含關(guān)系。同時,還可以變相地構(gòu)建時空圖,分析圖譜中實(shí)體的時空影響力,構(gòu)建概率圖模型推斷復(fù)雜問題場景中的隱藏因子等。
在資金流水問題場景中,通過名稱映射模型統(tǒng)一本體,在此基礎(chǔ)上,基于時間序列模型將獨(dú)立的交易流水匯聚成可以追溯的資金鏈路,再利用統(tǒng)計(jì)學(xué)的知識,解析出關(guān)鍵交易對手,并據(jù)此計(jì)算出本體之間的資金依賴程度。在企業(yè)控制關(guān)系問題場景中,通過圖的遍歷算法,結(jié)合業(yè)務(wù)規(guī)則,尋找出各類疑似關(guān)系。類似的還可以構(gòu)建出實(shí)際擔(dān)保關(guān)系、擔(dān)保圈、一致行動人等。
對銀行而言越來越迫切需要從集團(tuán)層面來關(guān)注企業(yè),而不是孤立地關(guān)注一個個的企業(yè)。但是在實(shí)際業(yè)務(wù)中,對于集團(tuán)的識別卻存在較大困難。一方面,傳統(tǒng)的“人盯人”方式可以做到精細(xì)化管理,但如果要覆蓋所有企業(yè)則成本高昂;另一方面,部分企業(yè)的股權(quán)結(jié)構(gòu)變化頻繁,時效性上無法獲得保障;此外,嚴(yán)重依賴于人的主觀判斷,對業(yè)務(wù)人員要求較高,容易滋生道德風(fēng)險(xiǎn)。利用知識圖譜,在知識計(jì)算過程中,通過控制溯頂和有效鏈路計(jì)算,即可有效構(gòu)建集團(tuán)關(guān)系族譜。
在這個問題場景中,根據(jù)給定的本體,在RDF圖上路由股權(quán)投資關(guān)系信息,在路由的過程中根據(jù)業(yè)務(wù)邏輯規(guī)則裁剪掉公眾持股、國資委等鏈路,即可找到符合業(yè)務(wù)需要的根節(jié)點(diǎn)。從根節(jié)點(diǎn)開始根據(jù)不同業(yè)務(wù)需求向下探索,刻畫出該集團(tuán)下所有節(jié)點(diǎn)的子樹。以此構(gòu)建整個集團(tuán)的族譜,并可直觀獲知到目標(biāo)企業(yè)的集團(tuán)地位等一系列深層次知識。
知識應(yīng)用
知識圖譜構(gòu)建完成之后,就可以輕松地應(yīng)用到全面風(fēng)險(xiǎn)管理的多個操作環(huán)節(jié)上。比如在貸款全流程中,有效控制貸款準(zhǔn)入,提升貸款決策的有效性;在審批額度時,防止多頭授信,規(guī)避關(guān)聯(lián)企業(yè)互相擔(dān)保;在貸后監(jiān)控中,監(jiān)測資金流入關(guān)聯(lián)企業(yè),參與民間借貸;在保全過程中,可以識別企業(yè)的關(guān)聯(lián)資產(chǎn),彌補(bǔ)損失。
在具體的工作中,我們將自動化構(gòu)建出來的集團(tuán)與銀行內(nèi)通過客戶經(jīng)理手工維護(hù)的集團(tuán)進(jìn)行交叉比對,梳理出一批未被納入集團(tuán)統(tǒng)一授信的企業(yè),有效達(dá)到了風(fēng)險(xiǎn)防控目的。同時通過比較計(jì)算出來的集團(tuán)族譜與歷史存量的集團(tuán)樹,可以不斷完善和校驗(yàn)知識計(jì)算的準(zhǔn)確性。兩者可以相輔相成,互相驗(yàn)證和查漏補(bǔ)缺。
除了通過技術(shù)手段直接將知識圖譜應(yīng)用到業(yè)務(wù)管理之外,還需要一套簡潔、高效、易用的人機(jī)交互接口,供各類用戶使用。從本質(zhì)上來說,谷歌搜索結(jié)果就是在提供類似的服務(wù)。簡單地應(yīng)用傳統(tǒng)的界面展示技術(shù)即可完成客戶風(fēng)險(xiǎn)的整體視圖,而對于圖的展示,則需要借助一些更友好和復(fù)雜的動態(tài)交互控件。
總結(jié)展望
大數(shù)據(jù)技術(shù)的不斷發(fā)展提升了銀行數(shù)據(jù)分析和挖掘的能力,如今普適性的知識圖譜技術(shù)已經(jīng)獲得了卓有成效的應(yīng)用,在具體專業(yè)領(lǐng)域內(nèi)的知識圖譜技術(shù)還有待進(jìn)一步完善。在具體實(shí)施上,遵循的基本路徑一致:通過知識獲取、融合來準(zhǔn)備數(shù)據(jù),通過計(jì)算實(shí)現(xiàn)價(jià)值重構(gòu),應(yīng)用于具體的場景以解決實(shí)際問題。
知識圖譜在風(fēng)險(xiǎn)領(lǐng)域的應(yīng)用有著廣闊前景。從計(jì)算機(jī)的智慧化來講,最原始的是在明確的規(guī)則下,特定的問題域內(nèi)實(shí)現(xiàn)計(jì)算。目前很多的業(yè)務(wù)監(jiān)控規(guī)則基本都是這一類型,解決的是人類重復(fù)勞動的問題。進(jìn)一步發(fā)展到語音、圖像和視頻的識別,是一種感知的智能。最終希望實(shí)現(xiàn)人工智能,則必須要實(shí)現(xiàn)認(rèn)知上的智能。要求計(jì)算機(jī)去理解、推理和解釋,需要依賴于知識圖譜??梢哉f,知識圖譜是達(dá)到最終目的地的基石。
銀行與金融科技融合的理想境界是什么?是銀行即服務(wù)。
2019年6月14日,億歐智庫研究院將在“2019丨全球新經(jīng)濟(jì)年會·金融科技峰會”上發(fā)布《2019開放銀行與金融科技發(fā)展研究報(bào)告》,深度解讀金融科技賦能開放銀行的融合與落地應(yīng)用——上海·虹橋·世貿(mào)展館邀您見證!搶票鏈接:https://www.iyiou.com/post/ad/id/792
本文已標(biāo)注來源和出處,版權(quán)歸原作者所有,如有侵權(quán),請聯(lián)系我們。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 馬云現(xiàn)身支付寶20周年紀(jì)念日:AI將改變一切,但不意味著決定一切
- 萬事達(dá)卡推出反欺詐AI模型 金融科技擁抱生成式AI
- OpenAI創(chuàng)始人的世界幣懸了?高調(diào)收集虹膜數(shù)據(jù)引來歐洲監(jiān)管調(diào)查
- 華為孟晚舟最新演講:長風(fēng)萬里鵬正舉,勇立潮頭智為先
- 華為全球智慧金融峰會2023在上海開幕 攜手共建數(shù)智金融未來
- 移動支付發(fā)展超預(yù)期:2022年交易額1.3萬億美元 注冊賬戶16億
- 定位“敏捷的財(cái)務(wù)收支管理平臺”,合思品牌升級發(fā)布會上釋放了哪些信號?
- 分貝通商旅+費(fèi)控+支付一體化戰(zhàn)略發(fā)布,一個平臺管理企業(yè)所有費(fèi)用支出
- IMF經(jīng)濟(jì)學(xué)家:加密資產(chǎn)背后的技術(shù)可以改善支付,增進(jìn)公益
- 2022年加密貨幣“殺豬盤”涉案金額超20億美元 英國銀行業(yè)祭出限額措施
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。