近日,金融科技公司信也科技(NYSE:FINV)與浙江大學(xué)合作撰寫的論文“Robust Network Enhancement from Flawed Networks”被國際頂級期刊IEEE TKDE正式收錄。
IEEE TKDE(Transaction on Knowledge and Data Engineering)是數(shù)據(jù)挖掘與知識(shí)工程領(lǐng)域最具影響力的刊物,也是被中國計(jì)算機(jī)學(xué)會(huì)(CCF) 定位為數(shù)據(jù)庫、數(shù)據(jù)挖掘和內(nèi)容檢索領(lǐng)域的A類國際期刊,屬于值得我國學(xué)者去突破的頂級刊物。
據(jù)悉,IEEE TKDE主要關(guān)注知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘、數(shù)據(jù)庫和數(shù)據(jù)建模、并行分布式數(shù)據(jù)管理系統(tǒng)、數(shù)據(jù)密集型可擴(kuò)展計(jì)算系統(tǒng)結(jié)構(gòu)、搜索引擎以及數(shù)據(jù)工程應(yīng)用等領(lǐng)域的最新研究進(jìn)展和技術(shù)。該期刊審稿過程專業(yè)嚴(yán)謹(jǐn),在數(shù)據(jù)挖掘領(lǐng)域享有很高的學(xué)術(shù)聲譽(yù)。信也科技與浙大的這篇合作論文被收錄,這既是信也科技與高校合作成效的直接體現(xiàn),也是信也科技始終致力科研斬獲的又一碩果。
著眼復(fù)雜網(wǎng)絡(luò)基礎(chǔ)數(shù)據(jù)缺陷問題
“網(wǎng)絡(luò)”或者“圖”作為一種重要的數(shù)據(jù)形態(tài),在很多領(lǐng)域中扮演著越來越重要的角色,如社交網(wǎng)絡(luò)網(wǎng)絡(luò)分析、搜索與推薦、生物化學(xué)分子結(jié)構(gòu)分析等。而在金融領(lǐng)域,將用戶、設(shè)備、公司、賬戶等作為節(jié)點(diǎn),構(gòu)建網(wǎng)絡(luò)數(shù)據(jù),并在此基礎(chǔ)上進(jìn)行反欺詐的方式也已經(jīng)帶來了實(shí)際的商業(yè)和社會(huì)價(jià)值。信也科技作為金融科技領(lǐng)域的領(lǐng)軍企業(yè)具備較高的科技能力,在業(yè)務(wù)中已實(shí)際利用復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu),結(jié)合機(jī)器學(xué)習(xí)技術(shù),快速、精準(zhǔn)識(shí)別并鎖定不良中介和欺詐團(tuán)伙,并將相關(guān)成果發(fā)表于2019年CIKM的oral論文“Understanding Default Behavior in Online Lending” 。
然而,由于采樣不完全、數(shù)據(jù)不可得、量化標(biāo)準(zhǔn)有誤差等等原因,現(xiàn)實(shí)中收集到的數(shù)據(jù)一般帶有偏差和噪聲。而復(fù)雜網(wǎng)絡(luò)數(shù)據(jù)由于關(guān)注節(jié)點(diǎn)之間的關(guān)聯(lián),更容易受到缺失和噪聲的影響,從而波及下游任務(wù),比如不良中介識(shí)別、欺詐團(tuán)隊(duì)識(shí)別等。
此次由信也科技與浙江大學(xué)楊洋副教授團(tuán)隊(duì)合作完成的論文“Robust Network Enhancement from Flawed Networks”,便旨在解決上述在復(fù)雜網(wǎng)絡(luò)領(lǐng)域中基礎(chǔ)而重要的問題:大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)中的缺陷檢測。這種網(wǎng)絡(luò)的缺陷,可能是由帶缺陷的節(jié)點(diǎn)或者帶缺陷的邊引起的,此次發(fā)表的論文專注于解決帶缺陷的邊引發(fā)的問題。期望給整個(gè)領(lǐng)域提供一種獨(dú)特視角出發(fā)的有效缺陷邊檢測算法,提升復(fù)雜網(wǎng)絡(luò)領(lǐng)域算法的噪聲魯棒性,即系統(tǒng)的健壯性。
首次提出聯(lián)合學(xué)習(xí)網(wǎng)絡(luò)缺失邊和噪聲邊
據(jù)了解,上述帶缺陷的邊可分為噪聲邊和缺失邊。噪聲邊,即為真實(shí)情況下并不存在的邊,比如用通話網(wǎng)絡(luò)來構(gòu)建社交狀況,可能因?yàn)檎`撥的電話或者一些推銷、外賣電話而加上了一些不反映社交狀況的邊;缺失邊,則是真實(shí)情況下存在,數(shù)據(jù)中卻并沒有觀測到的邊,比如以用戶之間的轉(zhuǎn)賬來構(gòu)建關(guān)系網(wǎng)絡(luò),一家銀行往往只有用戶在本行轉(zhuǎn)賬的數(shù)據(jù),而觀察不到本來存在的他行轉(zhuǎn)賬數(shù)據(jù)。
許多學(xué)者已關(guān)注到,缺陷邊的問題可能引發(fā)下游任務(wù)的誤導(dǎo)性結(jié)論,并進(jìn)行了大量的相關(guān)研究。而該篇論文的一個(gè)重要貢獻(xiàn)是充分考慮了缺失邊與噪聲邊的識(shí)別會(huì)相互影響(如圖1(c)&(d)),提出了E-Net(Enhancement Network model),一個(gè)端到端的基于圖神經(jīng)網(wǎng)絡(luò)的模型,來聯(lián)合學(xué)習(xí)噪聲邊和缺失邊。一方面,噪聲邊被識(shí)別出來并去除掉,會(huì)有利于缺失邊的預(yù)測;另一方面,缺失邊預(yù)測的目標(biāo)函數(shù)可以為噪聲邊的識(shí)別提供間接的監(jiān)督。由于在很多實(shí)際場景中都不容易獲取一條邊是否是噪聲邊的標(biāo)簽,這樣的半監(jiān)督學(xué)習(xí)框架使得模型對噪聲具有很強(qiáng)的魯棒性。
圖1:在統(tǒng)一框架內(nèi)識(shí)別缺失邊和噪聲邊的示意圖
對于大規(guī)模網(wǎng)絡(luò),使用整個(gè)網(wǎng)絡(luò)去推斷節(jié)點(diǎn)之間的關(guān)系(比如缺失邊、噪聲邊)會(huì)帶來無法承受的計(jì)算量。另一方面,使用整個(gè)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,還會(huì)導(dǎo)致模型很難外推到新加入的節(jié)點(diǎn)和邊上,從而影響應(yīng)用到實(shí)際場景。許多學(xué)者采用了子圖提取來解決這個(gè)問題,即針對任意一對關(guān)注的節(jié)點(diǎn),僅提取它們周圍子圖來推斷該節(jié)點(diǎn)對之間的關(guān)系。
論文的另一個(gè)重要貢獻(xiàn)就是提出了一種RWR(Random Walk with Restart)子圖提取方法(如圖1(b))。相較于傳統(tǒng)的子圖提取方法(如圖1(a)),RWR不再抽取固定的一跳或兩跳鄰居,從而可以(1)抽取的子圖規(guī)模不隨節(jié)點(diǎn)鄰居數(shù)爆炸;(2)既包含局部又包含全局的圖結(jié)構(gòu)。
信也科技AI團(tuán)隊(duì)負(fù)責(zé)人王春平表示:“此算法最強(qiáng)大的優(yōu)勢在于不需事先知道噪聲標(biāo)簽,就能通過缺失邊的預(yù)測來對噪聲邊進(jìn)行半監(jiān)督學(xué)習(xí),從而大大提升算法對噪聲的魯棒性。” 論文中工作的有效性已在多個(gè)實(shí)驗(yàn)中得到了驗(yàn)證。相對于不去噪的模型,對缺失邊的預(yù)測F1可以提升大約10%,相對于分步識(shí)別噪聲邊和預(yù)測缺失邊的模型,F(xiàn)1可以提升2%左右。在進(jìn)行了去噪和缺失填補(bǔ)兩方面的網(wǎng)絡(luò)增強(qiáng)以后,對下游節(jié)點(diǎn)分類問題也有很大幫助,F(xiàn)1大概提升4~5%。網(wǎng)絡(luò)增強(qiáng)已經(jīng)成為信也科技復(fù)雜網(wǎng)絡(luò)算法挖掘的一個(gè)重要環(huán)節(jié),并已逐步投入實(shí)際業(yè)務(wù)應(yīng)用,大大提升了算法的魯棒性。
目前,信也科技完備的自研技術(shù)已實(shí)現(xiàn)了對業(yè)務(wù)流程的全覆蓋,如人臉識(shí)別、多場景OCR、聲紋識(shí)別等多模態(tài)核身、增信技術(shù),語音識(shí)別、意圖識(shí)別、對話管理、語音生成等全流程智能對話機(jī)器人技術(shù),以及基于復(fù)雜網(wǎng)絡(luò)的不良中介識(shí)別和團(tuán)伙識(shí)別技術(shù)等。此外,還形成了智能投放、精準(zhǔn)營銷、核身、反欺詐、風(fēng)控決策流、Automl模型平臺(tái)和智能機(jī)器人等一系列AI產(chǎn)品。
科技領(lǐng)域累累碩果的背后,是信也科技始終著眼于科技并致力于科研的信念,亦是信也科技來自海內(nèi)外頂級高校與知名科技企業(yè)的相關(guān)研究人員以及加州理工大學(xué)、加州大學(xué)洛杉磯分校、浙江大學(xué)等高校的多名擔(dān)任科學(xué)顧問的教授的辛勞與汗水。此前,信也科技已與浙江大學(xué)共建人工智能實(shí)驗(yàn)室,并同中國人民大學(xué)建立了戰(zhàn)略伙伴關(guān)系,長期保持積極的合作。本次被IEEE TKDE收錄的論文即為校企科研合作的階段性成果之一。
今后,信也科技將繼續(xù)保持對科技研發(fā)的關(guān)注與投入,并進(jìn)一步加深與高校的科研合作,力求在相關(guān)領(lǐng)域進(jìn)行新嘗試與新突破,努力實(shí)現(xiàn)“科技,讓金融更美好”的使命。
(先睹為快:論文將刊登在下一期TKDE,Early Access電子版 )
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )