隨著業(yè)務數(shù)據(jù)量級猛增、業(yè)務數(shù)據(jù)類型愈加多樣化、業(yè)務復雜程度的激增,傳統(tǒng)的關系型數(shù)據(jù)庫早已無法反映企業(yè)業(yè)務情況的全貌,對于分析對象之間的關系洞察也顯露出了能力瓶頸。在這樣的大背景下,企業(yè)對圖數(shù)據(jù)庫的需求應運而生。
區(qū)別于傳統(tǒng)的關系型數(shù)據(jù)庫,圖數(shù)據(jù)庫以實體為點,點與點的關聯(lián)關系為邊,對數(shù)據(jù)進行存儲。企業(yè)開始使用原生圖存儲的形式存儲多樣化的數(shù)據(jù),是希望能夠使用圖的計算形式來對實體間錯綜復雜的關系快速形成深入洞察,從而沉淀成企業(yè)智慧,進一步提升業(yè)務的智能化水平,降低現(xiàn)有高昂的人力成本,解決以往的人力決策難以跟上業(yè)務數(shù)據(jù)發(fā)展的問題。
以大數(shù)據(jù)能力為堅實底座
圖數(shù)據(jù)庫+TDH計算引擎實現(xiàn)優(yōu)異的性能表現(xiàn)
目前市面上的開源圖數(shù)據(jù)庫較適用于個人用戶,對于企業(yè)用戶而言,圖數(shù)據(jù)一般來源于已有的大數(shù)據(jù)系統(tǒng),隨著數(shù)據(jù)量的增長和業(yè)務模型逐漸復雜,開源圖數(shù)據(jù)庫既無法承受大規(guī)模圖存儲和計算,也無法融入大數(shù)據(jù)生態(tài),徒增系統(tǒng)復雜程度。
基于此痛點,星環(huán)科技自主研發(fā)了分布式圖數(shù)據(jù)庫StellarDB,以分布式的計算引擎為動力,可幫助用戶實現(xiàn)任意數(shù)據(jù)規(guī)模的圖計算,且計算能力隨節(jié)點數(shù)線性擴展,可以支撐萬億級別圖規(guī)模存儲。除了支持大規(guī)模的數(shù)據(jù)集外,StellarDB還具備深度的圖分析能力,支持10層以上的深度復雜圖遍歷。
星環(huán)圖數(shù)據(jù)庫StellarDB為大數(shù)據(jù)平臺提供了良好的兼容服務,可以快速接入已有的大數(shù)據(jù)平臺。
圖1 星環(huán)科技分布式圖數(shù)據(jù)庫StellarDB
StellarDB的查詢性能和圖算法能力已經(jīng)達到行業(yè)領先水平。本次測試采用了公開數(shù)據(jù)集twitter-2010,其點邊規(guī)模分別為四千萬和十四億。對比圖數(shù)據(jù)庫分別為:StellarDB 3.0.12,Neo4j 4.3.3,ArangoDB 3.7.11,以及JanusGraph 0.5.2。本次比較的內(nèi)容包括:數(shù)據(jù)導入測試、多度查詢測試、多度最短路徑測試,以及圖算法測試。
最終結(jié)果如圖2所示,橫坐標表示耗時的倍數(shù),以StellarDB的運行時長為基準,設定為1,柱越長代表查詢或?qū)肴蝿蘸臅r越久,無柱狀表示超過2h無結(jié)果返回或出現(xiàn)OOM報錯。
我們首先來看數(shù)據(jù)導入速度,StellarDB在面對十億邊數(shù)據(jù)量集的導入速度在15分鐘左右,其他開源數(shù)據(jù)庫的導入時間在近半小時級至半天級不等。我們接下來對2度及3度查詢進行比較,可以看到在4次查詢?nèi)蝿债斨?,StellarDB均有較好的性能表現(xiàn):2度鄰居查詢的性能分別為其他產(chǎn)品的5-20倍不等;2度最短路徑查詢甚至達到1~40倍不等;3度最短路徑查詢達到1.4倍;而在3層鄰居查詢?nèi)蝿罩校?strong>StellarDB能在亞分鐘級查詢出4.3億條結(jié)果,而ArangoDB在4項查詢?nèi)蝿罩芯瑫r。在圖算法方面,StellarDB的PageRank結(jié)果返回速度也超其他返回結(jié)果速度2倍以上。
可見,面對國外廠商Neo4j擅長的小數(shù)據(jù)量短查詢場景,StellarDB在大圖2度鄰居查詢中表現(xiàn)出了5倍的較大優(yōu)勢,并快速查詢出Neo4j無法返回的3度鄰居查詢。可見StellarDB對于海量的大圖數(shù)據(jù)集有明顯的性能優(yōu)勢,且隨著層數(shù)的增大,對多度及最短路徑的查詢優(yōu)勢愈加明顯,而其他圖數(shù)據(jù)庫往往會產(chǎn)生報錯、無法返回結(jié)果等情況。
圖2 StellarDB性能測試耗時對比圖
在使用便捷性方面,StellarDB內(nèi)置了近20種常見的圖算法,可滿足用戶各類圖分析需求,并且支持2D/3D的全景分析及展現(xiàn),利用可視化技術幫助用戶快速獲取數(shù)據(jù)基于關聯(lián)性的深度洞察。同時,StellarDB可以滿足實時圖查詢和離線算法分析的需求,無需學習特定的編程語言,只需基于主流的openCypher圖形查詢語言,即可完成復雜的查詢?nèi)蝿?。在某些金融場景,用戶甚至無需輸入圖形查詢語言,使用自然語言即可進行快速檢索。
成本方面,StellarDB采用了多種數(shù)據(jù)編碼和壓縮策略,有效降低海量圖數(shù)據(jù)對于存儲資源的需求。相較于開源圖數(shù)據(jù)庫,StellarDB可使用更少的節(jié)點實現(xiàn)更快的查詢。跑在更少的服務器資源上,可極大降低用戶的采購、運維、空間及能耗成本及開銷,以滿足企業(yè)“碳達峰”、“碳中和”的需求。
企業(yè)級功能方面,StellarDB具備完整的企業(yè)級功能,為企業(yè)客戶設計了多維度的權限控制模型,支持圖級別、標簽級別、屬性級別三層權限設置;提供了數(shù)據(jù)加密和配置掩碼規(guī)則,保障敏感數(shù)據(jù)的安全性;提供增量和全量數(shù)據(jù)備份,以及在線跨集群數(shù)據(jù)恢復,協(xié)助客戶保障集群數(shù)據(jù)完整性;提供安全認證和訪問控制,支持Kerberos和LDAP登陸和授權。
產(chǎn)品資質(zhì)方面,StellarDB具備自主知識產(chǎn)權,且已獲得圖數(shù)據(jù)庫基礎能力專項測評證書,可與國產(chǎn)的操作系統(tǒng)和硬件平臺兼容。
輔以KG等AI驅(qū)動的應用開發(fā)工具
實現(xiàn)金融風控全鏈路支撐
基于圖數(shù)據(jù)庫,用戶可以在上層開發(fā)通用或行業(yè)知識圖譜,將企業(yè)的業(yè)務規(guī)則、決策智慧沉淀下來,并賦能搜索引擎、推薦系統(tǒng)、實時風險預警等應用系統(tǒng),實現(xiàn)集團的數(shù)字化轉(zhuǎn)型。
以金融監(jiān)管機構(gòu)為例,可實現(xiàn)集團派系知識圖譜、產(chǎn)業(yè)鏈知識圖譜、擔保鏈知識圖譜、反洗錢知識圖譜等的構(gòu)建;以銀行為例,星環(huán)科技可以幫助用戶構(gòu)建企業(yè)管理關系圖譜、小微企業(yè)風險事件圖譜、社交畫像知識圖譜、供應鏈知識圖譜,從而實現(xiàn)貸后資金穿透管理和風險傳遞預估;投資圖譜方面,星環(huán)科技可幫助證券、基金、期貨企業(yè)構(gòu)建智能投研知識圖譜、FOF投研知識圖譜、大宗商品知識圖譜等,可實現(xiàn)輿情事件的實時接入、風險事件的實時預警及風險傳導的可視化。
除以上應用外,圖數(shù)據(jù)庫及知識圖譜技術也大量應用于可疑團伙發(fā)現(xiàn)、產(chǎn)品或服務的精準推薦、社交網(wǎng)絡分析、疫情溯源與防控等領域。
圖3 星環(huán)科技Sophon KG的企業(yè)知識圖譜界面
星環(huán)科技提供用戶
從點到線再到面的立體智能分析能力
星環(huán)科技為用戶串聯(lián)起了從底層的關系型數(shù)據(jù)庫、大數(shù)據(jù)平臺到中層的圖數(shù)據(jù)庫,再到上層知識圖譜應用的全棧產(chǎn)品,實現(xiàn)了從最底層獨立的“點”分析到關系的“線”分析再到事件的“面”分析,最終形成行業(yè)全面的“體”分析的全棧智能分析賦能。從點到面再到體的一站式分析工具提供,可以搭建緊密相扣的工作流鏈路,對于用戶而言,能夠大量節(jié)省開發(fā)成本和基礎算力,顯著提升分析性能。
展開來講:
(1)“點”:傳統(tǒng)數(shù)據(jù)分析是利用關系型數(shù)據(jù)庫或不含圖數(shù)據(jù)庫的OLAP大數(shù)據(jù)平臺,針對單個實體或?qū)傩赃M行統(tǒng)計分析或機器學習建模,它只能處理單個或多個獨立“點”的信息。
(2)“線”:而當用戶想基于點和點之間的關系進行多層關聯(lián)關系分析時,關系型數(shù)據(jù)庫會遇到多表join的挑戰(zhàn)而無法返回結(jié)果。此時使用分布式的圖數(shù)據(jù)庫即可在快速返回海量的大圖分析結(jié)果,實現(xiàn)對“線”的分析。
(3)“面”:當錯綜復雜的線形成一個網(wǎng)絡時,我們需要使用屬性圖、圖建模的技術來對復雜網(wǎng)絡進行分析,如提取網(wǎng)絡中的特征或模式,并固化這些模式和知識,泛化至業(yè)務系統(tǒng)當中,形成企業(yè)的知識資產(chǎn)。
(4)“體”:最后,當遇到多層次、多維度的網(wǎng)絡時,有異構(gòu)圖分析能力的知識圖譜可以幫助企業(yè)形成語義網(wǎng)絡,比方說將企業(yè)上下游、輿情信息等多源異構(gòu)的網(wǎng)絡進行整體分析,形成對某一標的的價格走勢預判,最終實現(xiàn)對“體”的分析。
圖4 星環(huán)科技從“點”到“面”的立體智能分析能力
星環(huán)科技從點至面的立體智能分析方案,其底層除支持TDH極速大數(shù)據(jù)平臺外,利用聯(lián)邦計算技術可集成多個異構(gòu)數(shù)據(jù)源、跨平臺的數(shù)據(jù)擁有方,做到在不直接進行數(shù)據(jù)交換的前提下,獲得全體數(shù)據(jù)的計算結(jié)果。此外,基于多模型的大數(shù)據(jù)技術架構(gòu),可通過8種獨立的存儲引擎支持業(yè)界主流的10種存儲模型,對于用戶來說,可對關系型數(shù)據(jù)、文本數(shù)據(jù)、地理空間數(shù)據(jù)、圖數(shù)據(jù)、時序數(shù)據(jù)等進行統(tǒng)一的存儲、查詢計算和融合分析。
我們相信,圖數(shù)據(jù)庫作為Gartner發(fā)布的2021數(shù)據(jù)分析十大技術之一,將以極大的潛能挖掘海量數(shù)據(jù)的無限價值,并輔以知識圖譜等AI驅(qū)動的開發(fā)工具,從圖計算及圖模式探索中不斷沉淀新的業(yè)務規(guī)則,實時賦能上層業(yè)務。隨著圖計算和處理技術的不斷普及,企業(yè)能通過掌握從“點”到“線”至“面”的立體智能分析能力,不斷積累知識和業(yè)務深層規(guī)律,最終構(gòu)成企業(yè)堅實的業(yè)務壁壘。
(免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權或存在不實內(nèi)容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內(nèi)容或斷開相關鏈接。 )