文|周輝 零壹財(cái)經(jīng)
3月7日訊,近年來,隨著移動(dòng)互聯(lián)網(wǎng)的興起,各種傳統(tǒng)的業(yè)務(wù)逐漸轉(zhuǎn)至線上,互聯(lián)網(wǎng)金融,電子商務(wù)迅速發(fā)展,商家針對(duì)營(yíng)銷及交易環(huán)節(jié)的推廣活動(dòng)經(jīng)常以返利的形式進(jìn)行。由于有利可圖,此類線上推廣迅速滋生了針對(duì)返利的系統(tǒng)性的優(yōu)惠套利欺詐行為,俗稱薅羊毛。由于移動(dòng)設(shè)備的天然隱蔽性和欺詐行為的多變性,傳統(tǒng)的防范手段,比如規(guī)則系統(tǒng)等就顯得有些笨拙和捉襟見肘了,使得薅羊毛看起來仿佛防不勝防。但是正所謂魔高一尺,道高一丈。在實(shí)踐中,我們發(fā)現(xiàn),一個(gè)基于統(tǒng)計(jì)和機(jī)器學(xué)習(xí)的多層動(dòng)態(tài)風(fēng)險(xiǎn)評(píng)分體系和決策系統(tǒng)能有效地抵御“羊毛黨”的攻擊。那如何打造這樣一個(gè)系統(tǒng)呢?
首先,我們來了解下此系統(tǒng)的核心部分之一:特征工程。
特征工程,又稱特征學(xué),是學(xué)習(xí)一個(gè)特征的技術(shù)的集合,將原始數(shù)據(jù)轉(zhuǎn)換成為能夠被機(jī)器學(xué)習(xí)來有效開發(fā)的一種形式。通俗地講,特征工程對(duì)原始數(shù)據(jù)進(jìn)行加工,將其轉(zhuǎn)換為精確的,可量化的數(shù)據(jù)。
著名法國(guó)小說《小王子》中有這樣的描述:“如果你對(duì)大人們說‘我看到一幢用玫瑰色的磚蓋成的漂亮的房子,它的窗戶上有天竺葵,屋頂上還有鴿子……‘,他們想象不出來房子有多好,必須對(duì)他們說‘我看見了一幢價(jià)值十萬法郎的房子’他們才能理解房子有多好。”文中,從房屋模糊的文學(xué)性描述到“十萬法郎”就是一個(gè)特征學(xué)習(xí)的例子。
特征工程轉(zhuǎn)換后的數(shù)據(jù)能被更好的理解和運(yùn)算,方便我們從貌似渣亂無章的原始數(shù)據(jù)中找出那些可疑的異常數(shù)據(jù)。它是機(jī)器學(xué)習(xí)中很重要的一步,也許是最重要的一步。在機(jī)器學(xué)習(xí)領(lǐng)域里有一個(gè)不成文的共識(shí),數(shù)據(jù)和特征決定了機(jī)器學(xué)習(xí)的上限,而模型和算法只是逼近這個(gè)上限而已。
在反欺詐的實(shí)踐中,我們發(fā)現(xiàn)從網(wǎng)絡(luò)及設(shè)備終端、用戶行為信息、業(yè)務(wù)事件頻次,欺詐網(wǎng)絡(luò)圖譜這四大維度提取特征,并在此基礎(chǔ)上對(duì)有組織的薅羊毛行為層層篩查,對(duì)風(fēng)險(xiǎn)加以甄別,就能讓羊毛黨無所遁形。
圖二
設(shè)備終端與網(wǎng)絡(luò)
設(shè)備終端與網(wǎng)絡(luò)層面的特征是防范羊毛黨的第一道防線,為了規(guī)避篩查,或者方便適用自動(dòng)化工具,欺詐者首先選擇在終端做手腳。他們或者適用PC或服務(wù)器以腳本或模擬器冒充終端設(shè)備,或者在終端設(shè)備上,Root,越獄,打開調(diào)試模式,安裝一鍵新機(jī)軟件,按鍵精靈等等,也有的正常用戶不幸安裝了木馬程序,而淪為任人擺布的肉雞。除了終端,網(wǎng)絡(luò)也是欺詐者最常擺弄的,他們經(jīng)常適用代理,VPN,或和一些機(jī)房的網(wǎng)絡(luò)管理人員合作,分散IP,進(jìn)而冒充來自不同的地域。
為了對(duì)抗上面所提到的種種作弊行為,在實(shí)踐中,我們通常按下面的方法來構(gòu)造一個(gè)設(shè)備指紋系統(tǒng):1)根據(jù)收集到的歷史數(shù)據(jù),形成操作系統(tǒng)簽名數(shù)據(jù)庫。這個(gè)數(shù)據(jù)庫被用于判斷一個(gè)設(shè)備的操作系統(tǒng)簽名是否和聲明的操作系統(tǒng)及廠商,型號(hào)等吻合,進(jìn)而判斷設(shè)備是否是腳本程序或模擬器偽裝,是否使用了代理或VPN,是否篡改了UA等設(shè)備信息等等;2)對(duì)設(shè)備的IP來源進(jìn)行分析,看是否有可疑行為的歷史,是否來自機(jī)房,從而判斷其自動(dòng)化或作弊的可能性;3)根據(jù)設(shè)備相關(guān)的三十多個(gè)特征將設(shè)備進(jìn)行關(guān)聯(lián),賦予其唯一的身份識(shí)別符,此ID是上層特征,即用戶行為、頻次及欺詐網(wǎng)絡(luò)圖譜的基礎(chǔ)。
用戶行為信息
在堅(jiān)實(shí)的設(shè)備指紋的基礎(chǔ)上,需要在會(huì)話和賬號(hào)兩層采集和提取用戶行為信息。在會(huì)話的層面上,借助基于概率的聚類模型和模式挖掘算法(sequentialpatternmining),將用戶的行為模式,比如事件發(fā)生的次序以及事件發(fā)生的間隔時(shí)間,歸為幾類。并在此基礎(chǔ)上識(shí)別出異常行為模式。這些標(biāo)示特征為區(qū)分正常用戶和欺詐者或自動(dòng)化工具提供了重要信息;更進(jìn)一步,在賬號(hào)的層面上:首先以賬號(hào)為索引,將會(huì)話層面上提取到的行為信息特征按時(shí)間串聯(lián)起來,得到賬戶層面的異常行為標(biāo)示特征。其次根據(jù)賬號(hào)相關(guān)聯(lián)的歷史行為數(shù)據(jù),提取出用戶的偏好屬性,比如是否為僵尸賬號(hào),相鄰登錄的平均地理距離等。最后,我們將這些信息綜合起來,形成特有的用于反欺詐的用戶畫像。
當(dāng)一個(gè)賬號(hào)再次出現(xiàn)在業(yè)務(wù)中時(shí),用戶畫像中的特征就可以幫助我們?cè)u(píng)估對(duì)應(yīng)業(yè)務(wù)事件的風(fēng)險(xiǎn)。在實(shí)踐中,我們還發(fā)現(xiàn),由“羊毛黨”控制的賬號(hào),通常具有某些相似性,比如所用手機(jī)號(hào)碼都來自某個(gè)號(hào)段,用戶名都由三個(gè)小寫字母,五個(gè)大寫字母和四個(gè)數(shù)字組成。據(jù)此,我們就可以定義賬號(hào)之間的相似度。這樣即使一個(gè)賬號(hào)首次出現(xiàn),我們也可以使用用戶畫像,對(duì)其風(fēng)險(xiǎn)做一個(gè)大致的評(píng)估。
用戶畫像除了本身能直接應(yīng)用于欺詐行為的判斷外。還可作為網(wǎng)絡(luò)圖譜模型的輸入,為欺詐網(wǎng)絡(luò)的發(fā)現(xiàn)提供線索和依據(jù)。
業(yè)務(wù)事件頻次特征
典型的薅羊毛行為的特征表現(xiàn)為短時(shí)期,小欺詐額,高頻次。從業(yè)務(wù)角度上來看:由于薅羊毛的欺詐行為有別于正常用戶的行為模式,會(huì)引起業(yè)務(wù)事件在某些顆粒度的時(shí)間+空間上分布異常。從反欺詐的防范要求角度上來看:需要對(duì)異常事件能快速響應(yīng),這就要求對(duì)客戶行為做實(shí)時(shí)或者近實(shí)時(shí)的統(tǒng)計(jì)、計(jì)算。并且綜合時(shí)間序列分析,個(gè)體差異分析以及當(dāng)前趨勢(shì)分析這三方面的評(píng)估,實(shí)時(shí)并動(dòng)態(tài)地對(duì)異常頻次數(shù)做標(biāo)記。
以某互聯(lián)網(wǎng)公司一個(gè)實(shí)際的交易薅羊毛案例為例
圖三
被監(jiān)控的交易事件,隨著時(shí)間,在整體上會(huì)形成一個(gè)有規(guī)律可循的時(shí)間分布曲線。一個(gè)時(shí)間曲線,比如圖三的最上面一個(gè)小圖,其實(shí)是由三種效應(yīng)疊加起來的:
1.數(shù)據(jù)整體隨時(shí)間的趨勢(shì)效應(yīng),圖三的第二小圖;
2.數(shù)據(jù)隨時(shí)間的周期效應(yīng),圖三的第三小圖。這個(gè)其實(shí)包含兩個(gè)方面,一個(gè)是同一天各個(gè)小時(shí)間的個(gè)體差異,一個(gè)是某一小時(shí)對(duì)歷史上同一小時(shí)的慣性關(guān)系。
3.統(tǒng)計(jì)噪音效應(yīng)。(這部分?jǐn)?shù)據(jù)通常被用來做異常分析)
當(dāng)數(shù)據(jù)累積到一定量的時(shí)候,比如整體分布曲線,能很好的被ARIMA模型(也就是時(shí)間序列模型)模擬和預(yù)測(cè)。ARIMA是統(tǒng)計(jì)學(xué)中一類模型的統(tǒng)稱;ARIMA能自動(dòng)處理時(shí)間維度上的周期變化,動(dòng)態(tài)變化,噪音污染等問題。并對(duì)每個(gè)小時(shí)動(dòng)態(tài)生成一系列異常檢驗(yàn)規(guī)則。可以理解為如下的一系列規(guī)則:某一天10點(diǎn)鐘,交易200次以下為正常,200-250為輕度異常,250-350為重度異常等等。
圖四
圖四是實(shí)際的模擬效果,綠色是原始值,紅色虛線是預(yù)測(cè)值,黑線是誤差,此案例預(yù)測(cè)的效果較好。
上面這些結(jié)果都是針對(duì)整體分布曲線而言的。但是在反優(yōu)惠套利欺詐的場(chǎng)景里面,我們常常希望在某細(xì)顆粒度上制定檢測(cè)規(guī)則:比如某個(gè)地域/IP網(wǎng)段每小時(shí)交易超過多少為異常。也就是說在時(shí)間維度的基礎(chǔ)上加入空間維度。這是因?yàn)橥ǔ碚f,欺詐行為會(huì)引起在某個(gè)空間細(xì)顆粒度上,時(shí)間分布曲線異常;但不會(huì)引起整體層面上的異常,也就是說異常數(shù)據(jù)會(huì)被正常數(shù)據(jù)淹沒掉;而且,整體層面上的模型是無法區(qū)分細(xì)顆粒度上的差別。換句話說,它只能籠統(tǒng)地告訴我們,數(shù)據(jù)在某個(gè)時(shí)段出現(xiàn)了異常,但無法告訴我們?cè)谶@個(gè)時(shí)段,按空間維度分比如城市,哪些是異常的,哪些依然是正常的。
在時(shí)間維度上加入空間維度,面臨兩方面的困難:一方面,細(xì)顆粒度的維度過高,以網(wǎng)段舉例,數(shù)據(jù)中出現(xiàn)的網(wǎng)段有近十萬個(gè),分別建模成本過高;另一方面,細(xì)顆粒上的數(shù)據(jù)通常累積量不夠,難以滿足時(shí)間序列模型所需的條件。通過反復(fù)建模實(shí)踐,我們發(fā)現(xiàn)基于貝葉斯框架的生成式模型能較完美地克服上述困難,完成建模目標(biāo)。由于這類模型綜合考慮了事件的時(shí)間和空間分布,我們不妨叫它“時(shí)空動(dòng)能模型”。
圖五
圖五的兩張圖是兩個(gè)不同網(wǎng)段的交易數(shù)據(jù)分布圖。每副圖中藍(lán)色曲線是網(wǎng)段交易曲線,對(duì)應(yīng)著左邊的坐標(biāo)系。紅色曲線是整體的分布曲線,對(duì)應(yīng)著右邊的坐標(biāo)系。藍(lán)色曲線上的紅色點(diǎn)是模型得到的異常點(diǎn),而紅色曲線上的藍(lán)點(diǎn)是前述紅點(diǎn)所對(duì)應(yīng)時(shí)間上的整體分布曲線上的點(diǎn)。
圖五左圖上下對(duì)比,可以看到,時(shí)空動(dòng)能模型能在整體不異常的情況下,在細(xì)顆粒度上面找到異常點(diǎn)。
圖五左右對(duì)比,這兩張圖顯現(xiàn)的分別是不常用網(wǎng)段和常用網(wǎng)段,它們的分布曲線完全不相似。是無法用同一模型模擬的。但時(shí)空動(dòng)能模型自動(dòng)的為兩個(gè)網(wǎng)段分別建模,自動(dòng)適應(yīng)這種動(dòng)態(tài)變化。
上面的例子證明,綜合了統(tǒng)計(jì)和機(jī)器學(xué)習(xí)技術(shù)的模型能在反欺詐異常檢測(cè)中發(fā)揮巨大的作用。
欺詐網(wǎng)絡(luò)圖譜
羊毛黨經(jīng)常通過網(wǎng)絡(luò)發(fā)起組織,在一些單點(diǎn)特征上,同正常用戶一樣呈現(xiàn)出分散的特點(diǎn),使得單點(diǎn)特征防御難以奏效。但如果將用戶行為用網(wǎng)絡(luò)的形式建模展示,會(huì)發(fā)現(xiàn)在一些特殊的圖形特征上,欺詐行為明顯異于正常行為。實(shí)踐中,我們借助于圖學(xué)習(xí)(GraphLearning)的一些模型,發(fā)現(xiàn)網(wǎng)絡(luò)圖譜模型對(duì)于羊毛黨的發(fā)現(xiàn)特別有效。當(dāng)然欺詐網(wǎng)絡(luò)發(fā)現(xiàn)依賴于設(shè)備指紋以及建立在其基礎(chǔ)上的同人模型。
在上面的網(wǎng)絡(luò)圖譜里面,紅色點(diǎn)表示不同設(shè)備;綠色點(diǎn)表示不同賬號(hào);藍(lán)色點(diǎn)表示不同APP。紅色點(diǎn)和綠色點(diǎn)之間的虛線表示:該設(shè)備注冊(cè)了這個(gè)賬號(hào);藍(lán)色點(diǎn)與綠色點(diǎn)之間的虛線表示該賬號(hào)領(lǐng)取了這個(gè)APP的某些獎(jiǎng)勵(lì)。
上面的左圖是正常用戶的行為網(wǎng)絡(luò)圖譜:不同設(shè)備的行為是分散的,不一致的。而右邊是“公會(huì)式羊毛黨”的行為網(wǎng)絡(luò)圖譜。在網(wǎng)絡(luò)圖譜上,羊毛黨的設(shè)備行為會(huì)呈現(xiàn)出高度的一致性和集中性。
以上,我們對(duì)網(wǎng)絡(luò)及設(shè)備終端、用戶行為信息、業(yè)務(wù)事件頻次,欺詐網(wǎng)絡(luò)圖譜這四大維度的特征工程做了一個(gè)簡(jiǎn)單的介紹。在發(fā)欺詐實(shí)踐中,這些提取出來的特征,結(jié)合多層動(dòng)態(tài)模型,能有效地識(shí)別出高風(fēng)險(xiǎn)薅羊毛行為,幫助企業(yè)打擊“羊毛黨”。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長(zhǎng)
- 馬云現(xiàn)身支付寶20周年紀(jì)念日:AI將改變一切,但不意味著決定一切
- 萬事達(dá)卡推出反欺詐AI模型 金融科技擁抱生成式AI
- OpenAI創(chuàng)始人的世界幣懸了?高調(diào)收集虹膜數(shù)據(jù)引來歐洲監(jiān)管調(diào)查
- 華為孟晚舟最新演講:長(zhǎng)風(fēng)萬里鵬正舉,勇立潮頭智為先
- 華為全球智慧金融峰會(huì)2023在上海開幕 攜手共建數(shù)智金融未來
- 移動(dòng)支付發(fā)展超預(yù)期:2022年交易額1.3萬億美元 注冊(cè)賬戶16億
- 定位“敏捷的財(cái)務(wù)收支管理平臺(tái)”,合思品牌升級(jí)發(fā)布會(huì)上釋放了哪些信號(hào)?
- 分貝通商旅+費(fèi)控+支付一體化戰(zhàn)略發(fā)布,一個(gè)平臺(tái)管理企業(yè)所有費(fèi)用支出
- IMF經(jīng)濟(jì)學(xué)家:加密資產(chǎn)背后的技術(shù)可以改善支付,增進(jìn)公益
- 2022年加密貨幣“殺豬盤”涉案金額超20億美元 英國(guó)銀行業(yè)祭出限額措施
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。