精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>

<abbr id="ixlwe"></abbr>

直播
榜單
7x24h快訊

極客網(wǎng) > 金融科技 >

人工智能反欺詐三部曲——特征工程

人閱讀
2017-03-07 04:20:00
相關(guān)關(guān)鍵詞

文|周輝零壹財(cái)經(jīng)

3月7日訊，近年來，隨著移動(dòng)互聯(lián)網(wǎng)的興起，各種傳統(tǒng)的業(yè)務(wù)逐漸轉(zhuǎn)至線上，互聯(lián)網(wǎng)金融，電子商務(wù)迅速發(fā)展，商家針對(duì)營(yíng)銷及交易環(huán)節(jié)的推廣活動(dòng)經(jīng)常以返利的形式進(jìn)行。由于有利可圖，此類線上推廣迅速滋生了針對(duì)返利的系統(tǒng)性的優(yōu)惠套利欺詐行為，俗稱薅羊毛。由于移動(dòng)設(shè)備的天然隱蔽性和欺詐行為的多變性，傳統(tǒng)的防范手段，比如規(guī)則系統(tǒng)等就顯得有些笨拙和捉襟見肘了，使得薅羊毛看起來仿佛防不勝防。但是正所謂魔高一尺，道高一丈。在實(shí)踐中，我們發(fā)現(xiàn)，一個(gè)基于統(tǒng)計(jì)和機(jī)器學(xué)習(xí)的多層動(dòng)態(tài)風(fēng)險(xiǎn)評(píng)分體系和決策系統(tǒng)能有效地抵御“羊毛黨”的攻擊。那如何打造這樣一個(gè)系統(tǒng)呢?

首先，我們來了解下此系統(tǒng)的核心部分之一：特征工程。

特征工程，又稱特征學(xué)，是學(xué)習(xí)一個(gè)特征的技術(shù)的集合，將原始數(shù)據(jù)轉(zhuǎn)換成為能夠被機(jī)器學(xué)習(xí)來有效開發(fā)的一種形式。通俗地講，特征工程對(duì)原始數(shù)據(jù)進(jìn)行加工，將其轉(zhuǎn)換為精確的，可量化的數(shù)據(jù)。

著名法國(guó)小說《小王子》中有這樣的描述：“如果你對(duì)大人們說‘我看到一幢用玫瑰色的磚蓋成的漂亮的房子，它的窗戶上有天竺葵，屋頂上還有鴿子……‘，他們想象不出來房子有多好，必須對(duì)他們說‘我看見了一幢價(jià)值十萬法郎的房子’他們才能理解房子有多好。”文中，從房屋模糊的文學(xué)性描述到“十萬法郎”就是一個(gè)特征學(xué)習(xí)的例子。

特征工程轉(zhuǎn)換后的數(shù)據(jù)能被更好的理解和運(yùn)算，方便我們從貌似渣亂無章的原始數(shù)據(jù)中找出那些可疑的異常數(shù)據(jù)。它是機(jī)器學(xué)習(xí)中很重要的一步，也許是最重要的一步。在機(jī)器學(xué)習(xí)領(lǐng)域里有一個(gè)不成文的共識(shí)，數(shù)據(jù)和特征決定了機(jī)器學(xué)習(xí)的上限，而模型和算法只是逼近這個(gè)上限而已。

在反欺詐的實(shí)踐中，我們發(fā)現(xiàn)從網(wǎng)絡(luò)及設(shè)備終端、用戶行為信息、業(yè)務(wù)事件頻次，欺詐網(wǎng)絡(luò)圖譜這四大維度提取特征，并在此基礎(chǔ)上對(duì)有組織的薅羊毛行為層層篩查，對(duì)風(fēng)險(xiǎn)加以甄別，就能讓羊毛黨無所遁形。

圖二

設(shè)備終端與網(wǎng)絡(luò)

設(shè)備終端與網(wǎng)絡(luò)層面的特征是防范羊毛黨的第一道防線，為了規(guī)避篩查，或者方便適用自動(dòng)化工具，欺詐者首先選擇在終端做手腳。他們或者適用PC或服務(wù)器以腳本或模擬器冒充終端設(shè)備，或者在終端設(shè)備上，Root,越獄，打開調(diào)試模式，安裝一鍵新機(jī)軟件，按鍵精靈等等，也有的正常用戶不幸安裝了木馬程序，而淪為任人擺布的肉雞。除了終端，網(wǎng)絡(luò)也是欺詐者最常擺弄的，他們經(jīng)常適用代理，VPN,或和一些機(jī)房的網(wǎng)絡(luò)管理人員合作，分散IP，進(jìn)而冒充來自不同的地域。

為了對(duì)抗上面所提到的種種作弊行為，在實(shí)踐中，我們通常按下面的方法來構(gòu)造一個(gè)設(shè)備指紋系統(tǒng)：1)根據(jù)收集到的歷史數(shù)據(jù)，形成操作系統(tǒng)簽名數(shù)據(jù)庫。這個(gè)數(shù)據(jù)庫被用于判斷一個(gè)設(shè)備的操作系統(tǒng)簽名是否和聲明的操作系統(tǒng)及廠商，型號(hào)等吻合，進(jìn)而判斷設(shè)備是否是腳本程序或模擬器偽裝，是否使用了代理或VPN，是否篡改了UA等設(shè)備信息等等;2)對(duì)設(shè)備的IP來源進(jìn)行分析，看是否有可疑行為的歷史，是否來自機(jī)房，從而判斷其自動(dòng)化或作弊的可能性;3)根據(jù)設(shè)備相關(guān)的三十多個(gè)特征將設(shè)備進(jìn)行關(guān)聯(lián)，賦予其唯一的身份識(shí)別符，此ID是上層特征，即用戶行為、頻次及欺詐網(wǎng)絡(luò)圖譜的基礎(chǔ)。

用戶行為信息

在堅(jiān)實(shí)的設(shè)備指紋的基礎(chǔ)上，需要在會(huì)話和賬號(hào)兩層采集和提取用戶行為信息。在會(huì)話的層面上，借助基于概率的聚類模型和模式挖掘算法(sequentialpatternmining)，將用戶的行為模式，比如事件發(fā)生的次序以及事件發(fā)生的間隔時(shí)間，歸為幾類。并在此基礎(chǔ)上識(shí)別出異常行為模式。這些標(biāo)示特征為區(qū)分正常用戶和欺詐者或自動(dòng)化工具提供了重要信息;更進(jìn)一步，在賬號(hào)的層面上：首先以賬號(hào)為索引，將會(huì)話層面上提取到的行為信息特征按時(shí)間串聯(lián)起來，得到賬戶層面的異常行為標(biāo)示特征。其次根據(jù)賬號(hào)相關(guān)聯(lián)的歷史行為數(shù)據(jù)，提取出用戶的偏好屬性，比如是否為僵尸賬號(hào)，相鄰登錄的平均地理距離等。最后，我們將這些信息綜合起來，形成特有的用于反欺詐的用戶畫像。

當(dāng)一個(gè)賬號(hào)再次出現(xiàn)在業(yè)務(wù)中時(shí)，用戶畫像中的特征就可以幫助我們?cè)u(píng)估對(duì)應(yīng)業(yè)務(wù)事件的風(fēng)險(xiǎn)。在實(shí)踐中，我們還發(fā)現(xiàn)，由“羊毛黨”控制的賬號(hào)，通常具有某些相似性，比如所用手機(jī)號(hào)碼都來自某個(gè)號(hào)段，用戶名都由三個(gè)小寫字母，五個(gè)大寫字母和四個(gè)數(shù)字組成。據(jù)此，我們就可以定義賬號(hào)之間的相似度。這樣即使一個(gè)賬號(hào)首次出現(xiàn)，我們也可以使用用戶畫像，對(duì)其風(fēng)險(xiǎn)做一個(gè)大致的評(píng)估。

用戶畫像除了本身能直接應(yīng)用于欺詐行為的判斷外。還可作為網(wǎng)絡(luò)圖譜模型的輸入，為欺詐網(wǎng)絡(luò)的發(fā)現(xiàn)提供線索和依據(jù)。

業(yè)務(wù)事件頻次特征

典型的薅羊毛行為的特征表現(xiàn)為短時(shí)期，小欺詐額，高頻次。從業(yè)務(wù)角度上來看：由于薅羊毛的欺詐行為有別于正常用戶的行為模式，會(huì)引起業(yè)務(wù)事件在某些顆粒度的時(shí)間+空間上分布異常。從反欺詐的防范要求角度上來看：需要對(duì)異常事件能快速響應(yīng)，這就要求對(duì)客戶行為做實(shí)時(shí)或者近實(shí)時(shí)的統(tǒng)計(jì)、計(jì)算。并且綜合時(shí)間序列分析，個(gè)體差異分析以及當(dāng)前趨勢(shì)分析這三方面的評(píng)估，實(shí)時(shí)并動(dòng)態(tài)地對(duì)異常頻次數(shù)做標(biāo)記。

以某互聯(lián)網(wǎng)公司一個(gè)實(shí)際的交易薅羊毛案例為例

圖三

被監(jiān)控的交易事件，隨著時(shí)間，在整體上會(huì)形成一個(gè)有規(guī)律可循的時(shí)間分布曲線。一個(gè)時(shí)間曲線，比如圖三的最上面一個(gè)小圖，其實(shí)是由三種效應(yīng)疊加起來的：

1.數(shù)據(jù)整體隨時(shí)間的趨勢(shì)效應(yīng)，圖三的第二小圖;

2.數(shù)據(jù)隨時(shí)間的周期效應(yīng)，圖三的第三小圖。這個(gè)其實(shí)包含兩個(gè)方面，一個(gè)是同一天各個(gè)小時(shí)間的個(gè)體差異，一個(gè)是某一小時(shí)對(duì)歷史上同一小時(shí)的慣性關(guān)系。

3.統(tǒng)計(jì)噪音效應(yīng)。(這部分?jǐn)?shù)據(jù)通常被用來做異常分析)

當(dāng)數(shù)據(jù)累積到一定量的時(shí)候，比如整體分布曲線，能很好的被ARIMA模型(也就是時(shí)間序列模型)模擬和預(yù)測(cè)。ARIMA是統(tǒng)計(jì)學(xué)中一類模型的統(tǒng)稱;ARIMA能自動(dòng)處理時(shí)間維度上的周期變化，動(dòng)態(tài)變化，噪音污染等問題。并對(duì)每個(gè)小時(shí)動(dòng)態(tài)生成一系列異常檢驗(yàn)規(guī)則。可以理解為如下的一系列規(guī)則：某一天10點(diǎn)鐘，交易200次以下為正常，200-250為輕度異常，250-350為重度異常等等。

圖四

圖四是實(shí)際的模擬效果，綠色是原始值，紅色虛線是預(yù)測(cè)值，黑線是誤差，此案例預(yù)測(cè)的效果較好。

上面這些結(jié)果都是針對(duì)整體分布曲線而言的。但是在反優(yōu)惠套利欺詐的場(chǎng)景里面，我們常常希望在某細(xì)顆粒度上制定檢測(cè)規(guī)則：比如某個(gè)地域/IP網(wǎng)段每小時(shí)交易超過多少為異常。也就是說在時(shí)間維度的基礎(chǔ)上加入空間維度。這是因?yàn)橥ǔ碚f，欺詐行為會(huì)引起在某個(gè)空間細(xì)顆粒度上，時(shí)間分布曲線異常;但不會(huì)引起整體層面上的異常，也就是說異常數(shù)據(jù)會(huì)被正常數(shù)據(jù)淹沒掉;而且，整體層面上的模型是無法區(qū)分細(xì)顆粒度上的差別。換句話說，它只能籠統(tǒng)地告訴我們，數(shù)據(jù)在某個(gè)時(shí)段出現(xiàn)了異常，但無法告訴我們?cè)谶@個(gè)時(shí)段，按空間維度分比如城市，哪些是異常的，哪些依然是正常的。

在時(shí)間維度上加入空間維度，面臨兩方面的困難：一方面，細(xì)顆粒度的維度過高，以網(wǎng)段舉例，數(shù)據(jù)中出現(xiàn)的網(wǎng)段有近十萬個(gè)，分別建模成本過高;另一方面，細(xì)顆粒上的數(shù)據(jù)通常累積量不夠，難以滿足時(shí)間序列模型所需的條件。通過反復(fù)建模實(shí)踐，我們發(fā)現(xiàn)基于貝葉斯框架的生成式模型能較完美地克服上述困難，完成建模目標(biāo)。由于這類模型綜合考慮了事件的時(shí)間和空間分布，我們不妨叫它“時(shí)空動(dòng)能模型”。

圖五

圖五的兩張圖是兩個(gè)不同網(wǎng)段的交易數(shù)據(jù)分布圖。每副圖中藍(lán)色曲線是網(wǎng)段交易曲線，對(duì)應(yīng)著左邊的坐標(biāo)系。紅色曲線是整體的分布曲線，對(duì)應(yīng)著右邊的坐標(biāo)系。藍(lán)色曲線上的紅色點(diǎn)是模型得到的異常點(diǎn)，而紅色曲線上的藍(lán)點(diǎn)是前述紅點(diǎn)所對(duì)應(yīng)時(shí)間上的整體分布曲線上的點(diǎn)。

圖五左圖上下對(duì)比，可以看到，時(shí)空動(dòng)能模型能在整體不異常的情況下，在細(xì)顆粒度上面找到異常點(diǎn)。

圖五左右對(duì)比，這兩張圖顯現(xiàn)的分別是不常用網(wǎng)段和常用網(wǎng)段，它們的分布曲線完全不相似。是無法用同一模型模擬的。但時(shí)空動(dòng)能模型自動(dòng)的為兩個(gè)網(wǎng)段分別建模，自動(dòng)適應(yīng)這種動(dòng)態(tài)變化。

上面的例子證明，綜合了統(tǒng)計(jì)和機(jī)器學(xué)習(xí)技術(shù)的模型能在反欺詐異常檢測(cè)中發(fā)揮巨大的作用。

欺詐網(wǎng)絡(luò)圖譜

羊毛黨經(jīng)常通過網(wǎng)絡(luò)發(fā)起組織，在一些單點(diǎn)特征上，同正常用戶一樣呈現(xiàn)出分散的特點(diǎn)，使得單點(diǎn)特征防御難以奏效。但如果將用戶行為用網(wǎng)絡(luò)的形式建模展示，會(huì)發(fā)現(xiàn)在一些特殊的圖形特征上，欺詐行為明顯異于正常行為。實(shí)踐中，我們借助于圖學(xué)習(xí)(GraphLearning)的一些模型，發(fā)現(xiàn)網(wǎng)絡(luò)圖譜模型對(duì)于羊毛黨的發(fā)現(xiàn)特別有效。當(dāng)然欺詐網(wǎng)絡(luò)發(fā)現(xiàn)依賴于設(shè)備指紋以及建立在其基礎(chǔ)上的同人模型。

在上面的網(wǎng)絡(luò)圖譜里面，紅色點(diǎn)表示不同設(shè)備;綠色點(diǎn)表示不同賬號(hào);藍(lán)色點(diǎn)表示不同APP。紅色點(diǎn)和綠色點(diǎn)之間的虛線表示：該設(shè)備注冊(cè)了這個(gè)賬號(hào);藍(lán)色點(diǎn)與綠色點(diǎn)之間的虛線表示該賬號(hào)領(lǐng)取了這個(gè)APP的某些獎(jiǎng)勵(lì)。

上面的左圖是正常用戶的行為網(wǎng)絡(luò)圖譜：不同設(shè)備的行為是分散的，不一致的。而右邊是“公會(huì)式羊毛黨”的行為網(wǎng)絡(luò)圖譜。在網(wǎng)絡(luò)圖譜上，羊毛黨的設(shè)備行為會(huì)呈現(xiàn)出高度的一致性和集中性。

以上，我們對(duì)網(wǎng)絡(luò)及設(shè)備終端、用戶行為信息、業(yè)務(wù)事件頻次，欺詐網(wǎng)絡(luò)圖譜這四大維度的特征工程做了一個(gè)簡(jiǎn)單的介紹。在發(fā)欺詐實(shí)踐中，這些提取出來的特征，結(jié)合多層動(dòng)態(tài)模型，能有效地識(shí)別出高風(fēng)險(xiǎn)薅羊毛行為，幫助企業(yè)打擊“羊毛黨”。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

下一篇

阿斯麥訂單“腰斬”股價(jià)暴跌16%，半導(dǎo)體產(chǎn)業(yè)寒冬來了？

阿斯麥訂單腰斬阿斯麥訂單阿斯麥股價(jià)暴跌

極客觀察

專題報(bào)道

企業(yè)專欄

簡(jiǎn)版
原版
投稿
回頂部

2017-03-07

人工智能反欺詐三部曲——特征工程

隨著移動(dòng)互聯(lián)網(wǎng)的興起，各種傳統(tǒng)的業(yè)務(wù)逐漸轉(zhuǎn)至線上，互聯(lián)網(wǎng)金融，電子商務(wù)迅速發(fā)展，商家針對(duì)營(yíng)銷及交易環(huán)節(jié)的推廣活動(dòng)經(jīng)常以返利的形式進(jìn)行。

長(zhǎng)按掃碼閱讀全文