本文轉(zhuǎn)自BreezeDeus
總結(jié)、溫習(xí),這兩點讓人成長。而不是你走得有多快!
這句話我寫了半年了,這篇文章算是此話付諸實踐的開端吧。
本文是我對自己這幾年所接觸的技術(shù)的總結(jié),有些技術(shù)與工作直接相關(guān),有些則純屬個人興趣。具體說,本文分為兩部分,第一部分介紹佳緣用戶推薦系統(tǒng)的發(fā)展歷史。這部分的介紹很好地反映我們對這個問題的思考和理解過程。這期間我們走了很多彎路,但也正是這些彎路讓我們積累了很多婚戀交友推薦里獨特的實戰(zhàn)經(jīng)驗。第二部分主要是羅列了一些我個人這幾年接觸的比較有代表性的技術(shù),這些技術(shù)很多偏學(xué)術(shù),只對實戰(zhàn)感興趣的同學(xué)可以忽略。
佳緣用戶推薦系統(tǒng)天真的算法年:2011-2013
2011年8月我加入世紀(jì)佳緣,開始時主要負(fù)責(zé)佳緣的交友推薦系統(tǒng)優(yōu)化,后來我這個團隊也負(fù)責(zé)其他的機器學(xué)習(xí)事情,比如佳緣的網(wǎng)警系統(tǒng)(抓惡意用戶)。剛來時團隊加上我只有3個人,做的事基本集中在推薦系統(tǒng),以及對業(yè)務(wù)部門新產(chǎn)品的接口支持。當(dāng)時我自己并沒有推薦系統(tǒng)應(yīng)用于工業(yè)界的實際經(jīng)驗,所以很想當(dāng)然地就從自己了解的推薦算法開始工作了。
2011年到2013年中這段時間,我們在算法方面主要做了兩個方向的嘗試。第一個是嘗試item-based kNN算法。對這個算法的優(yōu)化嘗試體現(xiàn)在以下幾個方面:
離線計算效率的優(yōu)化:從開始的單機計算,到后來的Hadoop分布式計算。
離線計算效果的優(yōu)化:嘗試了不同的相似度計算方法,以及不同的預(yù)測產(chǎn)生方式,但效果并不明顯。
離線計算改為線上實時計算:離線的工作方式是先在線下計算好推薦結(jié)果,然后把結(jié)果存入緩存;線上需要推薦結(jié)果時直接從緩存中取即可。顯然這種方式對于緩存中沒有推薦結(jié)果的用戶無法產(chǎn)生推薦,而活躍的用戶又很容易把緩存中的所有結(jié)果都消費完。為了解決這些問題,后來我們在Dubbo上構(gòu)建了實時的Java推薦服務(wù)。
Item-based kNN算法的嘗試最開始是基于最大化佳緣用戶發(fā)信量的業(yè)務(wù)理解,但后來我們發(fā)現(xiàn)這個理解跟業(yè)務(wù)部門的需求偏差很大。比如給男性展示美女,男性的發(fā)信就會暴漲,但這樣就會導(dǎo)致少量的女性收到大部分信,而大部分女性則沒信可收。這是業(yè)務(wù)部門不愿意看到的。雖然我們嘗試在item-based kNN基礎(chǔ)上做調(diào)整來平衡其他的業(yè)務(wù)指標(biāo)(如收信人數(shù),看信人數(shù)等),但效果不理想。
第二個嘗試是學(xué)術(shù)界的可逆(Reciprocal)推薦算法1,即在考慮用戶體驗的同時也兼顧item(對佳緣來說也是人)的體驗。這個嘗試基本是失敗的,學(xué)術(shù)界發(fā)明的那些算法基本都有各種前提假設(shè),真用起來都不太靠譜。
雖然到2013年我們團隊人數(shù)上升到了六七人,但基本在推薦算法上做事的人還是只有兩個左右。
工程年:2014
從2013年底開始我逐漸意識自己對算法的理解過于學(xué)術(shù)而無法滿足業(yè)務(wù)部門的實際需求。所以從2013年底我開始從業(yè)務(wù)出發(fā)重新梳理推薦算法團隊的工作方向。相對于給用戶推薦物品的場景,佳緣的在線交友推薦有以下幾個特點:
可逆性:佳緣的物品是異性的人,他們也會有感受。所以在推薦時要考慮到雙方的感受。
資源獨占性:通常一個人在一段時間內(nèi)也就和一個人談戀愛。這與電商賣東西是差別很大的,一本相同的書可以賣幾十萬冊都可以,在佳緣這么干就不行。電商可以搞個暢銷榜讓用戶購買最暢銷的書,這其實也是很好的推薦。但對于佳緣這一招就很糟糕。
轉(zhuǎn)化鏈很長,反饋延遲:從展示到發(fā)信,再到看信和回信,過程很長,而且看信和回信又會有很長的時間延遲。另外,收益在轉(zhuǎn)化鏈的末端才能體現(xiàn)。公司的收益在看信后才能體現(xiàn)(佳緣的業(yè)務(wù)模式是收取用戶的看信費用),而用戶的收益在回信后才能真正體現(xiàn)。
佳緣業(yè)務(wù)的高復(fù)雜性,加上團隊在使用算法上經(jīng)驗不夠,讓我決定把接下來的算法優(yōu)化方向放在特征工程上,而算法就限制在最簡單的邏輯回歸(Logistic Regression)。團隊在處理特征的過程中可以積累對數(shù)據(jù)的處理經(jīng)驗,以及對業(yè)務(wù)的理解。邏輯回歸足夠簡單,解釋性好,也有很好的開源實現(xiàn)。從它開始也可以讓團隊在算法使用上積累心得。這是“戰(zhàn)術(shù)”上的第一個選擇。我們把上圖中每一步轉(zhuǎn)化作為單獨的問題分別進行優(yōu)化,這樣邏輯回歸就適用于每一步。這是“戰(zhàn)術(shù)”上的第二個選擇。
上面說的“戰(zhàn)術(shù)”,其實針對的只是推薦系統(tǒng)里的排序系統(tǒng)。當(dāng)時我對推薦系統(tǒng)整體的想法是把運營需求和用戶需求分開,然后分別對他們進行獨立優(yōu)化。具體說就是第一步以滿足運營需求為目標(biāo)獲得候選集,而第二步是根據(jù)用戶(雙方)的喜好對候選集進行排序,系統(tǒng)流程圖見下圖。這樣,在優(yōu)化用戶需求時就不需要考慮佳緣復(fù)雜的業(yè)務(wù)邏輯,可以極大地簡化問題。同樣,我們也可以比較獨立地優(yōu)化滿足運營需求的候選系統(tǒng)。這可以認(rèn)為是推薦系統(tǒng)的“戰(zhàn)略”方向。
佳緣推薦系統(tǒng)流程圖(2014)
2014年無疑是工程年。
產(chǎn)品年:2015
2014年工程年的效果還是不錯的,多個轉(zhuǎn)化模型的分別構(gòu)建和組合使用,使得業(yè)務(wù)上的各個指標(biāo)都有所提升,很多指標(biāo)的提升幅度都超過了50%。
現(xiàn)在看來,2014年的戰(zhàn)術(shù)是非常正確的。花了一年時間在特征工程上,團隊確實對業(yè)務(wù)數(shù)據(jù)的理解更深入了很多,也積累了模型優(yōu)化的一些經(jīng)驗。戰(zhàn)略上雖然大方向沒錯,卻也存在一些問題。首先,運營需求與用戶需求本來就是相關(guān)的,它們不可能完全獨立,我們在優(yōu)化一個指標(biāo)的同時很容易對另一個指標(biāo)產(chǎn)生副作用。
例如,按照上面的流程圖,第一步的候選系統(tǒng)通過考慮運營需求來產(chǎn)生候選集,然后候選集由考慮用戶需求的排序系統(tǒng)進行排序。如果產(chǎn)生的候選集很小,那排序系統(tǒng)的優(yōu)化空間就很小,作用自然也不會大;而如果候選集很大,那通過排序系統(tǒng)排序后獲得最終推薦結(jié)果的做法就會降低運營需求的控制力度。
2014年底的時候我開始考慮2015年推薦系統(tǒng)團隊的工作方向。那段時間我集中看了很多公司推薦相關(guān)的資料,其中幾年前百度大推薦部門(現(xiàn)在已經(jīng)解散)公開的一些演講資料對我啟發(fā)最大。很多公司講推薦的資料都注重講算法,或者數(shù)據(jù)和特征;而百度的這些資料主要偏向于從系統(tǒng)方向來講。這啟發(fā)我回到排序系統(tǒng)的本質(zhì)來看推薦系統(tǒng)。
搜索,廣告和推薦系統(tǒng),本質(zhì)都是大規(guī)模排序系統(tǒng)。它們都遵循“候選產(chǎn)生 –> 排序 –> 后處理”的一般流程(見下圖)。
再仔細(xì)說明下上面這個流程中的前兩步:
1)候選產(chǎn)生(檢索)系統(tǒng):找與用戶相關(guān)的候選集合。對于佳緣來說,這里的相關(guān)候選集合可以通過(互相)滿足擇偶條件來獲得,也可以通過算法如kNN,AR等來獲得。不管用什么方式,最終目的就是把用戶與候選集合聯(lián)系起來。
2)排序系統(tǒng):排序系統(tǒng)里的排序目的是最大化產(chǎn)品目標(biāo)。對佳緣來說,產(chǎn)品目標(biāo)包括了運營目標(biāo)和用戶滿意度。
相對于2014年運營需求與用戶需求獨立優(yōu)化的“戰(zhàn)略”,2015年的優(yōu)化思路有所調(diào)整:
- 分離出運營需求中與用戶需求耦合小的部分,使用規(guī)則控制。這樣做的原因主要還是佳緣的業(yè)務(wù)邏輯太復(fù)雜,完全依靠算法達成產(chǎn)品目標(biāo)很困難,所以加入了一些規(guī)則進行宏觀控制。
- 統(tǒng)一優(yōu)化無法分離的運營需求與用戶需求。這種統(tǒng)一不僅體現(xiàn)在排序系統(tǒng)會同時考慮這兩方面的指標(biāo),也會以較弱的形式體現(xiàn)在候選產(chǎn)生系統(tǒng)里,畢竟從候選產(chǎn)生系統(tǒng)產(chǎn)生的候選集不可能是所有與用戶相關(guān)的物品(異性)。
那么,為什么把2015年叫做推薦系統(tǒng)的產(chǎn)品年?因為今年推薦系統(tǒng)的目標(biāo)是優(yōu)化產(chǎn)品目標(biāo)!
推薦系統(tǒng)是為產(chǎn)品服務(wù)的,而不是直接為用戶服務(wù)。
上面這句話聽起來很簡單,但其實很多時候我們會在不知不覺中認(rèn)為推薦系統(tǒng)是直接在為用戶服務(wù)的。我們在最早的時候就是犯了這個錯誤。
本節(jié)的最后,匯總羅列下我這幾年做推薦的感想:
- 技術(shù)為產(chǎn)品服務(wù),而不是直接面向用戶
- 數(shù)據(jù)質(zhì)量是地基,保證好的質(zhì)量很不容易
- 如何制定正確的優(yōu)化指標(biāo)真的很難
- 業(yè)務(wù)理解 > 工程實現(xiàn)
- 數(shù)據(jù) > 系統(tǒng) > 算法
- 快速試錯
一些技術(shù)嘗試
這節(jié)我只是簡單羅列下最近幾年自己接觸的比較有代表性的一些技術(shù),跟工作關(guān)系不大。
Dirichlet Process 和 Dirichlet Process Mixture模型
了解DP主要是因為當(dāng)時在看Mahout源代碼的時候發(fā)現(xiàn)有個算法以前竟然沒接觸過,覺得挺有意思就仔細(xì)學(xué)了下。DP不太好理解,它被稱為分布的分布。從DP抽取出的每個樣本(一個函數(shù))都可以被認(rèn)為是一個離散隨機變量的分布函數(shù),這個隨機變量以非零概率值在可數(shù)無窮個離散點上取值。DPM是非參數(shù)貝葉斯聚類模型,聚類時可以讓模型自動學(xué)習(xí)類數(shù)。雖然聽著好像很不錯,其實有很多槽點,具體可見參考文獻2。
Latent Dirichlet Allocation (LDA)
LDA是文本處理里的利器,經(jīng)常被用于對文本進行聚類,或者預(yù)處理。更詳細(xì)的理論介紹可見參考文獻3。當(dāng)時我嘗試把它用于佳緣的發(fā)信數(shù)據(jù),看看能不能找出一些有明顯特征的發(fā)信群體。聚類結(jié)果整體上基本不可解釋,但有一個類別意義很明顯,這類人主要給離婚異性發(fā)信。大家可以想想這類人是什么人。嘗試感想是LDA直接用于聚類未必靠譜,但是可以把它用于數(shù)據(jù)的預(yù)處理,比如降維什么的。
Alternating Direction Method of Multipliers (ADMM)
ADMM是個優(yōu)化算法框架,它把一個大問題分成可分布式同時求解的多個小問題。理論上,ADMM的框架可以解決大部分實際中的大尺度問題。槽點很多,謹(jǐn)慎使用!更詳細(xì)的介紹可見參考文獻4。
Deep Learning
前段時間,我利用佳緣的用戶頭像數(shù)據(jù),嘗試了DL里的一些常用算法。為了看算法的效果,我把用戶的性別作為預(yù)測目標(biāo)。這種預(yù)測對于佳緣的業(yè)務(wù)直接意義不大,因為用戶在注冊時就被要求填寫其性別。
算法預(yù)測的效果還是不錯的,準(zhǔn)確度達到了87%。這還是在很小訓(xùn)練集上訓(xùn)練后獲得的精度。DL麻煩是訓(xùn)練時需要調(diào)整的超參數(shù)實在是太多了,改一次超參數(shù)就要重跑一次,真的是很耗時。沒有好的計算資源的話,建議別考慮DL。
利用GBDT模型構(gòu)造新特征
實在想不出更多的有用特征?嘗試下Facebook提出的利用GBDT來構(gòu)造新特征的方法吧。我們的使用經(jīng)驗表明確實還是挺靠譜的,只要你效率能扛得住。具體介紹可見參考文獻5。
特征哈希(Feature Hashing)
很多個性化特征?特征數(shù)量太多?試試特征哈希的方法吧。此方法我們目前也沒使用過,歡迎有經(jīng)驗的人發(fā)表意見。具體介紹可見參考文獻5。
不平衡數(shù)據(jù)的抽樣方法
正負(fù)樣本數(shù)量差異太大?訓(xùn)練樣本太多機器跑不動?嘗試下參考文獻7中的抽樣方法吧。我們之前的嘗試表明還是有點作用的。不過如果你的數(shù)據(jù)不是大得跑不動,那嘗試的必要性就不太大了
End.
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 馬斯克腦機接口公司Neuralink再陷調(diào)查風(fēng)波:SEC‘重新啟動’調(diào)查,科技巨頭面臨新挑戰(zhàn)
- 工信部成立新標(biāo)準(zhǔn)化技術(shù)委員會,揭開人工智能標(biāo)準(zhǔn)化新篇章:未來已來,智標(biāo)引領(lǐng)未來發(fā)展
- 深圳龍崗粵科人工智能創(chuàng)投基金成立:10億大手筆揭開人工智能新篇章!
- 極米科技子公司喜獲汽車主機廠開發(fā)定點,嶄新篇章開啟,未來市場潛力無限!
- 未來之源:清潔氫引領(lǐng)全球電力行業(yè)綠色轉(zhuǎn)型至2035年
- 溫寧克接棒:ASML前CEO出任喜力新篇章監(jiān)事會主席,釀造啤酒業(yè)的未來新視角
- 國芯科技在汽車電子MCU領(lǐng)域掀起芯片革命:系列化產(chǎn)品引領(lǐng)創(chuàng)新潮流
- 生益科技:全球第二,引領(lǐng)柔性電子產(chǎn)業(yè)的新篇章
- 馬斯克宣布SpaceX總部遷至得州“星際基地市”:揭秘火星計劃新篇章,創(chuàng)新之翼飛向未來!
- 科創(chuàng)板收盤:科創(chuàng)50指數(shù)跌破1000點,存儲芯片板塊逆勢領(lǐng)漲,市場暗藏新機遇!
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。