精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>

<abbr id="ixlwe"></abbr>

直播
榜單
7x24h快訊

極客網(wǎng) > 綜合快訊 >

你對(duì)推薦算法的認(rèn)知，也許都是錯(cuò)的

人閱讀
2018-01-16 17:54:50
來源：中國(guó)網(wǎng)
相關(guān)關(guān)鍵詞
- 推薦算法

前幾天寫過一篇「哪些職業(yè)容易被機(jī)器算法取代」，很多人不以為然：我天天上網(wǎng)，怎么沒感到機(jī)器算法呢?真那么智能，注冊(cè)個(gè)賬戶又是密碼又是安全問題兩步驗(yàn)證，怎么不搞智能一點(diǎn)呢?

現(xiàn)階段的機(jī)器算法，并不是指具備高等智能的機(jī)器人，也不是有人類情感的仿生人，不過算法確實(shí)在我們的生活中發(fā)揮著各種各樣的作用。比如你打開瀏覽器在網(wǎng)上閑逛的時(shí)候，你會(huì)發(fā)現(xiàn)某個(gè)網(wǎng)站的某個(gè)廣告會(huì)出現(xiàn)一個(gè)你心儀品牌的羽毛球鞋的圖片，點(diǎn)進(jìn)去之后你發(fā)現(xiàn)可以直接購買這款鞋子，出現(xiàn)這樣的推薦是因?yàn)槟闱皫滋煸谶@個(gè)網(wǎng)站上買了一只同品牌的羽毛球拍。為了學(xué)習(xí)人工智能，你買了一本《深度學(xué)習(xí)》，在付款的時(shí)候，你會(huì)發(fā)現(xiàn)頁面下方會(huì)冒出了幾本《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)》《Python 機(jī)器學(xué)習(xí)》的書，你忍不住又買了一本……

這就是算法的力量，確切的說，是推薦算法在起作用。

隨著信息技術(shù)和互聯(lián)網(wǎng)的發(fā)展，人們逐漸從信息匱乏的盲區(qū)走入了信息過載(information overload)的時(shí)代。以推薦算法為核心技術(shù)的推薦系統(tǒng)憑借其個(gè)性化推薦和有效降低信息噪音的特點(diǎn)開始被廣泛使用，比如國(guó)外的Google、Facebook 和國(guó)內(nèi)的今日頭條。

不過，就像談到程序員和工程師就會(huì)想到修電腦的一樣，很多人，尤其是非IT 領(lǐng)域從業(yè)者，對(duì)算法的理解游走在「算數(shù)」與「魔法」兩個(gè)邊緣，有很大的認(rèn)知誤區(qū)。下面我主要以內(nèi)容推薦領(lǐng)域的今日頭條和商品推薦領(lǐng)域的亞馬遜為例，跟大家聊聊推薦算法，幫助讀者更好的理解這個(gè)時(shí)代的互聯(lián)網(wǎng)生活。

誤區(qū)一：推薦算法是根據(jù)用戶點(diǎn)擊率來推薦

這可能算是對(duì)算法最大的誤解之一了。

我們經(jīng)常說，推薦算法實(shí)現(xiàn)了個(gè)性化推薦效果，每個(gè)人看到的東西都是不一樣的。這個(gè)說法忽略了一個(gè)重要的事實(shí)：大多數(shù)人喜歡的東西實(shí)際上高度類似，比如最火的流行歌曲、最新的明星八卦。

多年前今日頭條出現(xiàn)，喊出了你感興趣的才是頭條。門戶網(wǎng)站之所以覺得很平常沒有跟進(jìn)，也是陷入了算法等于點(diǎn)擊的陷阱—— 按照熱度排新聞，是各大門戶網(wǎng)站早就有的功能，有什么新鮮的呢?

真正能挖掘長(zhǎng)尾的個(gè)性化推薦，其實(shí)是反點(diǎn)擊的，否則很難實(shí)現(xiàn)個(gè)性化的需求挖掘。系統(tǒng)需要跟進(jìn)更多的用戶信息維度和多種算法模型來發(fā)現(xiàn)和挖掘長(zhǎng)尾需求。《長(zhǎng)尾理論》曾經(jīng)舉過一個(gè)著名的例子。1988年，喬·辛普森寫了一本登山類的書籍《觸及巔峰》，但銷量一直很普通。10年后，另一本講述登山災(zāi)難的書《進(jìn)入稀薄空氣》引起了美國(guó)出版業(yè)的轟動(dòng)。亞馬遜發(fā)現(xiàn)有讀者在評(píng)價(jià)《進(jìn)入稀薄空氣》時(shí)提到了《觸及巔峰》，同時(shí)給出了高評(píng)價(jià)，于是將《觸及巔峰》推薦給了《進(jìn)入稀薄空氣》的深度讀者。很快，《觸及巔峰》在經(jīng)過十年的慘淡銷量后，獲得了巨大的成功。

實(shí)際上，亞馬遜做的事情就是算法推薦現(xiàn)在做的事。推薦過程不僅要考慮用戶的閱讀軌跡，同時(shí)還要考慮用戶的性別，年齡，甚至手機(jī)機(jī)型等信息，同時(shí)還要綜合考慮新聞的時(shí)效性、以及地理位置等信息對(duì)內(nèi)容進(jìn)行相應(yīng)推薦。而如果只看點(diǎn)擊(銷量)，《觸及巔峰》可能永遠(yuǎn)也不會(huì)獲得推薦。

誤區(qū)二：冰箱都買完了還推薦冰箱，點(diǎn)了不喜歡還推薦，算法一點(diǎn)都不聰明

假如你的微信只有一個(gè)好友聯(lián)系人，會(huì)覺得朋友圈好玩嗎?

朋友圈需要更多的好友，算法推薦也需要更多的數(shù)據(jù)。對(duì)新用戶來說，一個(gè)系統(tǒng)或者平臺(tái)可以推薦的內(nèi)容是天文數(shù)字。以淘寶為例，2013 年的時(shí)候，淘寶在線商品數(shù)就超過了8 億，8 億個(gè)候選，推哪一個(gè)?

這時(shí)候，點(diǎn)擊或者瀏覽過的商品/文章，顯然權(quán)重是最高的。對(duì)直接銷售物品的電商來說更是如此，所以無論是國(guó)外的亞馬遜還是國(guó)內(nèi)的淘寶、京東，實(shí)踐下來，當(dāng)前瀏覽內(nèi)容都是最重要的推薦因素。

而且，買過冰箱推薦冰箱，也未必是算法笨，這可能只是一個(gè)簡(jiǎn)單的策略問題—— 你買了冰箱，周圍的朋友可能會(huì)咨詢你冰箱的問題;如果你看到了更喜歡的新款冰箱，很可能在退貨時(shí)間內(nèi)選擇了退了原來商家的冰箱，買個(gè)新冰箱。并且這個(gè)策略很可能造成最后的銷售數(shù)據(jù)的極大提升。

對(duì)相關(guān)新聞點(diǎn)擊「不敢興趣」也類似。當(dāng)你第一次對(duì)奧巴馬演講點(diǎn)擊「不感興趣」時(shí)，系統(tǒng)不知道你是對(duì)奧巴馬不感興趣還是對(duì)演講不感興趣，或者單純不喜歡這次的演講主題，所以反而會(huì)繼續(xù)給你推薦相關(guān)的話題，從整體數(shù)據(jù)來看，這樣的推薦策略有時(shí)候是更優(yōu)的。

當(dāng)然，個(gè)性化推薦為了防止過渡擬合出現(xiàn)，會(huì)根據(jù)讀者的閱讀紀(jì)錄通過嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)理論分析計(jì)算，推測(cè)出同類用戶偏好，依興趣標(biāo)簽的關(guān)聯(lián)程度，推測(cè)出同類用戶其他偏好，并進(jìn)行「聯(lián)想式」的推薦。比如當(dāng)機(jī)器發(fā)現(xiàn)閱讀「總統(tǒng)大選」相關(guān)信息的用戶群體中，有很大部分人都在同時(shí)關(guān)注「股票」信息，那么機(jī)器就會(huì)把「股票」信息推薦給那部分關(guān)注「總統(tǒng)大選」但尚未關(guān)注「股票」信息的人，而不會(huì)單一推薦「總統(tǒng)大選」的信息。

誤區(qū)三：推薦算法會(huì)導(dǎo)致「信息繭房」

有一種論調(diào)是，由于算法只給你推送你喜歡的內(nèi)容，從而造成了信息繭房。

展開來說，這個(gè)論調(diào)包括兩層，一是大家只關(guān)心自己的小世界，看不到更重要、更有意義的公共事件。二是算法越來越懂你，你喜歡特朗普，就只給你推薦特朗普好的新聞。最終的結(jié)果，造成了「信息繭房」和偏食。

這其實(shí)是不成立的。在實(shí)際情況中，算法很難實(shí)現(xiàn)「信息繭房」。公共事件之所以成為公共事業(yè)，是因?yàn)槠涔残?，這決定了其天然具有穿透性，所有算法都會(huì)對(duì)此類事件賦予極高的權(quán)重，否則這將違反算法準(zhǔn)確性的初衷。

其次，關(guān)于態(tài)度傾向。因?yàn)槊總€(gè)人可能感興趣的文章非常多，用專業(yè)話就是數(shù)據(jù)非常稀疏，所以對(duì)算法來說，正向情緒和負(fù)向情緒，都是對(duì)某一個(gè)話題的正相關(guān)，這種相關(guān)性本身大于情緒。這句話翻譯過來就是，無論你討厭特朗普還是喜歡特朗普，在數(shù)據(jù)意義上的表現(xiàn)，都是對(duì)特朗普這個(gè)話題高度相關(guān)的。對(duì)于算法來說，正常情況下，所有關(guān)于特朗普的重要內(nèi)容，都會(huì)被優(yōu)先推薦給你。

從哲學(xué)思辨的角度來看，「信息繭房」或許有其意義，但從實(shí)際操作中，不可能出現(xiàn)這樣的極端情況。另外，互聯(lián)網(wǎng)時(shí)代，由于信息的極大豐富，任何選擇都會(huì)對(duì)信息本身進(jìn)行過濾和篩選。你的微博、朋友圈也是「信息繭房」—— 因?yàn)槟憧吹降亩际桥笥褌冴P(guān)心的。

誤區(qū)四：推薦算法技術(shù)含量不高按照算法模型拿Cookie 信息套一下就行

首先，嚴(yán)格來說，算法是解決問題的一個(gè)過程，包括特定輸入與特定輸出。我們講的數(shù)學(xué)公式只是算法的理論基礎(chǔ)，無論是推薦算法還是深度學(xué)習(xí)網(wǎng)絡(luò)不僅僅需要理論基礎(chǔ)，也就是公式，還要有相應(yīng)的數(shù)學(xué)模型實(shí)現(xiàn)，并且這個(gè)實(shí)現(xiàn)過程是動(dòng)態(tài)的，需要不斷調(diào)整的。

實(shí)際上算法的自我修正和學(xué)習(xí)是非常重要的，比如阿爾法狗就是不斷的和人類對(duì)弈來優(yōu)化自身模型來提高算法準(zhǔn)確性。推薦算法也不例外，個(gè)性化推薦會(huì)隨著用戶的閱讀軌跡、用戶的行為記錄進(jìn)行反饋優(yōu)化，逐步提高其準(zhǔn)確性。公開資料顯示，今日頭條每個(gè)星期都會(huì)對(duì)算法模型進(jìn)行一些優(yōu)化和調(diào)整，近一年內(nèi)今日頭條的算法進(jìn)行了4 次比較大的模型迭代。亞馬遜在過去二十年間也對(duì)推薦系統(tǒng)進(jìn)行了無數(shù)次改進(jìn)和優(yōu)化，才有今天非常精準(zhǔn)的推薦結(jié)果。

PC 時(shí)代的推薦非常原始，無非是拿瀏覽器里的Cookie 數(shù)據(jù)進(jìn)行關(guān)鍵詞匹配。很多人會(huì)覺得，現(xiàn)在的算法不也這樣么，無非是多了一些用戶年齡屬性，性別屬性，偏好屬性，然后套入公式，性別*0.3 + 年齡*0.5 + 偏好*0.2，再加上一些地理位置等屬性，就可以進(jìn)行推薦了。

實(shí)際上，這大概是二十年前推薦1.0 時(shí)代的做法。如今推薦系統(tǒng)建立、使用和優(yōu)化是一個(gè)非常復(fù)雜的過程。比如推薦系統(tǒng)的建立方式就包括基于用戶、基于關(guān)聯(lián)規(guī)則和基于模型的推薦?，F(xiàn)在做的好的推薦系統(tǒng)都不會(huì)只采用某一種推薦的機(jī)制和策略，往往是結(jié)合多種推薦方法，以達(dá)到更好的推薦效果。

誤區(qū)五：推薦算法發(fā)展的很快，未來可以洞察人性，無所不能

推薦算法的出現(xiàn)提高了信息分發(fā)效率，很好的解決了信息過載的問題。盡管個(gè)性化推薦需要用到一定的用戶特征，但都是以公開特征和定向內(nèi)容為主，很難全面的刻畫出一個(gè)人，了解人性更是談何容易。真正做到了解人性，就需要算法比你還了解你自己，以現(xiàn)在的科技水平，算法想要達(dá)到科幻小說里的洞悉人性是不可能的。

更重要的是，任何算法都會(huì)有反例。簡(jiǎn)單說，如果一個(gè)分類算法單純按照頭發(fā)長(zhǎng)短區(qū)分男女，有些男生頭發(fā)比較長(zhǎng)就會(huì)出現(xiàn)分類錯(cuò)誤。作為新技術(shù)，機(jī)器推薦還有不完美的地方，仍然需優(yōu)化和改進(jìn)，這也是眾多科學(xué)家努力的方向。當(dāng)然，從比例上看優(yōu)秀的算法肯定對(duì)絕大多數(shù)的案例進(jìn)行正確分類，并有效的推薦給用戶。

誤區(qū)六：算法都是公開的，競(jìng)爭(zhēng)壁壘不高

首先，數(shù)據(jù)是非常重要的壁壘。真正應(yīng)用到工業(yè)的推薦系統(tǒng)需要大量數(shù)據(jù)進(jìn)行建模計(jì)算的。并非簡(jiǎn)單的少量的數(shù)據(jù)即可，一般情況下需要上億的數(shù)據(jù)和上億的屬性特征進(jìn)行推薦，沒有數(shù)據(jù)只有理論基礎(chǔ)都是紙上談兵。

因此，如果想要做出一套好的推薦系統(tǒng)模型，需要在大數(shù)據(jù)的基礎(chǔ)上建立非常龐大和成熟的工程師團(tuán)隊(duì)。Google、微軟聘用了大量的高端人才進(jìn)行推薦算法優(yōu)化，無非是針對(duì)一些特定的知識(shí)點(diǎn)做專門的Feature Engineering，國(guó)內(nèi)的今日頭條也有近半數(shù)的員工都是技術(shù)工程師。

一些算法可能會(huì)在推薦算法的相關(guān)比賽中取得非常好的結(jié)果，但并不是說這就是一個(gè)最優(yōu)的算法模型。很可能是機(jī)器把樣本數(shù)據(jù)的所有特征都學(xué)習(xí)到了，獲得了過多的局部特征和假特征，形成過擬合。當(dāng)你用它識(shí)別新的數(shù)據(jù)樣本的時(shí)就會(huì)發(fā)現(xiàn)，推薦準(zhǔn)確率有可能非常低。

算法模型必須經(jīng)過大量數(shù)據(jù)的學(xué)習(xí)和演化，沒有任何一種機(jī)器模型可以被當(dāng)做權(quán)威規(guī)則來使用。算法的學(xué)習(xí)和演化本身也是一種壁壘。換句話說，哪怕張一鳴自己離開今日頭條，重新做一套推薦算法，也無法達(dá)到現(xiàn)在今日頭條推薦算法的水平。

如果你是一位工程師，如果你讀到了這里，還會(huì)覺得數(shù)據(jù)、算法和數(shù)學(xué)不重要嘛?不說了，我去學(xué)習(xí)算法去了。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

下一篇

阿斯麥訂單“腰斬”股價(jià)暴跌16%，半導(dǎo)體產(chǎn)業(yè)寒冬來了？

阿斯麥訂單腰斬阿斯麥訂單阿斯麥股價(jià)暴跌

極客觀察

專題報(bào)道

企業(yè)專欄

簡(jiǎn)版
原版
投稿
回頂部

2018-01-16

你對(duì)推薦算法的認(rèn)知，也許都是錯(cuò)的

前幾天寫過一篇「哪些職業(yè)容易被機(jī)器算法取代」，很多人不以為然：我天天上網(wǎng)，怎么沒感到機(jī)器算法呢?真那么智能，注冊(cè)個(gè)賬戶又是密碼又是安全問題兩步驗(yàn)證，怎么不搞智能一點(diǎn)呢?現(xiàn)階段的機(jī)器算法，并不是指具備高等智能的機(jī)器人，也不是有人類情感的仿生人，不過算法確實(shí)在我們的生

長(zhǎng)按掃碼閱讀全文