原標(biāo)題:微信嘗試結(jié)合時(shí)間過(guò)程與內(nèi)容特征,重新定義“爆款文”?
沒(méi)有一個(gè)時(shí)代比今天更重視技術(shù)對(duì)于內(nèi)容的價(jià)值。
越來(lái)越多的人們,尤其是年輕人,更加愿意使用和相信算法生成和推送的內(nèi)容。算法之于文章,扮演的就是一個(gè)“星探”的角色。它需要在剛剛見(jiàn)面的幾分鐘內(nèi),就判斷出哪個(gè)具有“明日之星”的潛力,以便分配更多的資源幫助它“走花路”,而不是只會(huì)在對(duì)方走紅之后,才說(shuō)出“我早就知道”的馬后炮。
不幸的是,大部分基于內(nèi)容特征和協(xié)同過(guò)濾算法的推薦系統(tǒng),都無(wú)法“識(shí)英雄于微時(shí)”,在文章發(fā)出早期就判斷出其受歡迎程度。這就導(dǎo)致一些原本質(zhì)量很高的文章,很可能因?yàn)槌跏紴g覽量不夠而被埋沒(méi),“標(biāo)題黨”“咪蒙系”反而有可能得到越來(lái)越多的推薦和熱度。
如何在過(guò)剩的信息洪流中將用戶(hù)最感興趣、最具潛力的資訊率先甄選出來(lái),是建立一個(gè)良性?xún)?nèi)容生態(tài)的關(guān)鍵,卻也是困擾各大巨頭、懸而未決的技術(shù)難題。
最近,微信的研究人員就提出了一種新的神經(jīng)網(wǎng)絡(luò)方法DFTC,用來(lái)更好地預(yù)測(cè)網(wǎng)絡(luò)文章的熱度。由于該模型表現(xiàn)出了良好的性能,已經(jīng)被AAAI 2019 大會(huì)接收, 并在大會(huì)上作了主題報(bào)告。
它在哪些領(lǐng)域進(jìn)行了創(chuàng)新,又能為現(xiàn)有的爆款內(nèi)容生產(chǎn)機(jī)制帶來(lái)哪些改變呢?
渠道分發(fā)哪家強(qiáng):熱度預(yù)測(cè)面臨哪些難題?
在介紹新方法之前,有必要先梳理一下,當(dāng)前的推薦算法都是如何進(jìn)行熱度預(yù)測(cè)的:
一種是基于聚合瀏覽量的時(shí)間演進(jìn)過(guò)程,比如今日頭條的熱門(mén)推薦算法,就是優(yōu)先推薦熱門(mén)的文章。
這種方式的優(yōu)勢(shì)是,已知的歷史熱度會(huì)越來(lái)越接近整體受歡迎程度,因此模型的表現(xiàn)也會(huì)隨著文章發(fā)布的時(shí)間而變得越來(lái)越好。
但由于很多外部因素帶來(lái)的意外增長(zhǎng)都是不可預(yù)測(cè)的,時(shí)間熱度模型卻對(duì)此卻無(wú)能為力。即使引入人工干預(yù),除非像咪蒙系一樣憑借大量經(jīng)驗(yàn)和策劃,否則也很難確定爆款文章可能出現(xiàn)的時(shí)間,以及生命力有多強(qiáng)。
二是通過(guò)預(yù)測(cè)內(nèi)容特征的受歡迎程度,來(lái)推斷整體可能的熱度。Yahoo Today就曾經(jīng)用新聞的點(diǎn)擊率來(lái)進(jìn)行畫(huà)像,并用feature-based learning方法來(lái)建模用戶(hù)對(duì)資訊感興趣的程度。
其中包括靜態(tài)特征,比如資訊的類(lèi)目、主題等;以及動(dòng)態(tài)特征,如某條資訊、某類(lèi)資訊分時(shí)間段的各種統(tǒng)計(jì)值等。通過(guò)這種方法,Yahoo發(fā)現(xiàn)在推薦新聞時(shí),娛樂(lè)類(lèi)新聞天然比體育類(lèi)新聞點(diǎn)擊率高。
由于內(nèi)容特征不會(huì)隨著時(shí)間而變化,因此很多不那么刺激眼球的內(nèi)容也可以獲得公平的曝光機(jī)會(huì)。使得該模型在早期階段效果更為可靠。但問(wèn)題也隨之而來(lái)。
網(wǎng)絡(luò)文章通常是長(zhǎng)文本,加上越來(lái)越復(fù)雜的元數(shù)據(jù)特征(如標(biāo)題、類(lèi)別、作者信息等),建模難度也日漸增大,目前還沒(méi)有此類(lèi)模型能夠完全地利用這些數(shù)據(jù)。
不難發(fā)現(xiàn),不論是基于時(shí)間演進(jìn),還是基于內(nèi)容特征,都不足以支撐內(nèi)容終極價(jià)值的判斷標(biāo)準(zhǔn)。只有雙管齊下,才能發(fā)揮出最佳的預(yù)測(cè)效果。然而,這對(duì)于算法工程師來(lái)說(shuō)是極大的挑戰(zhàn)。
DFTC:改寫(xiě)熱度預(yù)測(cè)的叢林法則
為了改變這一現(xiàn)狀,微信的研究人員就此提出了一種將時(shí)間過(guò)程與內(nèi)容特征深度地融合到一起的神經(jīng)網(wǎng)絡(luò)方法——Deep Fusion of Temporal process and Content features,簡(jiǎn)稱(chēng)DFTC,來(lái)構(gòu)建更合理的熱度預(yù)測(cè)系統(tǒng)。
他們收集了2018年5月-7月的6萬(wàn)篇微信公眾號(hào)文章的熱度數(shù)據(jù),將文章熱度分為 3 類(lèi):爆款(閱讀量>10000),冷門(mén)(閱讀量
DFTC一共包含三個(gè)部分:1.時(shí)間過(guò)程建模;2.內(nèi)容特征建模;3.注意融合。
首先,采用卷積神經(jīng)網(wǎng)絡(luò)(Attention CNN)來(lái)提取文章增長(zhǎng)和下降的短期波動(dòng)情況,比如一篇文章每小時(shí)瀏覽量的變化情況。接著再利用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)得出文章受歡迎程度的長(zhǎng)期增長(zhǎng)趨勢(shì)。
然后,利用分層注意網(wǎng)絡(luò)(HAN)來(lái)獲取文本特征,使用嵌入技術(shù)來(lái)學(xué)習(xí)各種元數(shù)據(jù)的特征,并進(jìn)行建模,得到一個(gè)內(nèi)容特征模型。
接下來(lái),將建好的時(shí)序模型和內(nèi)容模型利用注意力機(jī)制動(dòng)態(tài)地組合到一起,生成一個(gè)能夠體現(xiàn)出文章熱度演變過(guò)程多樣性的靈活權(quán)重(Popularity level)。
DFTC的創(chuàng)新之處是,解決了三個(gè)懸而未決的行業(yè)難題:
1.如何預(yù)測(cè)意外情況帶來(lái)的短期波動(dòng)(Attention CNN自動(dòng)學(xué)習(xí)短期波動(dòng),不做具體假設(shè)或人工設(shè)計(jì));
2.如何解決元數(shù)據(jù)多模態(tài)的識(shí)別難題(embedding技術(shù)可以識(shí)別短文本描述、標(biāo)題和圖像等多種表現(xiàn)形式);
3.相同內(nèi)容特征與不同生命周期階段的連接(Attention融合機(jī)制,生成一個(gè)靈活權(quán)重而非線(xiàn)性組合)。
至此,一個(gè)更優(yōu)秀的熱度預(yù)測(cè)模型就誕生了。
實(shí)驗(yàn)數(shù)據(jù)顯示,“兩手抓兩手都要硬”的DFTC,在文章發(fā)布后的前5個(gè)小時(shí),其預(yù)測(cè)的準(zhǔn)確度相比其他單一性解決方案強(qiáng)出了不少。
不難發(fā)現(xiàn),DFTC正是基于對(duì)短期瀏覽量、意外因素、內(nèi)容關(guān)鍵詞等可能決定最終受歡迎程度的多重因素進(jìn)行了全面統(tǒng)籌,才能在初始期就做出更精準(zhǔn)的判斷。因此,一些枯燥無(wú)趣的內(nèi)容會(huì)被率先過(guò)濾掉,有潛力的優(yōu)質(zhì)文章也更容易得到推薦,避免了“酒香也怕巷子深”的命運(yùn)。
或許不久以后,依靠經(jīng)驗(yàn)和直覺(jué)打造爆款,和依靠大數(shù)據(jù)與關(guān)鍵詞打造爆款,這些技術(shù)蠻荒時(shí)代的叢林法則慢慢都會(huì)被更好的生態(tài)機(jī)制所取代。
熱度預(yù)測(cè)照亮的未來(lái),不只屬于文字
個(gè)性化推薦系統(tǒng)既不能完全遵循用戶(hù)興趣標(biāo)簽與內(nèi)容特征抽取的匹配,那會(huì)導(dǎo)致越來(lái)越嚴(yán)重的信息繭房(“喜歡你就多看點(diǎn)”)和回聲室效應(yīng)(“你反對(duì)的絕不出現(xiàn)”);也不能單純依靠文章的生命周期來(lái)判斷,讓優(yōu)質(zhì)創(chuàng)作者在平臺(tái)偏向(“這篇會(huì)火都給我看”)之下涼了熱血。
因此單純從數(shù)據(jù)上看,DFTC是成功的。
目前,微信已經(jīng)將該模型作為系統(tǒng)選擇和推薦文章的重要依據(jù),開(kāi)始在“看一看”等產(chǎn)品場(chǎng)景中進(jìn)行實(shí)踐。
從更廣泛的實(shí)用性來(lái)說(shuō),DFTC所代表的思路,用深度學(xué)習(xí)技術(shù)和思維解決預(yù)測(cè)問(wèn)題,正在成為業(yè)界共識(shí)。
“在任意時(shí)間預(yù)測(cè)網(wǎng)絡(luò)內(nèi)容的最終熱度”,DFTC不僅僅只有資訊平臺(tái)的推薦算法,在廣告、搜索等業(yè)務(wù)也能起到很強(qiáng)的推動(dòng)作用,提高內(nèi)容的分發(fā)效率。
而就在前不久,微軟也提出過(guò)一個(gè)跨產(chǎn)品的用戶(hù)行為模型,將用戶(hù)在搜索、新聞、appstore、xbox等多個(gè)產(chǎn)品線(xiàn)上的行為(反饋)統(tǒng)一在一起,這樣訓(xùn)練出的深度學(xué)習(xí)網(wǎng)絡(luò),就能很好地優(yōu)化和解決單個(gè)產(chǎn)品上(用戶(hù))冷啟動(dòng)、信息稀疏等問(wèn)題。
也就是說(shuō),可能你搜索了“房?jī)r(jià)會(huì)不會(huì)繼續(xù)上漲”,打開(kāi)新聞APP就會(huì)收到“房?jī)r(jià)可能回到三年前”的新聞,是不是有點(diǎn)細(xì)思極恐呢?
這也反映出深度學(xué)習(xí)進(jìn)行熱點(diǎn)預(yù)測(cè)所呈現(xiàn)的新的問(wèn)題:平臺(tái)對(duì)熱點(diǎn)的評(píng)估只是一種模仿,好的閱讀體驗(yàn)究竟應(yīng)該如何量化?為了更好的閱讀體驗(yàn),讀者需要讓渡多少個(gè)人隱私?
當(dāng)然,現(xiàn)在想這些還有點(diǎn)為時(shí)過(guò)早。無(wú)論如何,熱度預(yù)測(cè)模型能力的升級(jí),正在讓內(nèi)容產(chǎn)業(yè)關(guān)于價(jià)值的標(biāo)尺越來(lái)越多元,這可能是算法最具人性的一次。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長(zhǎng)
- 美媒聚焦比亞迪“副業(yè)”:電子代工助力蘋(píng)果,下個(gè)大計(jì)劃瞄準(zhǔn)AI機(jī)器人
- 微信零錢(qián)通新政策:銀行卡轉(zhuǎn)入資金提現(xiàn)免手續(xù)費(fèi)引熱議
- 消息稱(chēng)塔塔集團(tuán)將收購(gòu)和碩印度iPhone代工廠(chǎng)60%股份 并接管日常運(yùn)營(yíng)
- 蘋(píng)果揭秘自研芯片成功之道:領(lǐng)先技術(shù)與深度整合是關(guān)鍵
- 英偉達(dá)新一代Blackwell GPU面臨過(guò)熱挑戰(zhàn),交付延期引發(fā)市場(chǎng)關(guān)注
- 馬斯克能否成為 AI 部部長(zhǎng)?硅谷與白宮的聯(lián)系日益緊密
- 余承東:Mate70將在26號(hào)發(fā)布,意外泄露引發(fā)關(guān)注
- 無(wú)人機(jī)“黑科技”亮相航展:全球首臺(tái)低空重力測(cè)量系統(tǒng)引關(guān)注
- 賽力斯發(fā)布聲明:未與任何伙伴聯(lián)合開(kāi)展人形機(jī)器人合作
- 賽力斯觸及漲停,汽車(chē)整車(chē)股盤(pán)初強(qiáng)勢(shì)拉升
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。