精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>

<abbr id="ixlwe"></abbr>

<var id="16111"><object id="16111"></object></var>

<pre id="16111"><th id="16111"><mark id="16111"></mark></th></pre>

直播
榜單
7x24h快訊

極客網(wǎng) > 綜合快訊 >

知乎的另一面：如何用數(shù)據(jù)管理內(nèi)容

人閱讀
2015-09-06 09:21:10
相關(guān)關(guān)鍵詞
- 數(shù)據(jù)管理
- 知乎

虎嗅注：知乎已經(jīng)走過了4年年頭，在互聯(lián)網(wǎng)的世界里，知乎已經(jīng)成為無可爭(zhēng)議的高質(zhì)量社區(qū)，但在經(jīng)歷了高速發(fā)展之后，如何管理，篩選，呈現(xiàn)這些大量的信息（數(shù)據(jù)）成為一個(gè)難題，事實(shí)上無論對(duì)于哪一個(gè)社區(qū)而言，數(shù)據(jù)的管理本身就是一個(gè)巨大的挑戰(zhàn)。下面是知乎聯(lián)合創(chuàng)始人在七牛大會(huì)上的關(guān)于知乎數(shù)據(jù)方面的演講，虎嗅進(jìn)行了刪減。

大家好，我是知乎的李申申。首先，我想對(duì)主辦方說一聲：謝邀！感謝你們搭建這樣一個(gè)專業(yè)的平臺(tái)，讓大家有機(jī)會(huì)聚在一起認(rèn)真討論數(shù)據(jù)這個(gè)話題。

說實(shí)話，在接到大會(huì)邀請(qǐng)的時(shí)候，我第一反應(yīng)想到了這句話。

Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, everyone thinks everyone else is doing it, so everyone claims they are doing it…- Dan Ariely .

如同Dan Ariely所說，知乎也像是眾多面對(duì)大數(shù)據(jù)很懵懂的“年輕人”之一；我們雖然也在做大數(shù)據(jù)相關(guān)的一些事情，但其實(shí)比較粗淺。我聽說今天在座的各位有不少都是知乎的用戶，對(duì)知乎有一些興趣，那我就借這個(gè)機(jī)會(huì)跟大家分享一下知乎數(shù)據(jù)方面的一些工作。

簡(jiǎn)單進(jìn)入正題，我們先來看看知乎的基本數(shù)據(jù)情況。

今天的知乎

截至2015年7月，知乎社區(qū)已擁有2900萬注冊(cè)用戶，月UV1.1億，月累積頁面瀏覽量達(dá)3億?，F(xiàn)在知乎全站已累計(jì)產(chǎn)生約620萬個(gè)問題，以及近2000萬個(gè)回答。用戶總回答4,129,244,445字?jǐn)?shù)，是大不列顛百科全書的近100倍，鹿鼎記的2580倍。

除了以上比較基礎(chǔ)的數(shù)據(jù)，一些其他方面的數(shù)字也在以令我們比較欣喜的速度發(fā)展著。我們截取了知乎開放注冊(cè)以來，獲得一千個(gè)以上贊同的回答和千字以上的回答兩個(gè)數(shù)據(jù)，看一下它們的增長(zhǎng)情況。可以看到，這兩項(xiàng)數(shù)據(jù)都是保持了一個(gè)比較平穩(wěn)的增長(zhǎng)趨勢(shì)的。再看一下，這些用戶日均獲贊的數(shù)量。

首先，必須說明的是：我們并非完全將這兩項(xiàng)指標(biāo)作為有價(jià)值回答的判斷標(biāo)準(zhǔn)，但是當(dāng)用戶愿意靜下心來花時(shí)間撰寫長(zhǎng)文回答的時(shí)候，至少他的態(tài)度是認(rèn)真的，也符合知乎所倡導(dǎo)的討論理念。另一方面，知乎上的千贊代表了1000位知乎用戶對(duì)此回答的認(rèn)同和接納。除開2月份等過年過節(jié)的時(shí)期數(shù)據(jù)會(huì)略低些，其他時(shí)間，這一數(shù)據(jù)增速基本都保持在 10% 左右。

同樣基于話題這個(gè)維度，我們隨機(jī)抽取幾個(gè)話題看最近的用戶討論趨勢(shì)。

這里展示的是心理學(xué)、互聯(lián)網(wǎng)、經(jīng)濟(jì)以及天津爆炸這幾個(gè)話題。值得注意的一點(diǎn)在于，在天津爆炸事件席卷幾乎所有社交和輿論平臺(tái)，非常聚焦地引起爆炸性的關(guān)注時(shí)，知乎站內(nèi)的其他專業(yè)話題討論依然在持續(xù)進(jìn)行。同時(shí)，由于天津事件后續(xù)的各討論環(huán)節(jié)中有不少涉及心理學(xué)的疑問，因此，知乎站內(nèi)心理學(xué)的話題熱度也被帶動(dòng)著略有上揚(yáng)。

綜合看，現(xiàn)在的知乎更像是個(gè)廣場(chǎng)，各類較為熱點(diǎn)的時(shí)事討論好像是廣場(chǎng)中央的噴泉，吸引了游客和大眾的關(guān)注目光。而與此同時(shí)，在廣場(chǎng)四周也有著各色酒吧、咖啡館和茶館等，各自匯聚了城市的居民們與知己傾心交談。

知乎大V和知乎小白

有不少知乎用戶曾有疑慮，是否只有早期的用戶們才較為認(rèn)同知乎的社區(qū)理念，又或是只有老用戶們?nèi)菀资斋@贊同和關(guān)注？其實(shí)并不盡然。

讓我們一起看看以下幾組數(shù)據(jù)截圖，橫軸為時(shí)間變化，我們截取了2010年12月20日知乎內(nèi)測(cè)以來到2015年6月30日贊同數(shù)前10000的用戶，根據(jù)他們的注冊(cè)時(shí)間和贊同數(shù)作圖，以及日均的贊數(shù)增長(zhǎng)量。大家可以看到這些點(diǎn)分布的比較散，說明增長(zhǎng)情況比較均勻。

可以看出：即使在2015年才剛加入知乎的人也有非常大的機(jī)會(huì)被關(guān)注和認(rèn)可。這也說明，這些新用戶也有認(rèn)真討論、獲得有價(jià)值信息交換的渴望，這些用戶也是非常認(rèn)同知乎的社區(qū)理念的。可以通用的秘訣在于：只要堅(jiān)持不斷地在自己擅長(zhǎng)的領(lǐng)域參與討論、輸出信息就能得到更多人的認(rèn)可。

知乎信息如何生產(chǎn)，以及如何流動(dòng)？

前面幾張圖，我們已經(jīng)了解了知乎的百花齊放的話題和持續(xù)貢獻(xiàn)的優(yōu)質(zhì)用戶。下面我們來看看知乎信息生產(chǎn)方式，為了更聚焦的展示這個(gè)問題，我們選取了近期的天津爆炸事件作為事例。

從發(fā)展方式來看，熱點(diǎn)話題與其他話題相比，并沒有不同。但是由于其新聞性，這類話題的發(fā)展更具有爆發(fā)性，用戶的行為更為集中。因此，也更方便我們來做這樣一個(gè)展示。

首先，一批用戶針對(duì)問題進(jìn)行關(guān)注、回答，產(chǎn)生了基礎(chǔ)的優(yōu)質(zhì)內(nèi)容，然后，其他用戶的自發(fā)邀請(qǐng)、關(guān)注、收藏、感謝、投票、評(píng)論等社交行為，使得這些內(nèi)容獲得了更廣泛的傳播和關(guān)注，覆蓋的人群不斷擴(kuò)大。

在知乎，社交行為催生了優(yōu)質(zhì)內(nèi)容的生產(chǎn)與傳播，而優(yōu)質(zhì)內(nèi)容又引發(fā)了下一輪新的社交行為。

如何用大數(shù)據(jù)做用戶興趣識(shí)別？

用戶在知乎上的行為是多維度的；既包括比較輕的瀏覽閱讀，又包括重一些的贊同、反對(duì)，還有更重的提問回答（這里的重和輕是根據(jù)用戶操作成本來界定的）。我們可以根據(jù)這些行為做用戶的特征分析，這也是各個(gè)互聯(lián)網(wǎng)服務(wù)都會(huì)做的常規(guī)工作，只是基于各自不同的服務(wù)特點(diǎn)，所要分析的特征、采用的算法及其效果各有不同。知乎除了有大量的用戶行為數(shù)據(jù)，還有非常多的文本信息，基于行為和文本，我們對(duì)用戶的興趣和擅長(zhǎng)能有更準(zhǔn)確的識(shí)別。

現(xiàn)實(shí)社會(huì)中，我們對(duì)于某些領(lǐng)域的知識(shí)掌握是很深入的，但其他的一些領(lǐng)域就未必了。個(gè)人精力是有限的，沒有人能夠全知到成為所有領(lǐng)域的專家，這種情況是可以被映射到知乎上的。不同的用戶在不同的話題領(lǐng)域下，他們的專業(yè)性是不同的，我們需要掌握這種不同，給每個(gè)人，在每個(gè)話題下計(jì)算一個(gè)權(quán)重。計(jì)算的分值最主要的依據(jù)還是那些你在知乎上的回答，當(dāng)然，我們也會(huì)加入一些其他考量因素，包括其他專業(yè)人士對(duì)你的背書，你的專業(yè)背景，等等。

這是知乎非常基礎(chǔ)的數(shù)據(jù)設(shè)施，但這個(gè)數(shù)值計(jì)算的量級(jí)是不小的（百萬回答用戶十萬話題，是千億級(jí)別的數(shù)量計(jì)算），知乎對(duì)于權(quán)重判定每周都會(huì)進(jìn)行全量的計(jì)算，也一直在調(diào)整優(yōu)化中。

答案排序：如何更好的呈現(xiàn)？

我們對(duì)答案排序算法進(jìn)行優(yōu)化，目的是讓好的答案更靠前。隨著用戶量不斷增加，早期最簡(jiǎn)單的答案排序規(guī)則出現(xiàn)了問題：一些答案友情贊同比較多，讓專業(yè)性不足的答案被推到靠前的位置。我們想到了給贊同票加權(quán)重的方法，基于每個(gè)人在話題下的專業(yè)權(quán)重來計(jì)算，排序得到優(yōu)化，能讓大部分優(yōu)質(zhì)答案可以排到前面。

雖然針對(duì)權(quán)重計(jì)算的優(yōu)化仍然在持續(xù)進(jìn)行，我們還是遇到了一些算法上的瓶頸。

當(dāng)問題下有多個(gè)發(fā)布較早的回答獲得高票時(shí)，新的回答即使質(zhì)量很高，也很難在問題頁上獲得足夠的曝光，難以積累更多贊同票，一些誤導(dǎo)性、煽動(dòng)性的高票內(nèi)容，即使同時(shí)也有很多反對(duì)票，仍然排在認(rèn)真、嚴(yán)謹(jǐn)?shù)睌?shù)相對(duì)較少的優(yōu)質(zhì)回答前面。

這些問題在專業(yè)領(lǐng)域內(nèi)對(duì)參與討論的用戶造成的傷害尤其明顯。這絕不是我們希望看到的。于是，我們又設(shè)計(jì)了新的排序算法。

新排序算法的思想是，如果把一個(gè)回答展示給很多人看并讓他們投票，內(nèi)容質(zhì)量不同的回答會(huì)得到不同比例的贊同和反對(duì)票數(shù)，最終得到一個(gè)反映內(nèi)容質(zhì)量的得分。當(dāng)投票的人比較少時(shí)，可以根據(jù)已經(jīng)獲得的票數(shù)估計(jì)這個(gè)回答的質(zhì)量得分，投票的人越多則估計(jì)結(jié)果越接近真實(shí)得分。如果新一個(gè)回答獲得了 1 票贊同 0 票反對(duì)，也就是說參與投票的用戶 100% 都選了贊同，但是因?yàn)閿?shù)量太少，所以得分也不會(huì)太高。如果一小段時(shí)間后這個(gè)回答獲得了 20 次贊同 1 次反對(duì)，那么基于新算法，我們就有較強(qiáng)的信心把它排在另一個(gè)有 50 次贊同 20 次反對(duì)的回答前面。原因是我們預(yù)測(cè)當(dāng)這個(gè)回答同樣獲得 50 次贊同時(shí)，它獲得的反對(duì)數(shù)應(yīng)該會(huì)小于 20.

威爾遜得分算法最好的特性就是，即使前一步我們錯(cuò)了，現(xiàn)在這個(gè)新回答排到了前面，獲得了更多展示，在它得到更多投票后，算法便會(huì)自我修正，基于更多的投票數(shù)據(jù)更準(zhǔn)確地計(jì)算得分，從而讓排序最終能夠真實(shí)地反映內(nèi)容的質(zhì)量。

我們的新算法年初發(fā)布之后，得到知乎站內(nèi)的用戶熱烈反饋，也算是做知乎這樣產(chǎn)品的好處吧，很多專業(yè)的討論涌現(xiàn)出來，為我們下一步優(yōu)化提供了很好的想法。

首頁Feed的自我修養(yǎng)：內(nèi)容的個(gè)性化推薦

首頁的內(nèi)容會(huì)主要考慮這幾方面：

1、內(nèi)容本身的話題領(lǐng)域要跟用戶有關(guān)，是用戶感興趣的，一個(gè)對(duì)汽車不感興趣的用戶，即便給他推送最優(yōu)質(zhì)的汽車內(nèi)容，他也會(huì)覺得無趣。

2、知乎是一個(gè)社交網(wǎng)絡(luò)，用戶的社交行為會(huì)產(chǎn)生影響，用戶的行為會(huì)帶來關(guān)注他的人首頁的變化。

3時(shí)間因素，一些內(nèi)容及時(shí)出現(xiàn)在你面前，可以讓它的價(jià)值更大

知乎的首頁有一套專用的數(shù)據(jù)收集和處理機(jī)制，可以記錄用戶在首頁的所有重要?jiǎng)幼?，比如，如果某條內(nèi)容出現(xiàn)在用戶瀏覽器窗口或手機(jī)屏幕的可見范圍內(nèi)，就會(huì)記錄一次。

以及……

知乎還有一些其他的數(shù)據(jù)優(yōu)化，我舉幾個(gè)例子做簡(jiǎn)單介紹。

邀請(qǐng)回答

稍微熟悉知乎的用戶，應(yīng)該知道謝邀這個(gè)詞，這個(gè)產(chǎn)品功能是為每一個(gè)問題找到合適的回答者，推薦給用戶。我們采取一種算法模型預(yù)測(cè)某個(gè)用戶回答某問題的可能性和回答質(zhì)量。有 90% 的邀請(qǐng)是通過這種推薦結(jié)果發(fā)出的，剩下 10% 是用戶主動(dòng)搜索產(chǎn)生的

每周知乎精選郵件（eDM）

針對(duì)每個(gè)用戶做了個(gè)性化的計(jì)算，通過不斷的算法優(yōu)化，我們已經(jīng)做到了30%的打開率和14%的點(diǎn)擊率。

問題聚類

眾所周知想對(duì)問題的文本進(jìn)行聚類，最先想到的是通過文本語義匹配，通過復(fù)雜的詞袋模型（如傳統(tǒng)的plsa,LDA,新的word2vec等）對(duì)問題文本進(jìn)行向量化，這樣通過語義將相關(guān)問題聚類起來。

知乎站內(nèi)擁有龐大的用戶瀏覽數(shù)據(jù)，如果將這些瀏覽數(shù)據(jù)通過簡(jiǎn)單地算法（如協(xié)同過濾）建立一個(gè)模型同樣也能達(dá)到很好地效果。

知乎每天的問答瀏覽量能夠達(dá)到千萬級(jí)別，這樣就意味著輸入給算法的user-item的邊數(shù)每天能夠達(dá)到千萬以上，近3個(gè)月的瀏覽數(shù)據(jù)就可以達(dá)到10億條邊。在知乎的數(shù)據(jù)平臺(tái)上需要近一小時(shí)的時(shí)間來建立模型，從聚類的結(jié)果中可以看出，即使不使用任何文本相關(guān)的分析，單靠用戶瀏覽的行為分析就可以很好地對(duì)問題進(jìn)行聚類。

這也印證了一點(diǎn)：大數(shù)據(jù)基礎(chǔ)上的簡(jiǎn)單算法比小數(shù)據(jù)基礎(chǔ)上的復(fù)雜算法更加有效。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

下一篇

阿斯麥訂單“腰斬”股價(jià)暴跌16%，半導(dǎo)體產(chǎn)業(yè)寒冬來了？

阿斯麥訂單腰斬阿斯麥訂單阿斯麥股價(jià)暴跌

極客觀察

專題報(bào)道

企業(yè)專欄

簡(jiǎn)版
原版
投稿
回頂部

2015-09-06

知乎的另一面：如何用數(shù)據(jù)管理內(nèi)容

虎嗅注：知乎已經(jīng)走過了4年年頭，在互聯(lián)網(wǎng)的世界里，知乎已經(jīng)成為無可爭(zhēng)議的高質(zhì)量社區(qū)，但在經(jīng)歷了高速發(fā)展之后，如何管理，篩選，呈現(xiàn)這些大量的信息（數(shù)據(jù)）成為一個(gè)難題，事實(shí)上無論對(duì)于哪一個(gè)社區(qū)而言，數(shù)據(jù)的管理本身就是一個(gè)巨大的挑戰(zhàn)。下面是知乎聯(lián)合創(chuàng)始人在七牛大會(huì)上的關(guān)

長(zhǎng)按掃碼閱讀全文

<kbd id="61666"></kbd>

<samp id="61666"><video id="61666"><td id="61666"></td></video></samp>