精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>
  • <span id="ixlwe"></span>

  • <abbr id="ixlwe"></abbr>

    “重復(fù)”內(nèi)容識別:一場人類與機器間的智能競賽

    有時候,人類與機器在判斷哪些內(nèi)容屬于“重復(fù)內(nèi)容”時會產(chǎn)生某些分歧。

    機器學(xué)習(xí)與基于算法的智能系統(tǒng)雖然擁有令人印象深刻的表現(xiàn),但同時也缺少人類天然存在的一種能力:常識。

    眾所周知,在多個頁面上放置相同的內(nèi)容會產(chǎn)生重復(fù)內(nèi)容。但是,如果我們打算在多個頁面內(nèi)生成關(guān)于相似事物的內(nèi)容,又會發(fā)生怎樣的情況?算法會將其標(biāo)記為“重復(fù)”,但人類則能夠輕松區(qū)分這些頁面:

    -電子商務(wù):具有多種變體或關(guān)鍵差異的類似產(chǎn)品。

    -旅游:酒店分店、目的地套餐、內(nèi)容相似。

    -分類:相同項目的詳盡清單。

    -企業(yè):本地分支機構(gòu)的頁面,在不同地區(qū)提供相同的服務(wù)。

    為什么會出現(xiàn)這些問題?我們該如何發(fā)現(xiàn)此類問題?又應(yīng)怎樣解決這些問題?

    重復(fù)內(nèi)容的風(fēng)險

    在用戶進(jìn)行搜索時,重復(fù)內(nèi)容會通過以下方式影響您的網(wǎng)站對用戶的可見性:

    -因無意中存在相同關(guān)鍵詞而失去唯一匹配網(wǎng)頁的排名。

    -由于谷歌只會選擇其中一個網(wǎng)頁作為規(guī)范化,因此無法對群組中的網(wǎng)頁進(jìn)行排名。

    -由于內(nèi)容被嚴(yán)重簡化,因此失去網(wǎng)站權(quán)威性。

    機器如何識別重復(fù)內(nèi)容

    谷歌公司利用多種算法確定兩個頁面或者頁面中的多個部分是否存在內(nèi)容重復(fù),谷歌將根據(jù)相關(guān)結(jié)果將內(nèi)容判定為“明顯相似”。

    谷歌公司的相似性檢測基于其專利Simhash算法。這種算法能夠分析網(wǎng)頁當(dāng)中的內(nèi)容塊,而后將每個內(nèi)容塊計算為唯一標(biāo)識符,最終為各個頁面生成一個散列,或者稱為“指紋”。

    由于網(wǎng)頁數(shù)量巨大,因此可擴展性至關(guān)重要。目前,Simhash是唯一可行的大規(guī)模重復(fù)內(nèi)容查找方法。

    Simhash指紋擁有以下特性:

    -計算成本低廉。其以目標(biāo)頁面的單一爬取結(jié)果為生成基礎(chǔ)。

    -由于長度固定,因此不同指紋間易于比較。

    -能夠找到具有高重復(fù)可能性的內(nèi)容。與其它多種算法不同,Simhash能夠?qū)㈨撁嫔系奈⑿∽兓w現(xiàn)為散列中的微小變化。

    最后一點意味著任何兩個指紋之間的差異都可以通過算法進(jìn)行衡量,并表示為百分比形式。為了降低每個頁面的評估成本,谷歌公司采用了以下技術(shù):

    -聚類:將多組具有一定相似度的頁面分于同一群組。由于其它所有不同分類的指紋都已經(jīng)被排除,因此只需要比較該群組內(nèi)的指紋,即可得出相對正確的結(jié)論。

    -評估:對于規(guī)模極為龐大的聚類,在計算一定數(shù)量的指紋之后利用平均相似性進(jìn)行判斷。

    比較頁面指紋。圖片來源:用于網(wǎng)絡(luò)爬取的近重復(fù)文檔檢測(歸谷歌所有)

    最后,谷歌方面利用加權(quán)相似率排除具有相同內(nèi)容的特定內(nèi)容塊(樣板:標(biāo)題、導(dǎo)航、側(cè)邊欄、頁腳;免責(zé)聲明等)。其會考慮到頁面主題,并利用n-gram分析來確定頁面上出現(xiàn)頻率最高的詞語,同時結(jié)合站點上下文判斷這些詞語的重要性。

    利用Simhash分析重復(fù)內(nèi)容

    我們將利用Simhash查看被標(biāo)記為相似的內(nèi)容聚類圖。此圖表來自O(shè)nCrawl,其中涵蓋了對重復(fù)內(nèi)容聚類中重復(fù)內(nèi)容策略的分析過程。

    OnCrawl的內(nèi)容分析還包括相似率、內(nèi)容聚類以及n-gram分析。OnCrawl也在開發(fā)一款實驗性熱圖,希望直接覆蓋在網(wǎng)頁之上表示各個內(nèi)容塊的相似性。

    按內(nèi)容相似性進(jìn)行網(wǎng)站繪圖。其中每個塊代表具有類似內(nèi)容的聚類,不同顏色則表示每個聚類間規(guī)范化化策略的一致性。資源來源:OnCrawl。

    利用規(guī)范化進(jìn)行聚類驗證

    利用規(guī)范化URL指示一組相似頁面當(dāng)中的主頁面,使得我們能夠主動對大量頁面進(jìn)行聚類。在理想情況下,以規(guī)范化為基礎(chǔ)建立的聚類應(yīng)該與由Simhash建立的聚類完全相同。

    規(guī)范化聚類與相似性聚類(綠色部分)間的匹配結(jié)果。結(jié)論:有6頁內(nèi)容為100%相似,這意味著您的規(guī)范化策略與谷歌的Simhash分析以同樣的方式對其進(jìn)行處理。

    如果結(jié)果與上圖不符,則通常意味著您的網(wǎng)站之上不存在規(guī)范化策略:

    無規(guī)范化聲明:各個包含成百上千個頁面的聚類之間,擁有著99%到100%的平均相似度。谷歌公司可能會采用規(guī)范URL。您無法控制哪些頁面參與排名,哪些不參與。

    或者,由于您的規(guī)范化策略與谷歌在類似內(nèi)容的聚類處理方法之間存在沖突:

    規(guī)范化問題:相似性超過80%且各聚類擁有多個標(biāo)準(zhǔn)URL的大型聚類。谷歌公司會強制使用自己的標(biāo)準(zhǔn)URL,或者將您希望保留的重復(fù)頁面索引排除在搜索索引之外。

    您網(wǎng)站的聚類與以上聚類不同。您已經(jīng)遵循了重復(fù)內(nèi)容的最佳處理實踐,包含相同內(nèi)容的URL(例如可打?。苿影姹净駽MS生成的備用網(wǎng)址)會聲明正確的規(guī)范URL。

    在規(guī)范化處理后繪制出的相似性聚類。

    過濾掉由規(guī)范化策略正確處理的重復(fù)內(nèi)容。其余的非規(guī)范化URL即為您希望進(jìn)行排名的頁面。

    以原有映射圖為基礎(chǔ),移除已驗證(綠色)聚類以及相似性低于80%的聚類。其余46個聚類中,大部分只包含2個頁面。

    仍然出現(xiàn)在基于Simhash與語義分析聚類中的URL,即為您與谷歌認(rèn)為存在重復(fù)問題的頁面。

    12下一頁>

    (免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
    任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )

    贊助商
    2019-03-07
    “重復(fù)”內(nèi)容識別:一場人類與機器間的智能競賽
    有時候,人類與機器在判斷哪些內(nèi)容屬于“重復(fù)內(nèi)容”時會產(chǎn)生某些分歧。機器學(xué)習(xí)與基于算法的智能系統(tǒng)雖然擁有令人印象深刻的表現(xiàn),但同時也缺少人類天然存在的一種能力:常識。

    長按掃碼 閱讀全文