精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>

<abbr id="ixlwe"></abbr>

<thead id="m6ui2"><legend id="m6ui2"></legend></thead>

<menu id="m6ui2"></menu>

直播
榜單
7x24h快訊

極客網(wǎng) > 7x24h快訊 > 極客快訊 >

GAITC 2021智媒專題論壇丨羅杰波：自動檢測虛假信息

人閱讀
2021-06-09 11:33:37
來源：西盟科技資訊
相關(guān)關(guān)鍵詞
- GAITC

6月6日下午，由中國人工智能學(xué)會(以下簡稱CAAI)主辦，新浪新聞聯(lián)合中國傳媒大學(xué)共同承辦的2021全球人工智能技術(shù)大會(GAITC 2021)“發(fā)展與挑戰(zhàn)”專題論壇在杭州拉開帷幕。羅徹斯特大學(xué)教授、ACM/AAAI/IEEE/SPIE/IAPR Fellow羅杰波在本次專題論壇上，以視頻接入的方式與來自業(yè)界，學(xué)術(shù)界的嘉賓們分享了《矛與盾：虛假信息的甄別與散布之戰(zhàn)》的報(bào)告。

GAITC 2021智媒專題論壇丨羅杰波：自動檢測虛假信息

羅徹斯特大學(xué)教授、ACM/AAAI/IEEE/SPIE/IAPR Fellow羅杰波。

羅杰波教授提到，社交媒體由于它的通用性和開放性，同時也帶來了其他問題。最大的問題就是虛假信息，包括謠言以及不實(shí)的消息，從而成為巨大的社會問題。為了控制謠言的散布增強(qiáng)新聞的可信度，我們必須用自動檢測的方法來檢測這些虛假信息。

以下為羅杰波教授演講實(shí)錄，內(nèi)容經(jīng)編輯略有刪減：

大家好，今天給大家報(bào)告的題目是《矛與盾：虛假信息的甄別與散布之戰(zhàn)》。社交媒體近年來已經(jīng)成為獲取新聞和了解輿情的重要渠道。社交媒體由于它的通用性和開放性，同時也帶來了其他問題。最大的問題就是虛假信息，包括謠言以及不實(shí)的消息，已經(jīng)成為巨大的社會問題，為了控制謠言的散布增強(qiáng)新聞的可信度，我們必須用自動檢測的方法來檢測這些虛假信息。

今天給大家介紹一下我的研究小組在這方面的工作，包括在一些重大的事件中謠言的影響。

眾所周知社交媒體上充滿各種謠言和虛假新聞。虛假信息檢測有很多的應(yīng)用，對于社交媒體平臺來說，這有助于保證他們的可信度;對于新聞、媒體來說，有助于保證新聞的可信度。

謠言檢測具體的做法有兩個重點(diǎn)：一點(diǎn)就是特征提取，另外一點(diǎn)就是建立一個檢測模型。從特征提取來說有這么幾大類：有文本的特征、有圖像的特征、有用戶的特征也有傳播的特征，這些特征都是有用的。

對于檢測模型來說有兩大類的方法，前期大家用的都是檢測模型，也就是說建立一個模型把任何一條新聞分類成要么是真實(shí)要么是虛假的。這是針對內(nèi)容來的，針對內(nèi)容的方法有一個缺點(diǎn)，它忽略了謠言傳播上的特性。

所以后來有以傳播模型為主的檢測方法，把新聞傳播中的各種entity變成了網(wǎng)絡(luò)，通過網(wǎng)絡(luò)的分析進(jìn)行謠言檢測。這樣的方法比前面根據(jù)內(nèi)容的方法一般來說要準(zhǔn)確的多。但我們可以證明把這兩種方法結(jié)合在一起，以取得最高的檢測度。

今天我大概介紹一下前期的三個工作和我們最近正在做的工作。前期三個工作第一個工作是AAAI2016的，它代表的是用graph-based傳播模型進(jìn)行檢測的。.ACM Multimedia 2017這個工作主要是對多媒體的內(nèi)容和特征進(jìn)行檢測。

先講第一個：我們想通過社交媒體上消息傳播過程中自然會產(chǎn)生的對立的觀點(diǎn)來進(jìn)行謠言檢測。圖示這個就是框架，有一條消息傳播的過程中有人支持這個消息有人反對這個消息。

有三條消息，這兩條消息互相支持，這兩條消息互相反對。對互相支持的消息來說，如果我們知道其中一條是可信的，那么另外一條也是可信的。反之，對立的觀點(diǎn)如果其中一個是真實(shí)的，那么另外一個就是虛假的。這個特性在以前的工作中沒有被采用，我們在這個工作中利用互相支持和互相反對的關(guān)系來做謠言檢測。

第一步首先要把互相支持和互相沖突的觀點(diǎn)找出來。首先有Topic Model，然后有傳播網(wǎng)絡(luò)，傳播網(wǎng)絡(luò)中把沖突的觀點(diǎn)找出來，也就是互相支持的消息就把它標(biāo)成綠的，互相反對就標(biāo)成紅的。

有了這樣的網(wǎng)絡(luò)之后可以計(jì)算這個可信度，具體的可以參見這篇論文，通過互相支持和互相反對的關(guān)系在網(wǎng)絡(luò)中把謠言要么證實(shí)要么證偽。

這是具體怎么計(jì)算傳播中權(quán)重的公式。下面講一下結(jié)果，我們會看到這兩個工作是前面的工作，是基于內(nèi)容的，第三個工作是我們計(jì)算所合作者組里早先的工作，他們考慮到了傳播中的特性。 CPCV就是我剛剛介紹的方法，是考慮到了傳播過程中消息之間互相支持互相反對的關(guān)系，因而我們?nèi)〉昧俗詈玫男Ч?值得一提的是這個方法CPCV有一個特點(diǎn)：謠言傳播的早期它的檢測的正確率很高，比起前人的工作來說很高。我們要控制謠言，當(dāng)然最好控制在早期和萌芽之中。這種方法給我們很重要的工具就是可以盡早地控制謠言，這就是我剛剛指出的優(yōu)點(diǎn)。

第二個工作是2017年的工作，就是怎么樣用多媒體的特征來進(jìn)行謠言檢測。我想強(qiáng)調(diào)一下我們是用圖像信息的，因?yàn)槲覀兪嵌嗝襟w信息。為什么圖像信息很重要?圖像在社交多媒體中越來越廣泛的應(yīng)用，新浪微博有一個統(tǒng)計(jì)，超過一半新浪微博的消息有圖片的。有圖片消息的傳播更為迅速，有統(tǒng)計(jì)表明，有圖片的微博和沒圖片的微博傳播的速度和數(shù)量差一個數(shù)量級。

我給大家舉個例子說明一下圖像在虛假消息中的價值，有的是張冠李戴，把早先出現(xiàn)的圖片安到新的事件上，有的是容易引起誤解的圖片。

還有一個虛假圖片，圖片是造出來。在帶圖片消息中文本和圖像都有可能暴露消息的虛假性，有的在圖片里，有的在文字里也是聳人聽聞的，因此暴露虛假性。

這個框架有三個部分：第一部分是通過LSTM來Model文本消息，當(dāng)然LSTM同時把文本和社交上下文信息整合在一起。第二部分這個網(wǎng)絡(luò)是提取視覺的特征，第三個部分的模塊通過注意力機(jī)制把文本信息，上下文信息和圖片的信息整合到一起進(jìn)行統(tǒng)一的訓(xùn)練。上下文我們指的是標(biāo)點(diǎn)符號的應(yīng)用和鏈接等等，這個看起來不是很多信息，但反而能夠暴露虛假信息。

最后這個注意力機(jī)制，把文本和視覺信息進(jìn)一步整合起來。我們做的實(shí)驗(yàn)就是用兩個都是多媒體的數(shù)據(jù)集，一個是從微博抓取的，一個是從推特抓取的。比如說單模態(tài)的做法，我們把三個模態(tài)分別拿來做監(jiān)測能做到什么效果。還有一個比較簡單、直觀的融合模型。還有，我們做了兩個以神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)整合的方式，一個是借用了VQA，另外一個是借用了NeuralTalk。我們把所有的其他方法跟我們提出的框架進(jìn)行對比，這些就是實(shí)驗(yàn)結(jié)果。有意思的是社交上下文的信息在微博里面比圖像和文本更有效，在推特就不是很有效，這說明文化上的差異。

我們也做了消融實(shí)驗(yàn)。一些用詞也會幫助我們檢測謠言，還有一些通過兩個模態(tài)分別不是很確定，加在一起就可以確信這個是虛假消息。

為了檢查相似度，第一大類方法是term based，主要是TF-IDF。有一個改進(jìn)的版本是BM25，是改進(jìn)了TF-IDF，是把數(shù)據(jù)進(jìn)行了歸一化。

講一下最新的工作，是針對新冠流行病的。這個工作還沒有發(fā)表，我們抓取了大概有160萬條關(guān)于新冠疫苗的推文。我們通過一些手段知道這些推文是不是發(fā)真實(shí)的消息或者謠言，要么是假的要么是正常的。我們借用美國CDC打疫苗的tracker還有統(tǒng)計(jì)局的數(shù)據(jù)，包括疫情的一些死亡率陽性率，最后用回歸進(jìn)行分析。有關(guān)疫苗的虛假信息占比情況大概是1%左右，平均下來大概不到1%是謠言。

下面用了time window計(jì)算謠言的數(shù)量。這邊time window用的是四天，另外正常發(fā)的消息用的是五天。為什么用四天和五天呢?是通過Granger Causality test決定的。關(guān)于疫情或者疫苗用的是七天，這些做法都是為了去除噪聲。

我們怎么把這些變量加到回歸關(guān)系中去?早先被另外一個研究組用的時候，他們考慮一些用戶的特性，比如說性別、年齡等等。我們同時也考慮了用戶的經(jīng)濟(jì)能力等等。

最后提一下另外的相關(guān)工作。現(xiàn)在網(wǎng)絡(luò)上有很多散布仇恨的言論，有一個現(xiàn)象就是這些散布仇恨言論的人，他們會試圖逃避檢測軟件。檢測軟件會靠關(guān)鍵字檢測仇恨言論，為了逃避這些檢測，他們用了代碼，這個是比較狡猾的方法。

我們做了一個工作，我們檢測這些仇恨言論，是通過仇恨代碼，而不是根據(jù)關(guān)鍵字。而且是根據(jù)文字上下文來檢測是不是仇恨言論。還有一個特點(diǎn)，這個方法可以繼續(xù)跟蹤仇恨代碼演變。這些散布仇恨的人很狡猾，當(dāng)他們知道軟件發(fā)現(xiàn)是這樣用的時候會改仇恨代碼。我們怎么樣持續(xù)地跟蹤?我們是用自然語言理解的方法分析經(jīng)常出現(xiàn)在一起別的信息，只要這些別的信息同時出現(xiàn)，可以反推，繼續(xù)跟蹤。

最后我做個小結(jié)。第一，虛假信息檢測是非常重要的研究方向，同時對社會有很大的應(yīng)用價值。第二，虛假信息檢測中多媒體內(nèi)容的分析非常重要，而且可以和信息傳播的分析一起結(jié)合來提高檢測率。第三，現(xiàn)在講可解釋的AI，對虛假信息檢測而言可解釋性也很重要，我們要知道為什么算法說它是虛假信息。

最后，在重大事件期間通過檢測和發(fā)現(xiàn)虛假信息，我們可以發(fā)現(xiàn)很重要的公共意見和輿情信息。關(guān)于虛假信息散布和甄別的戰(zhàn)爭是長期的戰(zhàn)爭，將會是一個持續(xù)的研究課題。

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請進(jìn)一步核實(shí)，并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時，應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）

極客觀察

贊助商

簡版
原版
投稿
回頂部