6月6日下午,由中國人工智能學(xué)會(以下簡稱CAAI)主辦,新浪新聞聯(lián)合中國傳媒大學(xué)共同承辦的2021全球人工智能技術(shù)大會(GAITC 2021)“發(fā)展與挑戰(zhàn)”專題論壇在杭州拉開帷幕。羅徹斯特大學(xué)教授、ACM/AAAI/IEEE/SPIE/IAPR Fellow羅杰波在本次專題論壇上,以視頻接入的方式與來自業(yè)界,學(xué)術(shù)界的嘉賓們分享了《矛與盾:虛假信息的甄別與散布之戰(zhàn)》的報(bào)告。
羅徹斯特大學(xué)教授、ACM/AAAI/IEEE/SPIE/IAPR Fellow羅杰波。
羅杰波教授提到,社交媒體由于它的通用性和開放性,同時也帶來了其他問題。最大的問題就是虛假信息,包括謠言以及不實(shí)的消息,從而成為巨大的社會問題。為了控制謠言的散布增強(qiáng)新聞的可信度,我們必須用自動檢測的方法來檢測這些虛假信息。
以下為羅杰波教授演講實(shí)錄,內(nèi)容經(jīng)編輯略有刪減:
大家好,今天給大家報(bào)告的題目是《矛與盾:虛假信息的甄別與散布之戰(zhàn)》。社交媒體近年來已經(jīng)成為獲取新聞和了解輿情的重要渠道。社交媒體由于它的通用性和開放性,同時也帶來了其他問題。最大的問題就是虛假信息,包括謠言以及不實(shí)的消息, 已經(jīng)成為巨大的社會問題,為了控制謠言的散布增強(qiáng)新聞的可信度,我們必須用自動檢測的方法來檢測這些虛假信息。
今天給大家介紹一下我的研究小組在這方面的工作,包括在一些重大的事件中謠言的影響。
眾所周知社交媒體上充滿各種謠言和虛假新聞。虛假信息檢測有很多的應(yīng)用,對于社交媒體平臺來說,這有助于保證他們的可信度;對于新聞、媒體來說,有助于保證新聞的可信度。
謠言檢測具體的做法有兩個重點(diǎn):一點(diǎn)就是特征提取,另外一點(diǎn)就是建立一個檢測模型。從特征提取來說有這么幾大類:有文本的特征、有圖像的特征、有用戶的特征也有傳播的特征,這些特征都是有用的。
對于檢測模型來說有兩大類的方法,前期大家用的都是檢測模型,也就是說建立一個模型把任何一條新聞分類成要么是真實(shí)要么是虛假的。這是針對內(nèi)容來的,針對內(nèi)容的方法有一個缺點(diǎn),它忽略了謠言傳播上的特性。
所以后來有以傳播模型為主的檢測方法,把新聞傳播中的各種entity變成了網(wǎng)絡(luò),通過網(wǎng)絡(luò)的分析進(jìn)行謠言檢測。這樣的方法比前面根據(jù)內(nèi)容的方法一般來說要準(zhǔn)確的多。但我們可以證明把這兩種方法結(jié)合在一起,以取得最高的檢測度。
今天我大概介紹一下前期的三個工作和我們最近正在做的工作。前期三個工作第一個工作是AAAI2016的,它代表的是用graph-based傳播模型進(jìn)行檢測的。.ACM Multimedia 2017這個工作主要是對多媒體的內(nèi)容和特征進(jìn)行檢測。
先講第一個:我們想通過社交媒體上消息傳播過程中自然會產(chǎn)生的對立的觀點(diǎn)來進(jìn)行謠言檢測。 圖示這個就是框架,有一條消息傳播的過程中有人支持這個消息有人反對這個消息。
有三條消息,這兩條消息互相支持,這兩條消息互相反對。 對互相支持的消息來說,如果我們知道其中一條是可信的,那么另外一條也是可信的。反之,對立的觀點(diǎn)如果其中一個是真實(shí)的,那么另外一個就是虛假的。 這個特性在以前的工作中沒有被采用,我們在這個工作中利用互相支持和互相反對的關(guān)系來做謠言檢測。
第一步首先要把互相支持和互相沖突的觀點(diǎn)找出來。 首先有Topic Model,然后有傳播網(wǎng)絡(luò),傳播網(wǎng)絡(luò)中把沖突的觀點(diǎn)找出來,也就是互相支持的消息就把它標(biāo)成綠的,互相反對就標(biāo)成紅的。
有了這樣的網(wǎng)絡(luò)之后可以計(jì)算這個可信度,具體的可以參見這篇論文,通過互相支持和互相反對的關(guān)系在網(wǎng)絡(luò)中把謠言要么證實(shí)要么證偽。
這是具體怎么計(jì)算傳播中權(quán)重的公式。下面講一下結(jié)果,我們會看到這兩個工作是前面的工作,是基于內(nèi)容的,第三個工作是我們計(jì)算所合作者組里早先的工作,他們考慮到了傳播中的特性。 CPCV就是我剛剛介紹的方法,是考慮到了傳播過程中消息之間互相支持互相反對的關(guān)系,因而我們?nèi)〉昧俗詈玫男Ч?值得一提的是這個方法CPCV有一個特點(diǎn):謠言傳播的早期它的檢測的正確率很高,比起前人的工作來說很高。 我們要控制謠言,當(dāng)然最好控制在早期和萌芽之中。 這種方法給我們很重要的工具就是可以盡早地控制謠言,這就是我剛剛指出的優(yōu)點(diǎn)。
第二個工作是2017年的工作,就是怎么樣用多媒體的特征來進(jìn)行謠言檢測。 我想強(qiáng)調(diào)一下我們是用圖像信息的,因?yàn)槲覀兪嵌嗝襟w信息。 為什么圖像信息很重要?圖像在社交多媒體中越來越廣泛的應(yīng)用,新浪微博有一個統(tǒng)計(jì),超過一半新浪微博的消息有圖片的。 有圖片消息的傳播更為迅速,有統(tǒng)計(jì)表明,有圖片的微博和沒圖片的微博傳播的速度和數(shù)量差一個數(shù)量級。
我給大家舉個例子說明一下圖像在虛假消息中的價值,有的是張冠李戴,把早先出現(xiàn)的圖片安到新的事件上,有的是容易引起誤解的圖片。
還有一個虛假圖片,圖片是造出來。 在帶圖片消息中文本和圖像都有可能暴露消息的虛假性,有的在圖片里,有的在文字里也是聳人聽聞的,因此暴露虛假性。
這個框架有三個部分:第一部分是通過LSTM來Model文本消息,當(dāng)然LSTM同時把文本和社交上下文信息整合在一起。第二部分這個網(wǎng)絡(luò)是提取視覺的特征,第三個部分的模塊通過注意力機(jī)制把文本信息,上下文信息和圖片的信息整合到一起進(jìn)行統(tǒng)一的訓(xùn)練。 上下文我們指的是標(biāo)點(diǎn)符號的應(yīng)用和鏈接等等,這個看起來不是很多信息,但反而能夠暴露虛假信息。
最后這個注意力機(jī)制,把文本和視覺信息進(jìn)一步整合起來。 我們做的實(shí)驗(yàn)就是用兩個都是多媒體的數(shù)據(jù)集,一個是從微博抓取的,一個是從推特抓取的。比如說單模態(tài)的做法,我們把三個模態(tài)分別拿來做監(jiān)測能做到什么效果。 還有一個比較簡單、直觀的融合模型。還有,我們做了兩個以神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)整合的方式,一個是借用了VQA,另外一個是借用了NeuralTalk。我們把所有的其他方法跟我們提出的框架進(jìn)行對比,這些就是實(shí)驗(yàn)結(jié)果。 有意思的是社交上下文的信息在微博里面比圖像和文本更有效,在推特就不是很有效,這說明文化上的差異。
我們也做了消融實(shí)驗(yàn)。 一些用詞也會幫助我們檢測謠言,還有一些通過兩個模態(tài)分別不是很確定,加在一起就可以確信這個是虛假消息。
為了檢查相似度, 第一大類方法是term based, 主要是TF-IDF。 有一個改進(jìn)的版本是BM25,是改進(jìn)了TF-IDF,是把數(shù)據(jù)進(jìn)行了歸一化。
講一下最新的工作,是針對新冠流行病的。這個工作還沒有發(fā)表,我們抓取了大概有160萬條關(guān)于新冠疫苗的推文。 我們通過一些手段知道這些推文是不是發(fā)真實(shí)的消息或者謠言,要么是假的要么是正常的。我們借用美國CDC打疫苗的tracker還有統(tǒng)計(jì)局的數(shù)據(jù),包括疫情的一些死亡率陽性率,最后用回歸進(jìn)行分析。有關(guān)疫苗的虛假信息占比情況大概是1%左右,平均下來大概不到1%是謠言。
下面用了time window計(jì)算謠言的數(shù)量。這邊time window用的是四天,另外正常發(fā)的消息用的是五天。為什么用四天和五天呢?是通過Granger Causality test決定的。關(guān)于疫情或者疫苗用的是七天,這些做法都是為了去除噪聲。
我們怎么把這些變量加到回歸關(guān)系中去?早先被另外一個研究組用的時候,他們考慮一些用戶的特性,比如說性別、年齡等等。 我們同時也考慮了用戶的經(jīng)濟(jì)能力等等。
最后提一下另外的相關(guān)工作。 現(xiàn)在網(wǎng)絡(luò)上有很多散布仇恨的言論,有一個現(xiàn)象就是這些散布仇恨言論的人,他們會試圖逃避檢測軟件。 檢測軟件會靠關(guān)鍵字檢測仇恨言論,為了逃避這些檢測,他們用了代碼,這個是比較狡猾的方法。
我們做了一個工作,我們檢測這些仇恨言論,是通過仇恨代碼,而不是根據(jù)關(guān)鍵字。 而且是根據(jù)文字上下文來檢測是不是仇恨言論。 還有一個特點(diǎn), 這個方法可以繼續(xù)跟蹤仇恨代碼演變。 這些散布仇恨的人很狡猾,當(dāng)他們知道軟件發(fā)現(xiàn)是這樣用的時候會改仇恨代碼。我們怎么樣持續(xù)地跟蹤?我們是用自然語言理解的方法分析經(jīng)常出現(xiàn)在一起別的信息,只要這些別的信息同時出現(xiàn),可以反推,繼續(xù)跟蹤。
最后我做個小結(jié)。 第一,虛假信息檢測是非常重要的研究方向,同時對社會有很大的應(yīng)用價值。第二,虛假信息檢測中多媒體內(nèi)容的分析非常重要,而且可以和信息傳播的分析一起結(jié)合來提高檢測率。 第三, 現(xiàn)在講可解釋的AI,對虛假信息檢測而言可解釋性也很重要,我們要知道為什么算法說它是虛假信息。
最后,在重大事件期間通過檢測和發(fā)現(xiàn)虛假信息,我們可以發(fā)現(xiàn)很重要的公共意見和輿情信息。關(guān)于虛假信息散布和甄別的戰(zhàn)爭是長期的戰(zhàn)爭,將會是一個持續(xù)的研究課題。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )