近日,阿里安全宣布,面對“多人運(yùn)動(dòng)”“王者五排”等不斷變異升級(jí)的黑話暗語,阿里AI鑒黃技術(shù)能力升級(jí),可精準(zhǔn)快速地進(jìn)行識(shí)別攔截。這對人工智能技術(shù)的發(fā)展具有非常重要的意義,讓AI引入知識(shí)后并不對原始語義產(chǎn)生曲解,正是訓(xùn)練智能AI模型需要重點(diǎn)解決的難題。
涉黃黑話變異升級(jí)難識(shí)別
在內(nèi)容安全場景下,黑灰產(chǎn)通常會(huì)利用黑話來繞開檢測引擎,比如會(huì)出現(xiàn)這種語句“小哥哥,要不要來我們這里多人運(yùn)動(dòng)???”“大號(hào)玻璃過濾彩珠大水瓶 玻璃水壺全套配件到手即用”。
“這對人工智能技術(shù)帶來了非常大的挑戰(zhàn)。”阿里安全高級(jí)算法專家開陽表示,目前谷歌發(fā)布的BERT自然語言處理模型已經(jīng)在文本理解領(lǐng)域取得了突破性進(jìn)展,但在識(shí)別上述黑話時(shí)仍難以發(fā)揮作用,尚不能撕掉黑話的“偽裝”,辨別其指代“色情、毒品”的本來含義。
對此,開陽解釋,技術(shù)和預(yù)訓(xùn)練語言模型有一定局限性,經(jīng)過大量公開語料進(jìn)行學(xué)習(xí)訓(xùn)練后,模型能理解字、詞、句之間的語義關(guān)系,比如判斷“足球”跟“多人運(yùn)動(dòng)”屬于同類話題;“水壺”“器皿”和“燒水”屬于同類話題。
“‘多人運(yùn)動(dòng)’等黑話通常背后由某個(gè)特定事件造成,這些事件比較隨機(jī),也無規(guī)律可循。”開陽介紹稱,這樣的語料難以積累,加上占比極低,建立預(yù)訓(xùn)練模型變得不太容易。
AI技術(shù)升級(jí)可理解文字語義
那么,鑒黃機(jī)器人能否接收到“多人運(yùn)動(dòng)”黑話背后的事件信息,從而給出更精準(zhǔn)的判斷?
開陽稱,阿里新一代安全架構(gòu)核心AI技術(shù)可以做到這一點(diǎn)。他介紹,如果過去的鑒黃AI只停留在識(shí)別直觀的“圖片、字符串、語音”這些表層信息上,升級(jí)之后的鑒黃AI則可以理解字符串背后的深意。如果看到“小哥哥,要不要來我們這里多人運(yùn)動(dòng)???”這樣的語句,AI經(jīng)智能分析后可識(shí)別出這是一條色情信息。
“升級(jí)后的AI鑒黃師增加了基于知識(shí)圖譜的識(shí)別黑話的能力,將人工經(jīng)驗(yàn)知識(shí)引入,讓機(jī)器智能與人工經(jīng)驗(yàn)更好地結(jié)合,大大提升了文本理解與語義識(shí)別的能力?!遍_陽介紹,這也是技術(shù)升級(jí)后的最大亮點(diǎn),只需要把新的黑話知識(shí)添加到知識(shí)圖譜中就可生效,發(fā)現(xiàn)輿情事件導(dǎo)致的變異時(shí)間可能在小時(shí)級(jí),但識(shí)別只需幾十毫秒。
簡單而言,就是以熱點(diǎn)事件為中心,圍繞事件本身,將相關(guān)聯(lián)的人物、事件、特定的詞語繪成一張關(guān)聯(lián)圖譜。以“多人運(yùn)動(dòng)”為例,將出軌事件新聞作為核心,關(guān)聯(lián)該事件的男女主角、事件引發(fā)的熱詞“多人運(yùn)動(dòng)”“王者五排”“群P”等。
圖說:以羅XX事件為例打造的關(guān)聯(lián)圖譜
由于升級(jí)后的技術(shù)可識(shí)別更隱晦、內(nèi)涵的風(fēng)險(xiǎn)內(nèi)容,AI技術(shù)除在鑒黃領(lǐng)域大有可為外,還能大大提升與其他黑灰產(chǎn)變異升級(jí)的對抗能力?!拔覀兊哪P湍茚槍π率录焖俑兄?,基于事件發(fā)掘新關(guān)聯(lián)詞,并構(gòu)建知識(shí),及時(shí)為新風(fēng)險(xiǎn)識(shí)別提供能力?!遍_陽說。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )