6月23日,由中國(guó)人工智能學(xué)會(huì)主辦,CAAI 智能傳媒專業(yè)委員會(huì)、中國(guó)傳媒大學(xué)數(shù)據(jù)科學(xué)與智能媒體學(xué)院、媒體融合與傳播國(guó)家重點(diǎn)實(shí)驗(yàn)室、新浪新聞承辦的主題為“變量激蕩 增量涌現(xiàn)”2024全球人工智能技術(shù)大會(huì) 智能傳媒專題活動(dòng)在杭州拉開(kāi)帷幕。上海交通大學(xué)電子信息與電氣工程學(xué)院教授、國(guó)家杰青獲得者翟廣濤分享了題為《視覺(jué)質(zhì)量的腦機(jī)制探索》的演講。
翟廣濤主題演講中。
以下是翟廣濤演講實(shí)錄,內(nèi)容經(jīng)編輯略有刪減:
感謝大家來(lái)聆聽(tīng)這個(gè)報(bào)告。
智能傳媒論壇,我們還是從傳媒的角度切入。傳媒內(nèi)容的演進(jìn),從PGC、UGC、P-UGC、AIGC,再到全部的AIGC有一個(gè)過(guò)程,我們?cè)谶@個(gè)演進(jìn)的過(guò)程中會(huì)遇到各種各樣關(guān)于質(zhì)量的問(wèn)題。比如在PGC時(shí)代,我們有一些壓縮傳輸方面的事情要考慮;在UGC時(shí)代是拍攝的環(huán)境、拍攝的設(shè)備不好;在P-UGC時(shí)代,所謂大V產(chǎn)生的內(nèi)容,是構(gòu)圖、美感方面的內(nèi)容。在AI-UGC時(shí)代,我們產(chǎn)生的圖像到底跟我們的預(yù)期符合不符合,還有產(chǎn)生的圖像本身質(zhì)量好不好的問(wèn)題;到了全部AIGC時(shí)代,可能質(zhì)量問(wèn)題就被解決了。
(圖示)一般說(shuō)到視覺(jué)質(zhì)量這件事,老是拿這個(gè)圖作為切入,剛才在隔壁我已經(jīng)用過(guò)一次了,有些人聽(tīng)過(guò)一遍了。網(wǎng)上的內(nèi)容80%都是視頻,但是80%的視頻其中1%的視頻看了99%的時(shí)間,剩下80%的時(shí)間基本上沒(méi)有人看,主要是因?yàn)橘|(zhì)量太差。我們?nèi)ピu(píng)測(cè)質(zhì)量好不好,可以從主觀角度我們自己來(lái)看,也可以用計(jì)算機(jī)來(lái)實(shí)現(xiàn),必須用計(jì)算機(jī)才能滿足我們目前的需求。從視覺(jué)質(zhì)量來(lái)看,無(wú)論是在采集、處理、傳輸、顯示還是在改制的過(guò)程中,都有一些讓人對(duì)它的質(zhì)量產(chǎn)生不滿意的地方。從質(zhì)量評(píng)價(jià)研究角度來(lái)看,一般我們追溯它到Hubel&T.Wiesel的諾貝爾獎(jiǎng),到D.Marr的計(jì)算視覺(jué)/計(jì)算神經(jīng)學(xué)方面的研究。到了近代,D.Mumford做了一些關(guān)于自然圖像統(tǒng)計(jì)方面的研究,A.Bovik在2000年左右開(kāi)啟了SCM近代我們用的質(zhì)量評(píng)價(jià)方面的研究。
再往后看就有點(diǎn)意思了,在2010年左右,K.Friston提出來(lái)感知自由能原理,再往下是深度學(xué)習(xí)的方法、CNN的方法、大模型的方法逐漸得到了應(yīng)用。但是反過(guò)來(lái)看,從2010年之后,視覺(jué)感知質(zhì)量的腦機(jī)制的研究基本上沒(méi)有人做了。我們現(xiàn)在有一些工作評(píng)測(cè)大模型的視覺(jué)能力,尤其是Low-level Vision的能力,在這個(gè)評(píng)測(cè)過(guò)程中,假設(shè)Low-level Vision包括了視覺(jué)質(zhì)量感知的能力,視覺(jué)質(zhì)量感知這個(gè)具體的過(guò)程由于時(shí)間所限不展開(kāi)介紹了。進(jìn)一步我們還可以提升多模態(tài)大模型的Low-level Vision的能力,比如去判斷這個(gè)圖片是不是模糊,去描述這個(gè)圖像關(guān)于質(zhì)量方面的內(nèi)容。這個(gè)工作目前比較重要,大家比較關(guān)心的一個(gè)領(lǐng)域。但是我們一直把跟質(zhì)量感知相關(guān)的內(nèi)容稱之為是Low-level Vision,這個(gè)事對(duì)不對(duì),至少?gòu)奈疫@個(gè)角度,我做這個(gè)研究已經(jīng)20年了,很困擾我,就是到底是不是一個(gè)Low-level Vision的命令?所以我們近期在這個(gè)領(lǐng)域做了一些探索,也跟大家分享一下。
這個(gè)探索怎么做?就是我們把人放在磁共振里面去,給人看圖片,把響應(yīng)記錄下來(lái),做了一些分析。要解決的問(wèn)題有三個(gè):第一是我們看一下大腦在觀看不同內(nèi)容、不同質(zhì)量水平圖像的時(shí)候到底是什么狀態(tài),有沒(méi)有一個(gè)腦區(qū)對(duì)這個(gè)質(zhì)量比較敏感;第二是探索視覺(jué)質(zhì)量跟腦區(qū)連接功能之間的關(guān)系;第三是能不能做解碼,就是我們能不能從磁共振響應(yīng)里面去解碼我們看過(guò)的圖像質(zhì)量。
這個(gè)過(guò)程有一些基礎(chǔ)的知識(shí),不細(xì)說(shuō)了。我們采用了一種混合的模型設(shè)計(jì),找了18個(gè)被試,基本上都是我們的學(xué)生,10男8女。我們的圖像是從目前的質(zhì)量評(píng)價(jià)數(shù)據(jù)集里面選的,選圖像的時(shí)候我們注意的內(nèi)容分為三類:人臉、物體和場(chǎng)景。質(zhì)量有高中低三級(jí),一次掃描是4block,一共做8次,總共是32個(gè)block,有一些隨機(jī)發(fā)明的設(shè)計(jì)。人塞到這個(gè)磁共振里面,上面有一個(gè)鏡子,鏡子背后有一個(gè)顯示器,這個(gè)顯示器和磁共振是兼容的,所以躺在這里能看到圖像。打分怎么打呢?人的左手和右手分別有兩個(gè)手柄,左手有兩個(gè)按鈕,右手有兩個(gè)按鈕,我們可以通過(guò)這樣的方式收集他對(duì)質(zhì)量的反饋。
有一些有意思的結(jié)論,第一個(gè)結(jié)論是高質(zhì)量圖像的質(zhì)量評(píng)價(jià)速度顯著快于中低質(zhì)量,這個(gè)好理解,我們看到高質(zhì)量的時(shí)候,我們要做質(zhì)量評(píng)價(jià)這件事就做得非???。低質(zhì)量圖像語(yǔ)義判別速度顯著慢于中高質(zhì)量,這個(gè)也非常好理解,給你一個(gè)低質(zhì)量圖像,我問(wèn)你看上去是人臉還是物體,受到質(zhì)量的影響所以這個(gè)比較慢,因?yàn)榈唾|(zhì)量圖像中的失真使得語(yǔ)義識(shí)別更加困難。第三個(gè)是語(yǔ)義對(duì)質(zhì)量判別的速度沒(méi)有顯著影響,就是看不同的圖像問(wèn)你質(zhì)量好壞,不同圖像的內(nèi)容對(duì)這個(gè)事沒(méi)有什么影響。第四個(gè)也比較顯然,在于分類任務(wù)里頭,對(duì)人臉的響應(yīng)顯然是最快的,因?yàn)槲覀冇幸粋€(gè)區(qū)域是專門進(jìn)化用來(lái)處理人臉的,所以這個(gè)評(píng)價(jià)比較快,這是一個(gè)行為學(xué)方面的分析。
如果我們做兩個(gè)任務(wù),內(nèi)容分類是QAvsCC Task,這兩個(gè)任務(wù)進(jìn)行比較,也有幾個(gè)比較有意思的結(jié)論。
第一個(gè)是在質(zhì)量評(píng)價(jià)過(guò)程之中,更多的視覺(jué)輔助通路被激活了,包括額上回、右腦島、額下回等等,也就是一些比較高級(jí)的視覺(jué)區(qū)域,在做質(zhì)量評(píng)價(jià)任務(wù)的時(shí)候被激活。
(圖示)這是一個(gè)功能連接的示意圖,左邊是做質(zhì)量評(píng)價(jià)的時(shí)候功能連接,右邊是做場(chǎng)景分類的時(shí)候功能連接。簡(jiǎn)單說(shuō)一下,藍(lán)色是負(fù)項(xiàng)連接,紅色是正項(xiàng)連接,兩種任務(wù)都出現(xiàn)了跟體感、運(yùn)動(dòng)、調(diào)節(jié)相關(guān)的區(qū)域負(fù)相關(guān),意思是說(shuō)我們做這個(gè)任務(wù)的時(shí)候人不動(dòng),要控制自己的注意力,這些都是正常的現(xiàn)象。更重要的是下面的這幾個(gè)結(jié)論,質(zhì)量評(píng)價(jià)任務(wù)涉及了更加復(fù)雜的功能連接,這邊的功能連接是質(zhì)量評(píng)價(jià)的,比場(chǎng)景分類的要更分析一些,因?yàn)橘|(zhì)量評(píng)價(jià)任務(wù)強(qiáng)調(diào)了同時(shí)是高級(jí)和詳細(xì)的視覺(jué)感知,而內(nèi)容分類任務(wù)傾向于是一種初級(jí)和快速的視覺(jué)反應(yīng)。
質(zhì)量評(píng)價(jià)涉及了比較高級(jí)的皮層,枕下外側(cè)皮層、顳枕葉梭狀皮層,抑制了很多非直接相關(guān)的體感、運(yùn)動(dòng)或注意力資源的分配,確保我們?cè)谫|(zhì)量評(píng)價(jià)過(guò)程中對(duì)圖像的細(xì)節(jié)比較關(guān)注。質(zhì)量評(píng)價(jià)的任務(wù)之中,兩個(gè)半球之間的連接功能也更加豐富。
所以通過(guò)以上的分析,我們可以得出一個(gè)結(jié)論,質(zhì)量評(píng)價(jià)是一個(gè)比較高級(jí)的視覺(jué)功能,比內(nèi)容分類至少高級(jí)。我們一般認(rèn)為內(nèi)容識(shí)別算是高級(jí)了,因?yàn)樗鼱砍兜秸Z(yǔ)義,但質(zhì)量評(píng)價(jià)絕對(duì)不是一個(gè)低級(jí)的視覺(jué)功能,因?yàn)樗日Z(yǔ)義更高級(jí)。
再接下來(lái),不同的質(zhì)量對(duì)于在觀看過(guò)程中的連接有什么影響呢?在看高質(zhì)量圖像的時(shí)候,我們的折回、枕下回、枕中回,這個(gè)可能不太熟,但是說(shuō)V1、V2大家就比較熟了,初級(jí)視覺(jué)皮層里面V1、V2或者BA17、BA18這樣的區(qū)域有響應(yīng)。在看低質(zhì)量圖像的時(shí)候,相對(duì)較高的視覺(jué)皮層,比如梭狀回、枕中回、枕上回,這塊是視覺(jué)相關(guān)的區(qū)域,V1、V2、V3是從枕葉后端往前排的,這些區(qū)域是有激活的。什么意思?看低質(zhì)量圖像的時(shí)候,我們更高級(jí)的腦區(qū)在被激活,看高質(zhì)量圖像的時(shí)候,反而是低級(jí)腦區(qū)在被激活。這可能跟我們一般的印象相反,一般我們認(rèn)為看低質(zhì)量圖像的時(shí)候,你都看不清內(nèi)容,你的高層腦區(qū)不會(huì)工作。但實(shí)際上恰恰相反,看低質(zhì)量圖像的時(shí)候,高層腦區(qū)被激活的反而更多。
這是為什么?因?yàn)榭吹唾|(zhì)量圖像的時(shí)候,顳中回、顳下回這種高級(jí)的腦區(qū)要跟低級(jí)的腦區(qū)協(xié)同工作,去調(diào)動(dòng)我們的記憶,去做所謂的腦補(bǔ)。所以處理次優(yōu)視覺(jué)輸入的時(shí)候,我們需要?jiǎng)佑酶嗟哪X資源,消耗更多的算力,也就是葡萄糖,來(lái)保證我們能夠理解這個(gè)視覺(jué)內(nèi)容。
所以我們可以得到一個(gè)結(jié)論:低質(zhì)量圖像的主觀厭惡是有明確生理解釋的。也就是說(shuō),我們的畫(huà)質(zhì),我們?cè)谧鰝髅竭^(guò)程之中看到低質(zhì)量的圖像不舒服,不舒服是有原因的,是因?yàn)槟憧吹讲皇娣膱D片的時(shí)候,你會(huì)控制不住地需要做補(bǔ)償,需要調(diào)動(dòng)你的知識(shí)去理解圖像的內(nèi)容,這個(gè)過(guò)程消耗了更多的葡萄糖,會(huì)使得你更累,所以會(huì)不喜歡低質(zhì)量的圖像。
(圖示)我們?cè)诓煌X區(qū)的活動(dòng)跟質(zhì)量之間的變化有一個(gè)結(jié)論,從低級(jí)腦區(qū)到高級(jí)腦區(qū),比如這是舌回、枕中回、枕上回、額中回,腦區(qū)的激活,在低級(jí)的腦區(qū),隨著質(zhì)量的上升,腦區(qū)活動(dòng)的活性是上升的。但是在高級(jí)的腦區(qū),隨著質(zhì)量的上升活動(dòng)是下降的,這是什么意思?如果你看低級(jí)腦區(qū),質(zhì)量越高我的反應(yīng)越高,在高級(jí)腦區(qū),質(zhì)量越高我的反應(yīng)越低。也就是說(shuō),對(duì)于低質(zhì)量圖像的腦補(bǔ),發(fā)生在了低級(jí)腦區(qū)和高級(jí)腦區(qū)之間的位置。大概是這個(gè)意思,結(jié)論是這樣的。
再仔細(xì)說(shuō)一下,如果你為了研究到底低質(zhì)量到高質(zhì)量的過(guò)渡發(fā)生在什么地方,就要用一個(gè)表征相似性學(xué)習(xí)的工具,大概是把語(yǔ)義標(biāo)簽或者質(zhì)量標(biāo)簽跟人腦的響應(yīng)做一個(gè)相關(guān)性分析,看這個(gè)相關(guān)性,如果高的話就比較一致。
(圖示)這是對(duì)于不同腦區(qū)的表征相似性分析的矩陣,可能不太好理解,我們其中把枕下回區(qū)域單獨(dú)拿出來(lái)看一下,對(duì)于低質(zhì)量圖像分了三塊,分別是對(duì)人臉、物體和場(chǎng)景,紅藍(lán)放到一起了,看不清。對(duì)于低質(zhì)量的圖像,我們對(duì)于不同的內(nèi)容其實(shí)是混疊了,不太好區(qū)分。但是對(duì)于比較高質(zhì)量的圖像,這塊區(qū)域相應(yīng)來(lái)說(shuō)能看出來(lái)區(qū)別,比如仔細(xì)拿出來(lái)看,這個(gè)區(qū)域相對(duì)放得比較開(kāi),至少人臉和其他區(qū)域分開(kāi)了。對(duì)于高質(zhì)量的圖像,我們能夠更好地區(qū)分它的語(yǔ)義,這是一個(gè)定量的證明。低質(zhì)量的圖像受失真的影響,它在我們腦中的語(yǔ)義編碼相對(duì)比較混亂,這是一個(gè)定量的結(jié)果。更進(jìn)一步,我們可以通過(guò)把這個(gè)矩陣跟語(yǔ)義標(biāo)簽直接做相關(guān)性,這樣就可以算不同腦區(qū)所蘊(yùn)含的語(yǔ)義信息的含量。
(圖示)這也是一個(gè)結(jié)果,從左到右是腦區(qū)從低到高,左邊是距狀溝、楔葉、舌回、枕上回、枕中回、枕下回、梭狀回,是這么一個(gè)傳遞的過(guò)程??催@張圖會(huì)更明顯一些,我們看不同質(zhì)量圖像的時(shí)候有幾個(gè)結(jié)論:從低級(jí)腦區(qū)到高級(jí)腦區(qū)所蘊(yùn)含的語(yǔ)義信息逐漸升高,這個(gè)非常合理,高腦區(qū)是負(fù)責(zé)處理語(yǔ)義的,在枕上回到枕中回存在一個(gè)明顯的跳升。所有的圖像質(zhì)量,好的質(zhì)量語(yǔ)義含量高,中低質(zhì)量的語(yǔ)義含量比較低。但是這中間的gap,隨著腦區(qū)的提升而逐漸降低,也就是說(shuō),高低質(zhì)量在高腦區(qū)的影響會(huì)降低,所以對(duì)于低質(zhì)量的圖像補(bǔ)償是發(fā)生在中層腦區(qū),低層到高層之間影響會(huì)比較大,到了高層影響比較小了。
所以我們可以得到一個(gè)重要的結(jié)論,就是枕中回這個(gè)區(qū)域是質(zhì)量感知的關(guān)鍵區(qū)域,你對(duì)于質(zhì)量的判斷好不好,其實(shí)是發(fā)生在枕中回的位置。可以說(shuō)X和Y有兩個(gè)點(diǎn),它們之間有一個(gè)信息傳遞的過(guò)程,如果我們把它想象成H方程的話,X到Y(jié)信息傳遞的過(guò)程,它所傳遞的機(jī)制的模式不同,導(dǎo)致了我們對(duì)質(zhì)量感知的最后結(jié)果的不同。
(圖示)再仔細(xì)分析一下,為前面這個(gè)結(jié)論提供一點(diǎn)證據(jù)。我們可以用高層腦區(qū)的響應(yīng),來(lái)預(yù)測(cè)低層腦區(qū)的響應(yīng)。對(duì)于高質(zhì)量圖像,如果我們用高層腦區(qū)來(lái)預(yù)測(cè)低層腦區(qū)的響應(yīng),對(duì)于高低質(zhì)量圖像的響應(yīng)差別,就是一個(gè)指征。如果我們?cè)诟哔|(zhì)量圖像情況下,用高層腦區(qū)預(yù)測(cè)低層腦區(qū),對(duì)于高低質(zhì)量圖像預(yù)測(cè)的差是顯著的,那就證明我們提取到了信息。反之,如果我們?cè)诘唾|(zhì)量圖像的情況下,用高層腦區(qū)去預(yù)測(cè)低層腦區(qū),你找不到這么顯著的區(qū)域,這個(gè)圖中畫(huà)圈紅色的是顯著的,P小于0.01。如果用高層腦區(qū)預(yù)測(cè)低層腦區(qū),但是在低質(zhì)量的情況下,就找不到這么多的顯著性,唯一一個(gè)顯著的是發(fā)生在枕中回預(yù)測(cè)舌回的時(shí)候。
所以這就進(jìn)一步說(shuō)明了在枕中回位置上,是跟質(zhì)量相關(guān)的關(guān)鍵區(qū)域。所以更進(jìn)一步我們又有一個(gè)想法,如果你解碼這個(gè)視覺(jué)圖像的時(shí)候,你用全部腦區(qū)去解碼當(dāng)然可以,但能不能只用枕中回附近的兩個(gè)腦區(qū)?比如枕中回和枕上回這兩個(gè)腦區(qū),來(lái)解碼視覺(jué)質(zhì)量。事實(shí)上證明,這是單個(gè)人的結(jié)果,這是把所有人放在一塊的結(jié)果,這塊區(qū)域去做解碼,只用枕中回和枕上回的解碼結(jié)果實(shí)際上跟用全圖是差不多的。也就是說(shuō),這塊區(qū)域確實(shí)對(duì)應(yīng)了我們對(duì)質(zhì)量感知的關(guān)鍵區(qū)域。
更進(jìn)一步,枕中回這個(gè)區(qū)域?qū)τ谫|(zhì)量感知很關(guān)鍵,但是它單獨(dú)起作用嗎?也不是,你可以用Seed-based Functional Connectivity去發(fā)現(xiàn)它跟前面的眶額區(qū)域,這顯然跟情緒、記憶相關(guān)的高層腦區(qū),它們之間的相關(guān)性是比較強(qiáng)的。所以我們的質(zhì)量評(píng)價(jià)過(guò)程,除了枕中回這塊比較重要,眶額皮層也比較重要,它同時(shí)要聯(lián)動(dòng)很多高級(jí)的腦區(qū)。
做一個(gè)總結(jié),說(shuō)得很簡(jiǎn)單,但是也是做了不少分析。通過(guò)數(shù)據(jù)各種各樣預(yù)處理的分析,我們得到了相應(yīng)的五個(gè)結(jié)論,這五個(gè)結(jié)論分別是:
1、質(zhì)量評(píng)價(jià)不是簡(jiǎn)單的視覺(jué)任務(wù),激活區(qū)域和功能連接至少相比于場(chǎng)景分類是更加復(fù)雜的。
2、低質(zhì)量圖像對(duì)應(yīng)著高級(jí)腦區(qū)的活動(dòng)增加,大腦功耗相應(yīng)地增加,這是為什么我們會(huì)厭惡低質(zhì)量圖像的原因。
3、失真對(duì)低級(jí)到高級(jí)腦區(qū)域編碼的負(fù)面影響逐漸降低,也就是失真不影響你看清楚這個(gè)東西是什么,最終是不影響的,只是在過(guò)程之中增加了你的功耗。
4、視覺(jué)質(zhì)量的感知可能是源于高級(jí)和初級(jí)視覺(jué)區(qū)間的信息差獲取。
5、低質(zhì)量圖像認(rèn)知過(guò)程存在與高級(jí)腦區(qū)之間的聯(lián)動(dòng),只用我們的枕中回也做不了質(zhì)量評(píng)價(jià),所以需要更高級(jí)的腦區(qū)聯(lián)動(dòng)。
以上是我們的一些發(fā)現(xiàn),跟各位進(jìn)行了分享。謝謝各位。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。 )