精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>

<abbr id="ixlwe"></abbr>

<xmp id="aemog">

<s id="aemog"><samp id="aemog"></samp></s>

直播
榜單
7x24h快訊

極客網(wǎng) > 7x24h快訊 > 極客快訊 >

中國(guó)科大&云知聲聯(lián)合團(tuán)隊(duì)斬獲ACM MM 2024競(jìng)賽5冠2亞

人閱讀
2024-11-18 15:10:14
來(lái)源：中華網(wǎng)快訊
相關(guān)關(guān)鍵詞
- 云知聲

近日，第32屆ACM國(guó)際多媒體會(huì)議在澳大利亞墨爾本圓滿落幕。由中國(guó)科學(xué)技術(shù)大學(xué)自動(dòng)化系於俊老師帶隊(duì)的中國(guó)科學(xué)技術(shù)大學(xué)與云知聲共同組建的USTC-IAT-United團(tuán)隊(duì)在不同挑戰(zhàn)賽道上累計(jì)榮獲5項(xiàng)冠軍、2項(xiàng)亞軍，技術(shù)實(shí)力再獲國(guó)際頂會(huì)認(rèn)可。

ACM MM(ACM International Conference on Multimedia)作為計(jì)算機(jī)圖形學(xué)與多媒體領(lǐng)域的頂級(jí)國(guó)際會(huì)議，不僅被中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)評(píng)定為A類國(guó)際學(xué)術(shù)會(huì)議，更以其卓越的學(xué)術(shù)影響力和社會(huì)認(rèn)可度而聞名。該會(huì)議攜手全球領(lǐng)先的學(xué)術(shù)機(jī)構(gòu)和知名企業(yè)，舉辦了一系列挑戰(zhàn)性賽事，成功吸引了全球眾多科研團(tuán)隊(duì)和創(chuàng)新型企業(yè)的踴躍參與。

在這場(chǎng)全球頂尖智慧團(tuán)隊(duì)間的激烈角逐中，聯(lián)合團(tuán)隊(duì)表現(xiàn)出色，在多個(gè)挑戰(zhàn)賽道上奪得5項(xiàng)冠軍、2項(xiàng)亞軍，其研究成果廣泛涉及微動(dòng)作分析、微表情檢測(cè)與分析、人機(jī)交互與對(duì)話、多模態(tài)群體行為分析以及視覺(jué)空間關(guān)系描述和深度偽造檢測(cè)等前沿領(lǐng)域。具體獲獎(jiǎng)情況如下：

(1)微動(dòng)作分析挑戰(zhàn) ( MAC: ACM Multimedia 2024 Micro-Action Analysis Challenge )

微動(dòng)作相比于普通動(dòng)作，更能展現(xiàn)人物在日常交流中的心理情緒，帶來(lái)更豐富的語(yǔ)義信息，對(duì)這些微動(dòng)作進(jìn)行精準(zhǔn)檢測(cè)對(duì)于多模態(tài)理解至關(guān)重要。然而，微動(dòng)作通常持續(xù)時(shí)間短，且多種微動(dòng)作可能同時(shí)出現(xiàn)，因而檢測(cè)需要更多畫(huà)面幀的輸入來(lái)實(shí)現(xiàn)精細(xì)捕捉，這將導(dǎo)致巨大的顯存負(fù)擔(dān)和訓(xùn)練代價(jià)。

為應(yīng)對(duì)這些挑戰(zhàn)，團(tuán)隊(duì)提出了3D-SENet Adapter，其能夠高效聚合時(shí)空信息，實(shí)現(xiàn)端到端的在線視頻特征學(xué)習(xí)。此外，團(tuán)隊(duì)發(fā)現(xiàn)結(jié)合背景信息可顯著提升對(duì)小尺度微動(dòng)作的檢測(cè)效果，為此，團(tuán)隊(duì)開(kāi)發(fā)了交叉注意力聚合檢測(cè)頭，該模塊集成特征金字塔中的多尺度特征，顯著提升視頻幀中微動(dòng)作的檢測(cè)精度。該方法相比基線模型極大提升了檢測(cè)精度，并在兩個(gè)賽道上分別取得了冠軍與亞軍的成績(jī)，并且以論文形式在 ACM MM 會(huì)議上發(fā)表了研究成果。

(2)微表情挑戰(zhàn) ( Facial Micro-Expression Grand Challenge (MEGC) 2024 (CCS Task) )

微表情作為一種面部表情，與宏表情相對(duì)應(yīng)，通常持續(xù)時(shí)間短，強(qiáng)度較低。同時(shí)微表情在現(xiàn)實(shí)中有著廣泛的應(yīng)用，如醫(yī)療、刑事偵察等。MEGC挑戰(zhàn)賽的CCS (Cross-Cultural Spotting)賽道致力于選拔出通用性廣泛、穩(wěn)定性強(qiáng)的微表情識(shí)別方法，以推動(dòng)該領(lǐng)域技術(shù)的發(fā)展與應(yīng)用。

面對(duì)CCS賽道提出的挑戰(zhàn)，團(tuán)隊(duì)選擇使用基于光流的方法進(jìn)行微表情識(shí)別，對(duì)每個(gè)視頻抽取其光流特征，進(jìn)而通過(guò)光流特征定位微表情發(fā)生的起始時(shí)間和結(jié)束時(shí)間。在生成微表情區(qū)間之后，采用邊界校準(zhǔn)方案，通過(guò)判斷評(píng)估邊界的變化程度來(lái)決定壓縮或延展邊界，使得產(chǎn)生的微表情區(qū)間邊界更加準(zhǔn)確。此外，團(tuán)隊(duì)采用特定的特征增強(qiáng)方案，主要通過(guò)LANet增強(qiáng)特征的表達(dá)能力和魯棒性。最終團(tuán)隊(duì)在排行榜上取得了冠軍，研究成果也以論文形式于 ACM MM 會(huì)議上發(fā)表。

(3)微表情挑戰(zhàn) ( Facial Micro-Expression Grand Challenge (MEGC) 2024 (STR Task) )

在以往微表情研究中，檢測(cè)和識(shí)別任務(wù)相對(duì)分離，存在很大的局限性。因此MEGC挑戰(zhàn)賽的STR (Spot-then-Recognize)賽道提出了 “先檢測(cè)后識(shí)別”的任務(wù)來(lái)整合兩個(gè)環(huán)節(jié)，進(jìn)而提升微表情分析的準(zhǔn)確性和實(shí)用性。

針對(duì)STR賽道提出的挑戰(zhàn)，團(tuán)隊(duì)整合VideoMAE V2框架、時(shí)間信息適配器(TIA)及多尺度特征融合檢測(cè)頭，以提升微表情定位與識(shí)別性能。主要采用 VideoMAE V2作為特征提取骨干網(wǎng)絡(luò)，結(jié)合TIA增強(qiáng)視頻特征提取能力，尤其是在處理微表情任務(wù)時(shí)。TIA通過(guò)引入時(shí)間深度卷積層，捕捉相鄰幀的局部時(shí)間上下文，豐富當(dāng)前時(shí)間步的表示。同時(shí)，構(gòu)建多尺度圖像金字塔，通過(guò)分類和回歸分支組成的檢測(cè)頭，融合不同尺度的特征，使得模型能夠同時(shí)捕捉從寬泛動(dòng)作到細(xì)微變化的全范圍動(dòng)態(tài)，進(jìn)而顯著提高微表情識(shí)別的準(zhǔn)確性。

團(tuán)隊(duì)方案在 STRS(Overall)評(píng)分中達(dá)到SOTA 的結(jié)果，并獲得冠軍，研究成果在ACM MM會(huì)議上進(jìn)行發(fā)表。這一成果不僅驗(yàn)證了團(tuán)隊(duì)方法的有效性，也為微表情識(shí)別技術(shù)的進(jìn)一步發(fā)展提供了方向。

(4) 多模態(tài)群體行為分析挑戰(zhàn) ( MultiMediate: Multi-modal Group Behaviour Analysis for Artificial Mediation )

在多人對(duì)話和人機(jī)交互領(lǐng)域，對(duì)人類的參與程度的評(píng)估至關(guān)重要。MultiMediate挑戰(zhàn)賽中的Multi-domain engagment estimation賽道中旨在解決當(dāng)前人工調(diào)解者的能力受限于行為感知和分析方面的進(jìn)展不足，進(jìn)而推動(dòng)和衡量在多領(lǐng)域參與度估計(jì)這一關(guān)鍵社會(huì)行為感知與分析任務(wù)上的進(jìn)展。

為應(yīng)對(duì)這些挑戰(zhàn)，團(tuán)隊(duì)深入探索Seq2seq模型在不同時(shí)間窗口下的潛力，并提出了一種雙流AI-BiLSTM模型，該模型能夠?qū)R并交互對(duì)話者特征，以實(shí)現(xiàn)更準(zhǔn)確的參與度估計(jì)。通過(guò)從視覺(jué)(CLIP)、文本(XLM-RoBERTa)和語(yǔ)音(w2v-bert-2.0)中提取特征，能夠更全面地理解和預(yù)測(cè)對(duì)話者的參與度。在建模過(guò)程中，團(tuán)隊(duì)參考了ALbef和VL-BERT的設(shè)計(jì)，最終選擇了基于AI-BiLSTM的建模方法。在推理時(shí)，AI-BiLSTM在多人對(duì)話場(chǎng)景中的Concordance Correlation Coefficient (CCC)提升了8%，相較于第二名領(lǐng)先了10%，方案在ACM MM競(jìng)賽中得到了驗(yàn)證，并以明顯的優(yōu)勢(shì)奪得了冠軍。不僅展示了團(tuán)隊(duì)在人工智能領(lǐng)域的技術(shù)實(shí)力，也為未來(lái)的人機(jī)交互和對(duì)話系統(tǒng)的發(fā)展提供了新的可能性。

(5)深度偽造檢測(cè)挑戰(zhàn) ( 1M-Deepfakes Detection Challenge )

Deepfakes挑戰(zhàn)賽通過(guò)視聽(tīng)級(jí)檢測(cè)任務(wù)，幫助區(qū)分真實(shí)視頻和深度偽造視頻，阻止深度偽造視頻在網(wǎng)絡(luò)上的傳播，保護(hù)信息的真實(shí)性和可靠性。在Deepfakes任務(wù)中，細(xì)粒度感知和跨模態(tài)交互能力的提升至關(guān)重要。

為解決Deepfakes提出的挑戰(zhàn)，團(tuán)隊(duì)提出了一種創(chuàng)新的局部全局交互模塊(AV-LG模塊)，顯著增強(qiáng)了模型的檢測(cè)性能。該模塊由局部區(qū)域內(nèi)自我注意、全局區(qū)域間自我注意和局部全局交互組成。為了消除視頻偽造檢測(cè)中傾向于將真實(shí)樣本預(yù)測(cè)為假樣本的偏差，團(tuán)隊(duì)適當(dāng)增加了真實(shí)樣本的誤差權(quán)重。此外，團(tuán)隊(duì)發(fā)現(xiàn)理解視頻語(yǔ)義對(duì)于視頻偽造檢測(cè)并非必要，因此通過(guò)傅里葉變換將采樣幀轉(zhuǎn)換為頻域，進(jìn)一步提高了模型性能。通過(guò)這些技術(shù)的應(yīng)用，不僅展示了團(tuán)隊(duì)在視頻偽造檢測(cè)領(lǐng)域的技術(shù)實(shí)力，也為未來(lái)的Deepfakes檢測(cè)技術(shù)提供了新的可能性。最終獲得本賽道冠軍，研究成果通過(guò)論文的形式在 ACM MM 會(huì)議上呈現(xiàn)

(6)視覺(jué)空間關(guān)系描述挑戰(zhàn) ( Visual Spatial Description (VSD) Challenge )

Visual Spatial Description(VSD)挑戰(zhàn)旨在解決視覺(jué)空間語(yǔ)義理解領(lǐng)域的相關(guān)問(wèn)題，即通過(guò)讓模型和系統(tǒng)生成準(zhǔn)確的文本描述句子，來(lái)描述輸入圖像中兩個(gè)給定目標(biāo)對(duì)象之間的空間關(guān)系，進(jìn)而推動(dòng)計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理領(lǐng)域在空間關(guān)系理解與描述方面的研究進(jìn)展。這有助于人機(jī)交互場(chǎng)景下智能設(shè)備理解用戶意圖，提升用戶體驗(yàn)。

針對(duì)VSD提出的挑戰(zhàn)，團(tuán)隊(duì)?wèi)?yīng)用 Retrieval Augmented Generation (RAG)技術(shù)來(lái)指導(dǎo)多模態(tài)大型語(yǔ)言模型 (MLLM)完成 VSD 任務(wù)，并利用正負(fù)樣本解決幻覺(jué)問(wèn)題，進(jìn)一步微調(diào)MLLM以增強(qiáng)語(yǔ)義理解和整體模型效能。該方案在VSD任務(wù)中的空間關(guān)系分類和視覺(jué)語(yǔ)言描述任務(wù)中都表現(xiàn)出更高的準(zhǔn)確性和更少的幻覺(jué)錯(cuò)誤，取得了令人滿意的結(jié)果。同時(shí)，團(tuán)隊(duì)深入研究VSD與VSRC數(shù)據(jù)樣本不平衡問(wèn)題，運(yùn)用樣本級(jí)加權(quán)損失和重采樣等策略，提高模型對(duì)低頻對(duì)象關(guān)系的學(xué)習(xí)能力，確保了其在復(fù)雜數(shù)據(jù)環(huán)境下能夠高效處理。這些策略為更高級(jí)的視覺(jué)空間描述任務(wù)鋪平了道路，為計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理領(lǐng)域的未來(lái)研究和實(shí)際實(shí)現(xiàn)提供了有價(jià)值的見(jiàn)解。團(tuán)隊(duì)以論文形式在 ACM MM會(huì)議上發(fā)表了研究成果并取得了亞軍。

此次斬獲5冠2亞，既是云知聲與中國(guó)科學(xué)技術(shù)大學(xué)緊密合作、持續(xù)探索人工智能賽道的成果，同時(shí)也是云知聲AGI技術(shù)架構(gòu)實(shí)力的有力證明。

作為國(guó)內(nèi)AGI技術(shù)產(chǎn)業(yè)化的先行者，云知聲依托其全棧AGI技術(shù)與產(chǎn)業(yè)布局，持續(xù)推動(dòng)千行百業(yè)的智慧化升級(jí)。2023年5月，云知聲發(fā)布山海大模型(UniGPT)以來(lái)，持續(xù)保持高速迭代，在 OpenCompass、SuperCLUE、MedBench、SuperBench、MMMU 等多項(xiàng)通用、醫(yī)療及多模態(tài)大模型權(quán)威評(píng)測(cè)中屢創(chuàng)佳績(jī)，通用能力穩(wěn)居國(guó)內(nèi)大模型第一梯隊(duì)，醫(yī)療大模型能力持續(xù)保持領(lǐng)先優(yōu)勢(shì)。以通用大模型為基座，云知聲構(gòu)建起一個(gè)覆蓋醫(yī)療、交通、座艙等多場(chǎng)景在內(nèi)的智能體矩陣，并逐步完成 “助手→同事→專家” 的自我演進(jìn)，為智慧生活、智慧醫(yī)療、智慧交通等業(yè)務(wù)提供高效的產(chǎn)品化支撐，推動(dòng)“U+X”戰(zhàn)略落實(shí)，持續(xù)踐行 “以通用人工智能(AGI)，創(chuàng)建互聯(lián)直覺(jué)的世界”的使命。

與中國(guó)科技大學(xué)的多模態(tài)技術(shù)合作，是云知聲多模態(tài)智能體演進(jìn)的重要組成部分。今年8月，云知聲推出山海多模態(tài)大模型，通過(guò)整合跨模態(tài)信息，實(shí)現(xiàn)實(shí)時(shí)多模態(tài)擬人交互體驗(yàn)，進(jìn)一步夯實(shí)了云知聲AGI技術(shù)底座，推動(dòng)山海大模型在各領(lǐng)域的廣泛應(yīng)用。

展望未來(lái)，云知聲將繼續(xù)攜手中國(guó)科學(xué)技術(shù)大學(xué)等頂尖高校，共同加強(qiáng)人工智能基礎(chǔ)理論探索與關(guān)鍵技術(shù)突破。我們將積極擴(kuò)展AGI技術(shù)的應(yīng)用場(chǎng)景，為智慧物聯(lián)、智慧醫(yī)療等關(guān)鍵領(lǐng)域提供更為全面和深入的人工智能解決方案，致力通過(guò)人工智能技術(shù)，為各行各業(yè)帶來(lái)革命性進(jìn)步，實(shí)現(xiàn)以AGI賦能千行百業(yè)的宏偉藍(lán)圖。

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。）

極客觀察

贊助商

簡(jiǎn)版
原版
投稿
回頂部

<ul id="aueaq"></ul>