精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>

<abbr id="ixlwe"></abbr>

<style id="rgc89"><input id="rgc89"></input></style>

<rp id="rgc89"></rp>

直播
榜單
7x24h快訊

極客網(wǎng) > 人工智能 >

視頻理解新突破！達摩院開源VideoLLaMA3：顛覆性SOTA，僅7B大驚艷來襲

人閱讀
2025-02-14 13:45:45
作者：極客AI
相關(guān)關(guān)鍵詞

顛覆性的視頻理解新突破！達摩院開源VideoLLaMA3驚艷來襲

隨著科技的飛速發(fā)展，視頻數(shù)據(jù)已成為我們?nèi)粘Ｉ钪胁豢苫蛉钡囊徊糠?。為了更好地理解和處理這些海量的視頻數(shù)據(jù)，達摩院最新開源了VideoLLaMA3模型，其驚艷表現(xiàn)令人矚目。該模型以圖像為中心，構(gòu)建了新一代的多模態(tài)視頻-語言模型，其在通用視頻理解、時間推理和長視頻理解等核心維度上的表現(xiàn)均超越了多數(shù)基線模型。

VideoLLaMA3模型的出色表現(xiàn)，得益于其以圖像為中心的訓練范式。這種訓練范式主要包含四個關(guān)鍵內(nèi)容：視覺編碼器適配、視覺語言對齊、多任務微調(diào)以及視頻微調(diào)。通過這些方法，VideoLLaMA3在框架設(shè)計和訓練過程中，實現(xiàn)了對不同分辨率圖像和視頻的處理，并增強了模型對多樣場景的理解和特征提取能力。

高質(zhì)量的數(shù)據(jù)在VideoLLaMA3的性能提升中起到了關(guān)鍵作用。首先，團隊構(gòu)建了包含700萬圖像-字幕對的VL3Syn7M數(shù)據(jù)集，為模型提供了豐富的高質(zhì)量訓練數(shù)據(jù)。此外，Aspect Ratio Filtering、Aesthetic Score Filtering以及Text-Image Similarity Calculation with Coarse Captioning等數(shù)據(jù)過濾和增強策略，確保了剩余圖像內(nèi)容與描述的緊密相關(guān)性，提升了模型學習到的圖文對的質(zhì)量和代表性。

在Vision Encoder Adaptation階段，團隊整合了場景圖像、文檔識別圖像和少量場景文本圖像，以增強模型對多樣場景的理解和特征提取能力。而在Vision-Language Alignment階段，高質(zhì)量的數(shù)據(jù)微調(diào)則涵蓋了多種中英文數(shù)據(jù)集、細粒度數(shù)據(jù)以及大量高質(zhì)量純文本數(shù)據(jù)，進一步提升了模型對圖像細節(jié)的理解。

在Multi-task Fine-tuning階段，團隊使用了指令跟隨數(shù)據(jù)混合覆蓋多種任務，涵蓋了圖像、文檔、圖表、OCR等不同類別的數(shù)據(jù)，并使用大量純文本數(shù)據(jù)提升模型處理涉及視覺和文本輸入的指令跟隨任務的能力。而在Video-centric Fine-tuning階段，收集了多個開源數(shù)據(jù)集中帶注釋的視頻數(shù)據(jù)，并通過合成特定方面的密集字幕和問答對擴展了數(shù)據(jù)規(guī)模。

VideoLLaMA3模型的出色表現(xiàn)不僅體現(xiàn)在理論成果上，更在實際應用中得到了驗證。目前，該模型已經(jīng)在HuggingFace上提供了圖像、視頻理解的demo。例如，我們給一張《蒙娜麗莎的微笑》的圖片，向VideoLLaMA3提問“討論這幅畫在藝術(shù)界的歷史影響和意義”，其回答精準且簡約。再來看下視頻理解的demo，我們的問題是“視頻中有什么不尋常之處”，VideoLLaMA3的回答簡潔而精準。

總的來說，VideoLLaMA3模型的開源無疑將推動視頻理解領(lǐng)域的發(fā)展。達摩院在VideoLLaMA3上的創(chuàng)新和努力，無疑為整個領(lǐng)域樹立了一個新的標桿。我們期待未來VideoLLaMA3在更多實際應用場景中的表現(xiàn)，也相信會有更多的研究者會利用這個強大的工具來推動視頻理解領(lǐng)域的發(fā)展。

（免責聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性，但不保證有關(guān)資料的準確性及可靠性，讀者在使用前請進一步核實，并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負任何法律責任。
任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時，應及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明，并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）

為您推薦

極客觀察

欄目相關(guān)

贊助商

極客網(wǎng)熱搜關(guān)鍵詞

人工智能 AI OpenAI ChatGPT 機器學習生成式AI AI芯片 AIGC U-Mail AI大模型世界人工智能大會 AIoT AirPods Airbnb Rushmail 人工智能AI Akamai AI人工智能昇騰AI 生成式人工智能 AIPC Air AI技術(shù) 谷歌AI 蘋果AI xAI AI模型 GenAI AI手機百度AI 科大訊飛AI學習機 CAICT 微軟AI 阿爾法蛋AI詞典筆T10 華為AI AI+ 松鼠AI 昇騰AI創(chuàng)新大賽 AIS Airdoc WAIC 智譜AI AITO 京東AI 阿爾法蛋AI詞典筆 SoleusAir aigo AI服務器 SoleusAir舒樂氏 AI機器人 AI算力 2019世界人工智能大會 LIFAair 移動AI時代 AI應用人工智能大會 AI創(chuàng)企 AI眼鏡 AI醫(yī)療浙大AIF 人工智能技術(shù) Zain Airtag AI人才人工智能芯片 AI投資 AI教育 AI搜索 AI基礎(chǔ)設(shè)施 AI時代騰訊AI 聯(lián)想AI AI算法 Gmail BrainCo AI框架 Airwallex空中云匯 Coremail VAIO 人工智能計算中心 AI編程 AI賦能 OPENAIGC開發(fā)者大賽阿里AI Chain 人工智能大賽人工智能機器人谷歌人工智能昇騰AI開發(fā)者創(chuàng)享日 Airwheel Mirai 人工智能名片 AI聊天機器人 AI音樂 BrainCo強腦科技浪潮KaiwuDB 通用人工智能英偉達AI芯片 AI計算 AI助手

上一篇

DeepSeek R1挑戰(zhàn)重重：142次難題后，專家呼吁增加推理時機控制機制

下一篇

歐盟削減科技法規(guī)條文，助力AI投資：一場為了創(chuàng)新破冰的行動

簡版
原版
投稿
回頂部

2025-02-14

視頻理解新突破！達摩院開源VideoLLaMA3：顛覆性SOTA，僅7B大驚艷來襲

達摩院開源VideoLLaMA3模型，新一代多模態(tài)視頻-語言模型，在通用視頻理解、時間推理和長視頻理解等核心維度表現(xiàn)優(yōu)秀，實際應用中得到驗證。

長按掃碼閱讀全文