精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>

<abbr id="ixlwe"></abbr>

直播
榜單
7x24h快訊

極客網(wǎng) > 人工智能 >

阿里云通義開源Qwen2.5-VL，視覺理解能力全面超越GPT-4o

人閱讀
2025-01-28 20:52:05
相關(guān)關(guān)鍵詞
- 阿里云通義開源

1月28日凌晨，阿里云通義千問開源全新的視覺模型Qwen2.5-VL，推出3B、7B和72B三個(gè)尺寸版本。其中，旗艦版Qwen2.5-VL-72B在13項(xiàng)權(quán)威評測中奪得視覺理解冠軍，全面超越GPT-4o與Claude3.5。新的Qwen2.5-VL能夠更準(zhǔn)確地解析圖像內(nèi)容，突破性地支持超1小時(shí)的視頻理解，無需微調(diào)就可變身為一個(gè)能操控手機(jī)和電腦的AI視覺智能體（Visual Agents），實(shí)現(xiàn)給指定朋友送祝福、電腦修圖、手機(jī)訂票等多步驟復(fù)雜操作。

圖片1.jpg

通義團(tuán)隊(duì)此前曾開源Qwen-VL及Qwen2-VL兩代模型，支持開發(fā)者在手機(jī)、汽車、教育、金融、天文等不同場景進(jìn)行AI探索，Qwen-VL系列模型全球總下載量超過3200萬次，是業(yè)界最受歡迎的多模態(tài)模型。今天，Qwen-VL再度全新升級(jí)到第三代版本。根據(jù)評估，此次發(fā)布的旗艦型模型Qwen2.5-VL-72B-Instruct斬獲OCRBenchV2、MMStar、MathVista等13項(xiàng)評測冠軍，在包括大學(xué)水平的問答、數(shù)學(xué)、文檔理解、視覺問答、視頻理解和視覺智能體方面表現(xiàn)出色，全面超越GPT-4o與Claude3.5；Qwen2.5-VL-7B-Instruct 在多個(gè)任務(wù)中超越了 GPT-40-mini。

新的Qwen2.5-VL視覺知識(shí)解析能力實(shí)現(xiàn)了巨大飛躍：不僅能準(zhǔn)確識(shí)別萬物，還能解析圖像的布局結(jié)構(gòu)及其中的文本、圖表、圖標(biāo)等復(fù)雜內(nèi)容，從一張app截圖中就能分析出插圖和可點(diǎn)按鈕等元素；可精準(zhǔn)定位視覺元素，擁有強(qiáng)大的關(guān)鍵信息抽取能力，比如準(zhǔn)確識(shí)別和定位馬路上騎摩托車未戴頭盔的人，或是以多種格式提取發(fā)票中的核心信息并做結(jié)構(gòu)化的推理輸出；OCR能力提升到全新水平，更擅長理解圖表并擁有更全面的文檔解析能力，在精準(zhǔn)識(shí)別的內(nèi)容同時(shí)還能完美還原文檔版面和格式。

圖片2.jpg 圖片3.jpg

圖說：Qwen2.5-VL可精準(zhǔn)定位視覺元素，在理解圖表和文檔方面優(yōu)勢顯著

Qwen2.5-VL 的視頻理解能力也大幅增強(qiáng)，可以更好地看清動(dòng)態(tài)世界。在時(shí)間處理上，新模型引入了動(dòng)態(tài)幀率（FPS）訓(xùn)練和絕對時(shí)間編碼技術(shù)，使得Qwen2.5-VL不僅能夠能夠準(zhǔn)確地理解小時(shí)級(jí)別的長視頻內(nèi)容，還可以在視頻中搜索具體事件，并對視頻的不同時(shí)間段進(jìn)行要點(diǎn)總結(jié)，從而快速、高效地幫助用戶提取視頻中蘊(yùn)藏的關(guān)鍵信息。打開攝像頭，你就能與Qwen2.5-VL實(shí)時(shí)對話。

視覺感知、解析及推理能力的增強(qiáng)，讓大模型自動(dòng)化完成任務(wù)、與真實(shí)世界進(jìn)行復(fù)雜交互成為可能。Qwen2.5-VL甚至能夠直接作為視覺智能體進(jìn)行操作，而無需特定任務(wù)的微調(diào)，比如讓模型直接操作電腦和手機(jī)，根據(jù)提示自動(dòng)完成查詢天氣、訂機(jī)票、下載插件等多步驟復(fù)雜任務(wù)。開發(fā)者基于Qwen2.5-VL也能快速簡單開發(fā) 屬于自己的AI智能體，完成更多自動(dòng)化處理和分析任務(wù)，比如自動(dòng)核驗(yàn)快遞單地址與照片中的門牌號(hào)是否對應(yīng)，根據(jù)家庭攝像頭判斷貓咪狀況進(jìn)行自動(dòng)喂食，自動(dòng)進(jìn)行火災(zāi)報(bào)警等。

圖片4.jpg

動(dòng)圖：Qwen2.5-VL手機(jī)端AI Agent 演示：幫我給我的QQ好友張三，發(fā)送一條新春祝福

在模型技術(shù)方面，與Qwen2-VL相比，Qwen2.5-VL增強(qiáng)了模型對時(shí)間和空間尺度的感知能力，并進(jìn)一步簡化了網(wǎng)絡(luò)結(jié)構(gòu)以提高模型效率。Qwen2.5-VL創(chuàng)新地利用豐富的檢測框、點(diǎn)等坐標(biāo)，讓模型直接感知和學(xué)習(xí)圖片在空間展示上的尺寸大??；同時(shí)，在時(shí)間維度也引入了動(dòng)態(tài)FPS訓(xùn)練和絕對時(shí)間編碼，進(jìn)而擁有通過定位來捕捉事件的全新能力。而在重要的視覺編碼器設(shè)計(jì)中，通義團(tuán)隊(duì)從頭開始訓(xùn)練了原生動(dòng)態(tài)分辨率的ViT，并采用RMSNorm和SwiGLU的結(jié)構(gòu)使得ViT和LLM保持一致，讓Qwen2.5-VL擁有更簡潔高效的視覺編解碼能力。

圖片5.jpg

圖說：Qwen2.5-VL模型結(jié)構(gòu)圖

目前，不同尺寸及量化版本的Qwen2.5-VL模型已在魔搭社區(qū)、HuggingFace等平臺(tái)開源，開發(fā)者也可以在Qwen Chat上直接體驗(yàn)最新模型。

附鏈接：

QwenChat：https://chat.qwenlm.ai/

魔搭社區(qū)：https://www.modelscope.cn/collections/Qwen25-VL-58fbb5d31f1d47

HuggingFace：https://huggingface.co/collections/Qwen/qwen25-vl-6795ffac22b334a837c0f9a5

（完）

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請進(jìn)一步核實(shí)，并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）

為您推薦

極客觀察

欄目相關(guān)

贊助商

極客網(wǎng)熱搜關(guān)鍵詞

人工智能 AI OpenAI ChatGPT 機(jī)器學(xué)習(xí) 生成式AI AI芯片 AIGC U-Mail AI大模型世界人工智能大會(huì) AIoT AirPods Airbnb Rushmail 人工智能AI Akamai AI人工智能昇騰AI 生成式人工智能 AIPC Air AI技術(shù) 谷歌AI 蘋果AI GenAI 百度AI 科大訊飛AI學(xué)習(xí)機(jī) AI手機(jī) CAICT 阿爾法蛋AI詞典筆T10 微軟AI 華為AI AI+ 松鼠AI AI模型昇騰AI創(chuàng)新大賽 AIS Airdoc xAI WAIC 智譜AI AITO 京東AI 阿爾法蛋AI詞典筆 SoleusAir aigo SoleusAir舒樂氏 2019世界人工智能大會(huì) LIFAair AI機(jī)器人 AI應(yīng)用人工智能大會(huì) AI眼鏡 AI算力 AI創(chuàng)企移動(dòng)AI時(shí)代 AI醫(yī)療浙大AIF 人工智能技術(shù) Zain AI人才 Airtag 人工智能芯片 AI服務(wù)器 AI投資 AI時(shí)代騰訊AI AI算法 BrainCo AI教育 AI框架聯(lián)想AI Gmail 人工智能計(jì)算中心 Airwallex空中云匯 VAIO AI賦能人工智能大賽 Chain Coremail AI搜索 OPENAIGC開發(fā)者大賽人工智能機(jī)器人谷歌人工智能 Airwheel 昇騰AI開發(fā)者創(chuàng)享日 Mirai 人工智能名片 AI基礎(chǔ)設(shè)施 AI聊天機(jī)器人阿里AI AI音樂 BrainCo強(qiáng)腦科技通用人工智能人工智能+ AI計(jì)算英偉達(dá)AI芯片 AI助手 AIOps

上一篇

DeepSeek遭遇大規(guī)模網(wǎng)絡(luò)攻擊

下一篇

阿里云AI技術(shù)成果亮相春晚，云技術(shù)支持全球觀眾看直播

簡版
原版
投稿
回頂部

2025-01-28

阿里云通義開源Qwen2.5-VL，視覺理解能力全面超越GPT-4o

1月28日凌晨，阿里云通義千問開源全新的視覺模型Qwen2.5-VL，推出3B、7B和72B三個(gè)尺寸版本。其中，旗艦版Qwen2.5-VL-72B在13項(xiàng)權(quán)威評測中奪得視覺理解冠軍，全面超越GPT-4o與Claude3.5。

長按掃碼閱讀全文

<pre id="ztiwm"><sup id="ztiwm"></sup></pre>

<tbody id="ztiwm"><abbr id="ztiwm"><abbr id="ztiwm"></abbr></abbr></tbody>

<tr id="ztiwm"></tr>

<strong id="ztiwm"></strong>

<tbody id="ztiwm"><dd id="ztiwm"><mark id="ztiwm"></mark></dd></tbody>