首頁正文

最強視覺理解模型Qwen3-VL發(fā)布，32項評測超過Gemini2.5-Pro和GPT5

2025-09-24 16:46:40: 來源：中國高新技術產業(yè)導報　作者：張偉
分享到：

9月24日的2025云棲大會上，阿里開源新一代視覺理解模型Qwen3-VL。該模型在視覺感知和多模態(tài)推理方面實現(xiàn)重大突破，在32項核心能力測評中超過Gemini2.5-Pro和GPT-5。同時，Qwen3-VL大幅提升了視覺Agent、視覺編程和空間感知等關鍵能力，不但可調用摳圖、搜索等工具完成“帶圖推理”，也可以憑借一張設計草圖或一段小游戲視頻直接“視覺編程”，“所見即所得”地復刻圖表、網頁和復雜程序。

本次開源的是旗艦版Qwen3-VL-235B-A22B，有開源指令（Instruct）模型和推理（Thinking）模型兩大版本。Qwen3-VL展現(xiàn)了在復雜視覺任務中的強大泛化能力與綜合性能，在邏輯謎題、通用視覺問答、多語言文本識別與圖表文檔解析、二維與三維目標定位、具身與空間感知、視頻理解等32項具體測評中，指令版Qwen3-VL超越了Gemini2.5-Pro 和 GPT5等閉源模型，同時刷新了開源多模態(tài)模型的最佳成績。推理版Qwen3-VL多模態(tài)思考能力顯著增強，在 MathVision、MMMU、MathVista 等權威評測中達到領先水平。

Qwen3-VL擁有極強的視覺智能體和視覺Coding能力，幾乎刷新所有相關評測的最佳性能。Qwen3-VL 不僅能看懂圖片，還能像人一樣操作手機和電腦，自動完成許多日常任務，例如打開應用、點擊按鈕、填寫信息等，實現(xiàn)智能化的交互與自動化操作。輸入一張圖片，Qwen3-VL可自行調用Agent工具放大圖片細節(jié)，通過更仔細的觀察分析，推理出更好的答案；看到一張設計圖，Qwen3-VL 就能生成Draw.io/HTML/CSS/JS 代碼，“所見即所得”地完成視覺編程，真正推動大模型從“識別”邁向“推理與執(zhí)行”。

Qwen3-VL可支持擴展百萬tokens上下文，視頻理解時長擴展到2小時以上。這意味著，無論是幾百頁的技術文檔、整本教材，還是長達數(shù)小時的會議錄像或教學視頻，都能完整輸入、全程記憶、精準檢索。Qwen3-VL還能根據時間戳精確定位“什么時候發(fā)生了什么”，比如“第15分鐘穿紅衣服的人做了什么”“球從哪個方向飛入畫面”等，都能準確回答。

大模型的空間理解能力是實現(xiàn)具身智能的基礎，Qwen3-VL 專門增強了3D檢測（grounding）能力，可以更好地感知空間。當前，機器人想要輕松抓住桌上的一個蘋果，并不容易。憑借Qwen3-VL強大的3D檢測能力，未來可讓機器人更好地判斷物體方位、視角變化和遮擋關系，從而準確判斷蘋果的位置與自身距離，實現(xiàn)精準抓取。

據了解，千問視覺理解模型已實現(xiàn)廣泛落地，比如國家天文臺聯(lián)合阿里云發(fā)布的全球首個太陽大模型“金烏”，正是基于 Qwen-VL 等模型以超過90萬張?zhí)栃l(wèi)星圖像為樣本完成微調訓練。未來，Qwen3-VL模型還將開源更多尺寸版本。即日起，用戶可在通義千問QwenChat上免費體驗Qwen3-VL，也可通過阿里云百煉平臺調用API服務。

編輯：韓夢晨

相關閱讀：

版權與免責聲明:
①凡本站注明稿件來源為：中國高新技術產業(yè)導報、中國高新網、中高新傳媒的所有文字、圖片和音視頻稿件，版權均屬本網所有，任何媒體、網站或個人未經本網協(xié)議授權不得轉載、鏈接、轉貼或以其他方式復制發(fā)表。已經本網授權使用作品的，被授權人應在授權范圍內使用，并注明“來源：中國高新網、中高新傳媒或者中國高新技術產業(yè)導報”。違反上述聲明者，本網將追究其相關法律責任。
② 任何單位或個人認為本網站或本網站鏈接內容可能涉嫌侵犯其合法權益，應該及時向本網站書面反饋，并提供身份證明，權屬證明及詳細侵權情況證明，本網站在收到上述文件后，將會盡快移除被控侵權的內容或鏈接。
③如因作品內容、版權和其他問題需要與本網聯(lián)系的，請在該事由發(fā)生之日起30日內進行。電話：010-68667266 電子郵件：dbrmt#chih.org　(請將“#”換為“@”)

曰本a级毛片无卡免费视频va,偷窥国产亚洲女爱视频在线,黄色网站一级小妹,日韩无在线视频免费连接,18以上免费视频在线观看,日本a级视频在线播放,亚洲免费人体视频美女