阿里雲發布多模態大模型 Qwen-VL-Max 版本

阿里雲近日公布了其多模態大模型研究的最新進展，通義千問視覺理解模型 Qwen-VL 再次升級，繼 Plus 版本之後，推出了 Max 版本。這款升級版模型擁有更強的視覺推理能力和中文理解能力，並在多個權威測評中表現出色，整體性能堪比 GPT-4V 和 Gemini Ultra 。

通義千問最新 Qwen-VL-Max 版本畫面

多模態大模型是一種結合多種模態數據（如圖像、文本、聲音等）進行建模的方法，旨在提高人工智能系統的性能。多模態數據能夠從不同角度提供資訊，有助於揭示數據的內在聯繫，從而提高模型的泛化能力。阿里雲的 Qwen-VL-Max 模型就是這種多模態大模型的一個出色代表。

Qwen-VL-Max 模型在視覺推理方面表現出色，能夠理解流程圖等複雜形式的圖片，分析複雜圖標，並能夠看圖做題、看圖作文以及看圖寫代碼。此外，該模型還具備視覺定位能力，能夠對畫面指定區域進行問答，這增加了模型與用戶互動的精確性。在中文理解能力上， Qwen-VL-Max 有顯著提升。該模型能夠準確描述和識別圖片資訊，並根據圖片進行資訊推理和擴展創作。這一特性使得該模型在多個權威測評中表現出色，整體性能堪比 GPT-4V 和 Gemini Ultra 。在文檔分析（DocVQA）、中文圖像相關（MM-Bench-CN）等任務上，Qwen-VL-Max 同樣超越了 GPT-4V ，達到了世界最佳水準。目前，Qwen-VL-Plus 和 Qwen-VL-Max 限時免費向用戶開放，用戶可以在通義千問官網、通義千問 APP 直接體驗 Max 版本模型的能力，也可以通過阿里云靈積平台（DashScope）調用模型 API 。

阿里雲的這次升級，不僅提升了Qwen-VL模型的性能，也為多模態大模型的研究和應用開闢了新的道路。隨著技術的不斷進步，多模態大模型將在人工智能領域發揮更大的作用，並為生活帶來更多的便利和驚喜。