阿里雲近日公布了其多模態大模型研究的最新進展,通義千問視覺理解模型 Qwen-VL 再次升級,繼 Plus 版本之後,推出了 Max 版本。這款升級版模型擁有更強的視覺推理能力和中文理解能力,並在多個權威測評中表現出色,整體性能堪比 GPT-4V 和 Gemini Ultra 。
通義千問最新 Qwen-VL-Max 版本畫面
多模態大模型是一種結合多種模態數據(如圖像、文本、聲音等)進行建模的方法,旨在提高人工智能系統的性能。多模態數據能夠從不同角度提供資訊,有助於揭示數據的內在聯繫,從而提高模型的泛化能力。阿里雲的 Qwen-VL-Max 模型就是這種多模態大模型的一個出色代表。
Qwen-VL-Max 模型在視覺推理方面表現出色,能夠理解流程圖等複雜形式的圖片,分析複雜圖標,並能夠看圖做題、看圖作文以及看圖寫代碼。此外,該模型還具備視覺定位能力,能夠對畫面指定區域進行問答,這增加了模型與用戶互動的精確性。在中文理解能力上, Qwen-VL-Max 有顯著提升。該模型能夠準確描述和識別圖片資訊,並根據圖片進行資訊推理和擴展創作。這一特性使得該模型在多個權威測評中表現出色,整體性能堪比 GPT-4V 和 Gemini Ultra 。在文檔分析(DocVQA)、中文圖像相關(MM-Bench-CN)等任務上,Qwen-VL-Max 同樣超越了 GPT-4V ,達到了世界最佳水準。目前,Qwen-VL-Plus 和 Qwen-VL-Max 限時免費向用戶開放,用戶可以在通義千問官網、通義千問 APP 直接體驗 Max 版本模型的能力,也可以通過阿里云靈積平台(DashScope)調用模型 API 。
阿里雲的這次升級,不僅提升了Qwen-VL模型的性能,也為多模態大模型的研究和應用開闢了新的道路。隨著技術的不斷進步,多模態大模型將在人工智能領域發揮更大的作用,並為生活帶來更多的便利和驚喜。