法國人工智能新創公司 Mistral 於2024年9月10日發布了其首款多模態 AI 模型 Pixtral 12B,該模型能夠同時處理影像與文字,標誌著 Mistral 在 AI 領域的一大突破。
Pixtral 12B 擁有 120 億個參數,大小約 24GB,建立在 Mistral 先前發布的文字模型 Nemo 12B 之上,新增了一個 4 億參數的視覺編碼器,使其能夠「看見」影像並進行處理。這使得 Pixtral 12B 能夠回答有關任意數量、任意大小影像的問題,為影像加上標題說明,計算照片中的物體數量等,與 Anthropic 的 Claude 系列和 OpenAI 的 GPT-4 等其他多模態模型類似。
Mistral 在 GitHub 和 Hugging Face 平台上釋出了 Pixtral 12B 模型權重的磁力連結,開發者可以下載、微調並在 Mistral 的標準授權下使用該模型。研究和學術用途是免費的,但商業應用需要付費授權。Mistral 開發者關係主管 Sophia Yang 表示,Pixtral 12B 即將可在該公司的聊天機器人平台 Le Chat 和 API 服務平台 Le Platforme 上進行測試。
Pixtral 12B 的發布,標誌著 Mistral 在獲得 6.45 億美元融資、估值達到 60 億美元後的新里程碑。儘管成立僅一年多,Mistral 已被視為歐洲的 OpenAI,其策略是發布免費的「開放」模型、對這些模型的託管版本收費,並向企業客戶提供諮詢服務。
不過,目前還不清楚 Mistral 使用了哪些圖像數據來訓練 Pixtral 12B。大多數生成式 AI 模型都是在網路上大量公開數據上訓練的,而這些數據通常受版權保護。一些模型供應商辯稱「合理使用」權使他們有權採集任何公開數據,但許多版權所有者並不同意,已對 OpenAI 和 Midjourney 等大型供應商提起訴訟。Pixtral 12B 是否也會捲入此類法律爭議,仍有待觀察。
隨著更多開發者下載和研究 Pixtral 12B,將能夠更具體地了解其性能和能力。Mistral 的這款多模態 AI 模型勢必將在業界引起廣泛關注,為 AI 應用開啟更多可能性。