Mistral 發布首款多模態 AI 模型 Pixtral 12B

法國人工智能新創公司 Mistral 於2024年9月10日發布了其首款多模態 AI 模型 Pixtral 12B，該模型能夠同時處理影像與文字，標誌著 Mistral 在 AI 領域的一大突破。

Pixtral 12B 擁有 120 億個參數，大小約 24GB，建立在 Mistral 先前發布的文字模型 Nemo 12B 之上，新增了一個 4 億參數的視覺編碼器，使其能夠「看見」影像並進行處理。這使得 Pixtral 12B 能夠回答有關任意數量、任意大小影像的問題，為影像加上標題說明，計算照片中的物體數量等，與 Anthropic 的 Claude 系列和 OpenAI 的 GPT-4 等其他多模態模型類似。

Mistral 在 GitHub 和 Hugging Face 平台上釋出了 Pixtral 12B 模型權重的磁力連結，開發者可以下載、微調並在 Mistral 的標準授權下使用該模型。研究和學術用途是免費的，但商業應用需要付費授權。Mistral 開發者關係主管 Sophia Yang 表示，Pixtral 12B 即將可在該公司的聊天機器人平台 Le Chat 和 API 服務平台 Le Platforme 上進行測試。

Pixtral 12B 的發布，標誌著 Mistral 在獲得 6.45 億美元融資、估值達到 60 億美元後的新里程碑。儘管成立僅一年多，Mistral 已被視為歐洲的 OpenAI，其策略是發布免費的「開放」模型、對這些模型的託管版本收費，並向企業客戶提供諮詢服務。

隨著更多開發者下載和研究 Pixtral 12B，將能夠更具體地了解其性能和能力。Mistral 的這款多模態 AI 模型勢必將在業界引起廣泛關注，為 AI 應用開啟更多可能性。