Meta 發佈 Llama 3.2 模型，首次引入視覺能力

文章作者作者：Leggie
發表日期 2024 年 9 月 26 日
分類分類於 AI, 生成式AI

Meta 在2024年9月25日宣佈推出 Llama 3.2 系列模型，這是該公司首次將視覺處理能力引入其開源 AI 模型中。此舉標誌著 Meta 在多模態 AI 領域的重大突破，有望縮小與競爭對手如 OpenAI 和 Google 之間的差距。

關鍵要點

Llama 3.2 包括兩個多模態模型：11B 和 90B，能夠處理圖像和文本
新增兩個輕量級文本模型：1B 和 3B，專為移動設備和邊緣計算優化
所有模型支持長達 128K 的上下文長度
除歐盟地區外，大部分地區可下載使用這些模型

Meta AI 副總裁 Ahmad Al-Dahle 表示：「開發者只需整合這一新的多模態功能，即可讓 Llama 處理圖像並進行交流。」

應用場景

Llama 3.2 的視覺能力使其可應用於多種場景，包括：

增強現實工具的實時視頻理解
基於內容的視覺搜索平台
文檔分析和摘要工具

部署選項

開發者可通過多種方式使用 Llama 3.2 模型：

在 Amazon Bedrock、Google Cloud、Microsoft Azure 等雲平台上部署
通過 Hugging Face Transformers 和 TGI 進行集成

市場影響

分析師認為，此次發布將加劇 AI 模型市場的競爭。Wedbush Securities 分析師 Dan Ives 表示：「Meta 正在加快其 AI 步伐，Llama 3.2 的推出將為該公司在與 OpenAI 和 Google 的競爭中提供更多籌碼。」

然而，由於監管問題，Llama 3.2 的多模態功能在歐盟地區暫不可用。這突顯了科技公司在全球擴張 AI 業務時面臨的挑戰。

進一步閱讀

Meta 發布 Llama 4，引領多模態 AI

標籤 AI, Google, LLaMa, Meta, OpenAI