Meta 發布 Llama 4,引領多模態 AI

Meta 發布 Llama 4

Meta 於2025年4月5日投下震撼彈,正式發布其最新的大型語言模型系列—Llama 4。這項 AI 領域的重大突破預計將重塑產業格局,並為多模態人工智能開啟嶄新紀元。 Llama 4 系列包含兩款首發模型: Llama 4 Scout 和 Llama 4 Maverick ,以及仍在訓練中的強大模型 Llama 4 Behemoth。此次發布不僅展現 Meta 在生成式 AI 領域的雄心壯志,更突顯其欲在全球 AI 競賽中取得領先地位的決心。值得注意的是 Meta 在 AI 基礎設施方面投入了鉅額資金,預計今年將高達650億美元,這也反映出 Llama 4 在其整體戰略中的核心地位。

Llama 4 的推出正值AI技術蓬勃發展的關鍵時刻,各科技巨頭紛紛加碼投資,力求在這一領域佔據主導地位。 Meta 此次發布的多款模型,特別是其原生多模態能力和混合專家( Mixture of Experts, MoE )架構,預示著 AI 技術發展的新方向。這項技術的進步不僅將使開發者能夠構建更具創新性的應用,也將深刻影響包括自然語言處理、內容生成和程式碼編寫等多個領域。 Llama 4 的潛在受益者涵蓋了廣大的開發者社群、各行各業的企業以及 AI 研究人員,其影響力不容小覷。 Meta 此次策略性地同步推出多個模型,並預告更強大的 Behemoth 即將到來,顯示其欲全面覆蓋不同應用場景和使用者需求,並展現其在 AI 技術上的領先地位。此外,有報導指出 Meta 在 Llama 4 的開發過程中,借鑒了中國科技公司 DeepSeek 的效率化架構,這也體現了 Meta 積極學習和適應市場競爭的靈活策略。

技術規格與突破性功能

Llama 4 系列的首批成員包括 Llama 4 Scout 和 Llama 4 Maverick ,這兩款模型均採用 Meta 首創的原生多模態設計以及 MoE 架構。

Llama 4 Scout

Llama 4 Scout 搭載170億個活躍參數,總參數量達到1090億,並由16個專家模型組成。其最引人注目的特性是領先業界的1000萬token上下文視窗。相較於 Llama 3 的 128K token 上下文視窗, Scout 的能力提升了近80倍。這意味著 Scout 能夠在單次處理中分析相當於15000頁的資訊量。在多模態能力方面, Llama 4 Scout 採用原生設計,透過早期融合技術,能夠無縫整合文字和視覺資訊。在硬體效率方面, Scout 的設計使其能夠在單張 NVIDIA H100 GPU上運行(採用 Int4 量化)。其主要功能包括多文件摘要、分析使用者活動模式、處理龐大的程式碼庫以及精確的圖像定位。 Scout 模型如此龐大的上下文視窗是一項顯著的技術優勢,預計將在需要長期記憶和理解大量數據的應用領域開創新的可能性。此外,其能在單張 GPU 上運行的特性,也降低了使用門檻,讓更多使用者能夠體驗先進的 AI 能力。

Llama 4 Maverick

Llama 4 Maverick 同樣擁有170億個活躍參數,但其總參數量高達4000億,並由128個專家模型組成。 Maverick 也具備原生多模態能力,並採用早期融合技術。它支援包括中文在內的12種語言的文字和圖像輸入與輸出,並且能夠處理多達八張圖像。在硬體效率方面, Maverick 的設計使其能夠在單個 H100 主機上輕鬆進行推論。此外, Maverick 還提供 FP8 量化版本,使得這個擁有128個專家模型的版本能夠在單個 NVIDIA 8xH100 節點上運行。 Maverick 的主要功能包括卓越的多語種圖像和文字理解能力、創意寫作以及企業級應用。相較於 Scout , Maverick 擁有更多的專家模型,這暗示其更擅長處理複雜任務,並在通用應用方面提供更高品質的輸出。 FP8 量化版本的推出也顯示 Meta 致力於優化模型的效能和成本效益。

Llama 4 Behemoth (預覽)

Llama 4 Behemoth 是一款仍在訓練中的模型,擁有2880億個活躍參數,由16個專家模型組成,總參數量接近兩兆。 Behemoth 作為 Llama 4 Scout 和 Maverick 的「教師模型」,用於提升這兩款模型的性能。根據 Meta 的測試, Behemoth 在多個 STEM 基準測試中超越了 GPT-4.5 、 Claude Sonnet 3.7 和 Gemini 2.0 Pro 。儘管仍在訓練中, Behemoth 的卓越性能已展現Meta在AI模型研發方面的頂尖實力,其作為教師模型也預示著Meta將持續透過更強大的基礎模型來提升其AI產品的整體能力。

性能大躍進

Llama 4 相較於其前代模型 Llama 3 在性能上實現了顯著的提升。首先, Scout 模型將上下文視窗大幅擴展至1000萬 token ,遠超 Llama 3 的 128K 。其次, Llama 4 系列首次採用原生多模態設計,而之前的模型則使用獨立的視覺參數。 Llama 4 在推理和程式碼編寫能力上也較 Llama 2 有所提升。值得一提的是 Llama 4 在處理具爭議性的政治和社會議題時,其拒絕回應的比率顯著降低,且回應更加平衡。這些改進表明 Llama 4 不僅在技術規格上有所突破,在實際應用中的表現也更加成熟和可靠。

在與 OpenAI 的 GPT 系列進行比較時, Llama 4 Maverick 據稱在多個基準測試中擊敗了 GPT-4o 和 Gemini 2.0 Flash 。然而, GPT-4o 在某些領域,例如數學方面,可能仍然具有優勢。此外, Llama 4 Behemoth 在 STEM 基準測試中超越了 GPT-4.5 。儘管如此,開發初期曾有報導指出Llama 4在推理和數學方面的表現未達到 Meta 的預期,與 OpenAI 的模型相比仍有差距,這暗示 Meta 仍在持續努力提升這些關鍵能力。 Meta 直接將 Llama 4 定位為與 OpenAI 領先模型競爭的產品,並聲稱在某些方面具有更優越的性能。但要全面評估這些說法,還需要更廣泛的獨立評測和針對特定任務的比較。開發初期的性能問題也提醒人們,追趕領先者並非易事。

與 Google 的 Gemini 系列相比,L lama 4 Maverick 在多項基準測試中勝過 Gemini 2.0 Flash ,而 Llama 4 Behemoth 則在 STEM 基準測試中優於 Gemini 2.0 Pro 。 Llama 4 與 Google 的 Gemini 模型展現出強勁的競爭力, Meta 強調其在特定基準測試中的優勢。此外 Llama 4 的開源特性與 Gemini 的封閉模式形成對比,這可能成為開發者選擇模型的重要考量因素。除了與頂尖模型的比較, Llama 4 Scout 在多個基準測試中也勝過了 Gemma 3 和 Mistral 3.1 。 Llama 4 Maverick 則在推理和程式碼編寫方面取得了與 DeepSeek v3 相當的成果,但使用的活躍參數更少。這些數據進一步證明 Llama 4 在眾多領先的大型語言模型中佔據了一席之地,尤其 Maverick 相較於 DeepSeek V3 的效率更令人印象深刻。

Llama 4 的強大功能和多模態特性使其在自然語言處理、內容生成和程式碼編寫等領域展現出巨大的應用潛力。

自然語言處理 (NLP)

Llama 4 具備更強大的語言理解和生成能力,能夠更精準地理解上下文資訊 。其超長的上下文視窗使得處理多文件摘要、分析使用者行為模式以及理解龐大的程式碼庫成為可能。這將有助於開發出更準確、更貼近情境的聊天機器人和虛擬助理。 Llama 4 支援12種語言,並在訓練數據中涵蓋了200種語言,這將極大地提升其多語種處理能力,促進全球範圍內語言 AI 解決方案的發展。

內容生成

Llama 4 能夠撰寫引人入勝的敘事內容,並在不同語言中保持一致的品牌語氣 。其多模態能力也使得從包含圖像的PDF等輸入中生成行銷內容成為可能。此外, Llama 4 在創意寫作方面也展現出更高的水準。這意味著 Llama 4 將能協助行銷人員和創意專業人士更高效地生成高品質的內容,並能整合視覺元素,進一步豐富內容的表達形式。

程式碼編寫

Llama 4 在程式碼生成基準測試( HumanEval )中表現出色,並可用於程式碼自動完成和除錯。其超長的上下文視窗也有助於理解大型程式碼庫。透過與 Together A I等平台的整合, Llama 4 還能實現程式碼摘要等功能。這些特性將顯著提升開發人員的生產力,並降低程式碼編寫的入門門檻。

其他潛在應用

Llama 4 的多功能性使其能夠應用於更廣泛的領域,例如構建用於推理和工作流程自動化的企業代理、用於從 PDF 和掃描文件中提取結構化數據的文檔理解系統、利用使用者數據實現個人化任務自動化、人才搜尋以及提升人型機器人的互動能力。 Llama 4 憑藉其多模態能力、長上下文處理能力和卓越的性能,有望成為各行各業創新應用的重要基石。

對Meta最新AI模型的看法

Meta 執行長馬克·祖克伯格強調, Llama 4 的目標是打造全球領先的 AI ,並以開源方式使其普及,造福所有人。他認為開源 AI 將引領未來模型發展,而 Llama 4 正是這一趨勢的開端,並稱其為一次「重大升級」 。Meta AI 團隊則認為 Llama 4 標誌著Llama生態系統的新紀元,具備前所未有的上下文長度和 MoE 架構,並強調其效率和性能的提升。

亞馬遜雲端運算服務( AWS )宣布 Llama 4 模型即將在 SageMaker Jumpstart 上提供,並將很快作為 Amazon Bedrock 上的全託管無伺服器選項提供,這也印證了 AWS 對模型選擇和易用性的承諾。 Red Hat 對 Llama 4 在 vLLM 上的首日推論支援表示興奮,強調了開源 AI 的力量以及他們與Meta的緊密合作 Cloudflare 作為 Llama 4 的發布合作夥伴,也對能在其 Workers AI 平台上提供 Llama 4 表示激動,並強調其高效、多模態和開源的特性。 Together AI 作為另一家發布合作夥伴,很高興能為開發者提供對 Llama 4 的首日支援,並著重介紹其在多模態能力、效率和可擴展性方面的優勢。

在 Reddit 等社群媒體上,使用者對 Llama 4 的看法不一,既有對其開源特性和長上下文視窗的興奮之情,也有對潛在偏見的疑慮。一些討論也將 Llama 4 與 Gemini 進行比較。總體而言,業界專家和合作夥伴的初步反應非常積極,普遍強調 Llama 4 在多模態、上下文長度和效率方面的進步。祖克伯格關於超越競爭對手的強烈聲明引人注目,但更廣泛的社群則展現出既興奮又持批判性評估的態度,這對於重要的 AI 發布來說是很典型的現象。

授權條款與使用條件

Llama 4 系列模型採用自訂的商業授權條款— Llama 4 Community License Agreement 。該授權條款授予使用者非獨占性、全球性、不可轉讓且免版稅的有限許可,允許其使用、複製、散布、拷貝、創建衍生作品和修改 Llama Materials 。

若使用者散布或提供 Llama Materials(或其任何衍生作品),或包含這些材料的產品或服務,則必須附上授權協議副本,並在相關網站、使用者介面、部落格文章、關於頁面或產品文件中顯著標示「Built with Llama」。如果使用者利用 Llama Materials 創建、訓練、微調或改進任何將被散布的 AI 模型,則必須在該 AI 模型的名稱開頭加上「 Llama 」。此外,所有散布的 Llama Materials 副本中都必須包含一個名為「 Notice 」的文字檔,其中包含指定的版權聲明。

值得注意的是,如果被授權方的產品或服務在 Llama 4 版本發布日(2025年4月5日)前一個月內的月活躍使用者超過7億,則必須向 Meta 申請額外的授權許可 。除了有限度地使用「 Llama 」標誌進行歸屬外,本協議不授予任何商標許可 。 Meta 對 Llama Materials 及其產生的任何輸出結果均不提供任何形式的擔保,並明確聲明不承擔任何責任。

儘管 Meta 宣傳 Llama 4 為開源,但其授權條款因對大型商業實體的使用限制以及其他條件而受到批評,被認為並未完全符合開源定義。此外,授權條款中也存在針對歐盟地區公司或個人的特定使用限制。所有 Llama Materials 的使用都必須遵守其可接受使用政策。總而言之,開發者和企業在使用 Llama 4 之前,務必仔細閱讀並理解其授權協議和可接受使用政策,以確保合規。關於該授權是否真正屬於開源的爭論,也是 AI 社群需要持續關注的重要議題。

倫理考量與潛在風險

如同其他大型語言模型, Llama 4 也可能展現出訓練數據中存在的偏見。儘管 Meta 已努力降低相較於 Llama 3 的偏見,但使用者仍需注意其可能產生的不準確或令人反感的內容。 Llama 4 的多模態能力在處理使用者數據時也引發了隱私方面的擔憂。近期 Llama 框架被發現存在一個嚴重的安全漏洞,可能導致遠端程式碼執行。

Meta 強調負責任的使用,並提倡透明度、保護隱私、解決偏見和促進問責 。他們已在開發的各個層面實施了風險緩解措施,並開源了 Llama Guard 和 Prompt Guard 等安全工具。 Meta 還定期進行紅隊演練,並關注化學、生物、放射性、核子及爆裂物( CBRNE )安全、兒童安全和網路攻擊等關鍵風險領域。然而,有指控稱 Meta 在未經許可的情況下,使用了來自「影子圖書館」的受版權保護的資料來訓練 Llama 模型,包括移除版權資訊,這引發了嚴重的倫理和法律問題。整體來說,與 Llama 4 相關的倫理考量和潛在風險是多方面且重要的,涵蓋了偏見、假訊息、安全漏洞和版權問題。 Meta 已採取多項安全措施和制定相關指南。關於使用盜版數據進行訓練的指控,更凸顯了 AI 發展中倫理和法律挑戰的複雜性。

結語

Llama 4 的發布標誌著 AI 領域的重大進展,其原生多模態能力、 MoE 架構、前所未有的上下文長度以及在多項基準測試中的優異表現,都預示著 AI 技術的未來發展方向。Llama 4 有望賦予開發者強大的工具,以構建創新的 AI 應用,並在自然語言處理、內容生成、程式碼編寫等領域帶來變革。其潛在應用涵蓋了個人化體驗、工作流程自動化以及更智能化的客戶服務等多個方面。