Google 推出 Gemini 2.5 Pro :號稱「最聰明」 AI 模型

Google發布Gemini 2.5 Pro

Google 今日宣布推出最新的 AI 模型 Gemini 2.5 Pro,這款實驗性模型被公司內部譽為「最聰明」的 AI,並在多項業界標準的基準測試中取得了領先地位。 Gemini 2.5 Pro 的發布,標誌著 Google 在 AI 領域的持續創新和對更高性能模型的追求,處理日益複雜的問題並支援更強大的 AI 應用。

開發者與進階用戶搶先體驗

根據官方資訊, Gemini 2.5 Pro Experimental 於2025年3月25日正式發布。目前,開發者可以透過 Google AI Studio 體驗這款最新的模型。同時,訂閱 Gemini Advanced 的用戶也能在 Gemini 應用程式中選用 Gemini 2.5 Pro 。 Google 計劃在未來幾週內將 Gemini 2.5 Pro 整合到 Vertex AI 平台,進一步擴大其可用性。至於 Gemini 2.5 Pro 的具體定價策略, Google 則承諾將在未來幾週內正式對外公布。

強大的推理能力與多模態處理

Gemini 2.5 Pro 被描述為一款「思考模型」,其核心特性在於能夠在回應之前進行內部推理,從而顯著提升其性能和準確性。這種設計使其在需要複雜推理的基準測試中表現出色,例如在數學和科學領域的 GPQA 和 AIME 2025 測試中均處於領先地位。此外, Gemini 2.5 Pro 在程式碼能力方面也展現出強勁的實力,擅長創建視覺上引人注目的 Web 應用程式和代理程式碼應用程式,並能高效地進行程式碼轉換和編輯。在 SWE-Bench Verified 基準測試中, Gemini 2.5 Pro 在自訂代理設定下取得了63.8%的優異成績。

與先前的 Gemini 模型一樣,2.5 Pro 也具備原生多模態能力,能夠理解和處理來自文本、音訊、圖像、影片甚至整個程式碼儲存庫等多種來源的資訊。值得一提的是, Gemini 2.5 Pro 的上下文視窗初始版本支援100萬個 token , Google 並計劃很快將其擴展至200萬個 token ,這使其能夠處理龐大的資料集和複雜的問題。此外, Gemini 2.5 Pro 的輸出 token 限制也大幅提升至64,000,相較於先前版本的8,192有顯著的提升。

多項指標領先競爭對手

Gemini 2.5 Pro 在多項關鍵基準測試中展現了卓越的性能,直接挑戰了 OpenAI 的 GPT-4.5 和 Anthropic 的 Claude 3 等頂尖模型。以下表格總結了 Gemini 2.5 Pro 在部分基準測試中的表現,並與其他模型進行了比較:

基準測試 (Benchmark)Gemini 2.5 Pro Experimental (03-25)OpenAI o3-mini HighOpenAI GPT-4.5Claude 3.7 Sonnet 64k Extended thinkingGrok 3 Beta Extended thinking
Humanity’s Last Exam (無工具)18.8%14.0%6.4%8.9%
GPQA Diamond (科學,單次嘗試)84.0%79.7%71.4%78.2%80.2%
AIME 2025 (數學,單次嘗試)86.7%86.5%49.5%77.3%
SWE-Bench Verified (代理程式碼)63.8%49.3%38.0%70.3%
MMMU (視覺推理,單次嘗試)81.7%無多模態支援74.4%75.0%76.0%
MRCR (長上下文,1M tokens)83.1%36.3% (128k)48.8% (128k)
Global MMLU (Lite) (多語言效能)89.8%

數據顯示, Gemini 2.5 Pro 在多項關鍵基準測試中均取得了領先地位,尤其是在科學推理(GPQA Diamond)和數學(AIME 2025)方面表現突出。其在Humanity’s Last Exam(一項旨在測試AI模型高階推理能力的基準)中獲得的18.8%的成績,也顯著優於其他競爭模型。此外, Gemini 2.5 Pro 在長上下文理解和處理方面也展現出強大的能力(MRCR)。儘管在某些特定領域,例如代理程式碼(SWE-Bench Verified)方面, Claude 3.7 Sonnet 的表現略勝一籌,但在整體上, Gemini 2.5 Pro 的基準測試結果證明了其作為一款頂尖 AI 模型的實力。值得注意的是, Google 強調其基準測試結果是在沒有使用如多數投票等增加成本的測試時間技術下取得的。

與前代模型的比較

相較於 Google 之前的模型, Gemini 2.5 Pro 在多個方面都展現出顯著的進化。與 Gemini 2.0 Pro 相比, 2.5 Pro 的知識截止日期更新至2025年1月,而 2.0 Pro 的知識則停留在2024年8月。更重要的是, Gemini 2.5 Pro 被明確定位為一款「思考模型」,具備更強大的推理能力,這使其在處理複雜任務時更具優勢。在應用方面, Gemini 2.5 Pro 在創建 Web 應用程式和代理程式碼應用程式方面表現更為出色。

儘管 Gemini 2.5 Pro 的初始上下文視窗為100萬個 token ,略小於 Gemini 2.0 Pro 和 1.5 Pro 的200萬個 token,但其顯著提升的輸出 token 限制(64,000 vs. 8,192)使其在需要生成大量文本的場景中更具優勢。與 Gemini 1.5 Pro 相比, 2.5 Pro 的訓練數據更新至2025年3月,而 1.5 Pro 的數據則停留在2024年8月。此外,在視覺推理基準測試 MMMU 中, Gemini 2.5 Pro 的表現也優於1.5 Pro 。這些改進表明, Google 在不斷迭代 Gemini 系列模型,更側重於提升模型的核心能力,使其能夠更好地理解和解決複雜問題。

開發者與企業的強大助力

Gemini 2.5 Pro 的目標受眾主要包括 AI 開發者和需要處理複雜任務的企業用戶。其強大的編碼能力可以幫助開發者更有效率地生成程式碼、進行除錯,並在開發過程中提供即時協助。對於企業而言, Gemini 2.5 Pro 的多模態處理能力和長上下文視窗使其能夠應用於複雜的資料分析、內容創作和提升對話式AI的品質。例如,該模型可以分析大量的產品照片、總結冗長的會議記錄,並處理複雜的商業文件。此外,其在理解圖像和音訊方面的能力,也為更廣泛的應用場景打開了大門。

Google 優先向開發者和付費的 Gemini Advanced 用戶提供 Gemini 2.5 Pro ,這表明其希望首先獲得這些核心用戶群的回饋,並鼓勵在開發和進階應用場景中的使用。 Gemini 2.5 Pro 的多功能性使其能夠應用於軟體開發、資料分析、內容創作和對話式 AI 等多個領域,顯示其廣泛的潛在市場。

結語

Gemini 2.5 Pro 的推出無疑是 AI 領域的一個重要里程碑。其強大的效能和先進的功能,特別是在推理、編碼和多模態處理方面的卓越表現,有望推動各行各業的創新。開發者和企業可以利用 Gemini 2.5 Pro 打造更智能、更強大的應用程式和服務,從而提升生產力並創造新的價值。隨著 Google 持續投入 AI 研發, Gemini 2.5 Pro 的發布無疑將加劇 AI 領域的競爭,並推動整個行業向前發展。