
OpenAI 於2025年4月16日宣布推出其 O3 與 O4-mini 模型,這是其專為增強推理能力而設計的「o 系列」模型的最新進展 。此次發布緊隨2025年1月31日推出的 O3-mini 模型之後 。這些模型的推出標誌著 OpenAI 在開發能夠進行更長時間「思考」以解決複雜問題的 AI 方面邁出了重要一步。
此次發布的一個關鍵進步在於,O3 與 O4-mini 被定位為 OpenAI 迄今為止發布的「最智能模型」,並且首次能夠在其 ChatGPT 平台內自主地使用和組合所有可用工具,包括網路搜尋、使用 Python 分析上傳文件和數據、對視覺輸入進行深度推理,甚至生成圖像 。這種整合工具使用的能力,代表了 AI 發展的一個重要方向。過去的模型或許也能接入工具,但 O3 和 O4-mini 被強調能夠自主地決定何時及如何結合所有工具,這顯示了更高層次的自主性和整合度。這與解決需要多方面分析的複雜查詢的目標相符。透過強化學習教會模型不僅是如何使用工具,更是何時使用它們,這是超越簡單工具執行的關鍵能力飛躍,意味著 AI 在處理涉及多種數據類型 (文本、代碼、圖像) 的複雜多步驟工作流程時,可能需要更少的明確指令。
從 O3-mini (2025年1月底) 到 O3 和 O4-mini (2025年4月16日) 的快速迭代 ,僅約兩個半月的間隔,突顯了 OpenAI 在推理模型領域的積極開發和發布節奏。這可能部分是為了應對日益激烈的市場競爭 (例如 O3-mini 的推出是為了應對 DeepSeek 的崛起 ),也反映了市場對於超越通用模型的專業化推理能力的需求日益增長。這表明 o 系列模型是 OpenAI 的一個關鍵戰略領域,需要快速迭代以在高級推理任務上保持領先地位。
O3:複雜推理的新旗艦
OpenAI 將 O3 定位為其「最強大的推理模型」,旨在推動編碼、數學、科學和視覺感知等領域的技術前沿。它特別適用於處理那些答案不甚明顯、需要深入分析的複雜查詢。
根據 OpenAI 發布的基準測試數據,O3 在多個關鍵領域達到了新的「技術水平」( State-of-the-Art, SOTA ),顯示其在特定任務上超越了現有模型:
- 編碼能力: 在 Codeforces 競賽編程平台上,使用終端工具時達到2706的 ELO 等級分;在衡量解決真實世界軟體工程問題能力的 SWE-bench 測試中,達到了69.1%的準確率(未使用客製化模型支架)。在 Aider 多語言代碼編輯基準測試中也表現強勁,整體( whole )準確率為81.3%,差異 ( diff )準確率為79.6%。
- 數學推理:在美國數學邀請賽( AIME )2024 年試題上達到91.6%的準確率,在2025年試題上達到88.9%(均未使用外部工具)。
- 科學理解:在 GPQA Diamond (博士級別科學問題) 測試中達到83.3%的準確率(未使用外部工具) 。
- 視覺與多模態:在 MMMU(大學水平視覺問題解決)基準上達到82.9%的準確率;在 MathVista (視覺數學推理)上達到86.8%;在 CharXiv-Reasoning(科學圖表推理)上達到78.6%。官方資料特別指出 O3 在分析圖像、圖表和圖形等視覺任務上表現尤為出色 。
- 指令遵循:在 Scale MultiChallenge (多輪指令遵循) 測試中達到 56.51% 的準確率。
- 工具使用與自主任務:在 SWE-Lancer(模擬自由職業編碼任務)中賺取了 $65,250;在 BrowseComp (使用 Python 和瀏覽工具進行深度研究) 中達到49.7%的準確率;在 Tau-bench (函數調用) 測試中,Airline 場景準確率為52.0%,Retail 場景為70.4%。
除了量化的基準測試結果,外部專家評估也顯示,相較於其前代模型 O1,O3 在處理困難的真實世界任務時,嚴重錯誤減少了20%,尤其在程式設計、商業/諮詢和創意構思等領域表現突出。早期測試人員也強調了 O3 作為「思想夥伴」的分析嚴謹性,以及其在生物學、數學和工程等領域生成和批判性評估新穎假設的能力。這種對減少錯誤和提升真實世界任務表現的強調,以及在 SWE-bench 和 SWE-Lancer 等實用基準上的表現,表明 OpenAI 不僅關注原始能力,也致力於提高模型的可靠性和實用性,以應對大型語言模型常見的一致性問題。
技術層面上,O3 的能力提升得益於大規模強化學習 (RL) 的應用。OpenAI 觀察到,應用於推理的 RL 展現出與 GPT 系列預訓練相似的趨勢,即「投入更多計算資源等於更好的性能」。通過在 RL 階段投入更多訓練計算資源和允許更長的推理時間 (即「思考更長時間」),O3 的性能持續提升 。這一發現意義重大,它驗證了除了預訓練階段,在推理/RL 階段投入更多計算資源同樣能帶來顯著的能力增益,可能開闢了超越僅擴展預訓練數據/計算的新性能提升途徑。此外,RL 也被用於訓練 O3 的工具使用能力,重點不僅在於如何使用工具,更在於何時部署它們 。
O4-mini:平衡速度、成本與性能
與 O3 並行發布的 O4-mini 是一款體積更小、效率更高的模型,專為實現快速、低成本的推理而優化。儘管規模較小,但其性能表現,尤其在特定領域,依然十分出色。
O4-mini 在多項基準測試中取得了引人注目的成績:
- 數學推理:在 AIME 2024和2025年試題上分別達到93.4%和92.7%的準確率 (未使用外部工具),這兩項成績均超過了 O3,使其成為這兩項 AIME 基準測試中表現最佳的模型 。
- 編碼能力: 在 Codeforces 平台上,使用終端工具時的 ELO 等級分達到2719,略高於 O3 。在 SWE-bench 測試中準確率為68.1%。在 Aider 測試中,整體準確率 68.9%,差異準確率 58.2% 。
- 科學理解: 在 GPQA Diamond 測試中達到81.4%的準確率 (未使用外部工具),略低於 O3 但仍屬非常高的水平。
- 視覺與多模態:在 MMMU 上達到81.6%,MathVista 上達到84.3%,CharXiv-Reasoning 上達到72.0%,性能接近 O3。
- 指令遵循: 在 Scale MultiChallenge 測試中達到42.99%的準確率 。
- 工具使用與自主任務: 在 SWE-Lancer 中賺取了$56,375;在 BrowseComp 測試中,根據設置不同,準確率分別為28.3%或51.5%;在 Tau-bench (函數調用) 測試中,Airline 場景準確率為49.2%,Retail 場景為65.6%。
根據外部專家的評估,O4-mini 在非 STEM 任務以及數據科學等領域的表現優於其直接前代模型 O3-mini 。專家們也認為,與前代模型相比,O4-mini 在遵循指令和提供更有用、可驗證的回應方面有所改進 。O4-mini 的一個關鍵優勢在於其效率。由於其高效的設計,O4-mini 支持比 O3「顯著更高的使用限制」,使其成為需要高吞吐量、處理大量受益於推理的問題的有力選擇 。
O4-mini 在 AIME 數學基準測試中表現優於體積更大、價格更高的 O3 ,這一點尤其值得注意。這強烈暗示了 OpenAI 採取了高度針對性的優化策略。與其追求所有領域的均衡發展,不如在數學推理等高需求領域進行了重點優化,從而在這些特定領域創造出極具成本效益的卓越性能。這使得 O4-mini 能夠在保持較低成本的同時,在關鍵應用場景提供極具競爭力的表現。
同時,O4-mini 在多個基準測試 (如 MMMU、GPQA、SWE-bench) 上的性能顯著縮小了與旗艦 O3 模型之間的差距 ,而其定價則更接近之前的 mini 系列模型 。這意味著先進的推理能力正以更低的價格點變得觸手可及,有望推動那些以前需要更昂貴模型的任務實現更廣泛的應用。
對於 ChatGPT 付費訂閱用戶,o4-mini 還提供了一個「o4-mini-high」模式 。這並非一個獨立的 API 模型,而是 o4-mini 在 ChatGPT 介面中的一個高推理強度選項,允許模型投入更多計算資源來處理請求,為更複雜的任務提供更強的性能,類似於先前 o3-mini 所擁有的 o3-mini-high 模式 。
API 定價
OpenAI 為其 API 模型提供了分層的定價結構,根據模型的能力進行區分。費用通常按每百萬 token (代幣) 計算,分別針對輸入 ( Input )、輸出 ( Output ) 以及適用的緩存輸入 ( Cached Input ) 收費 。
以下是 O3、O4-mini 和 O3-mini (作為比較基準) 的詳細 API 定價 (美元/每百萬 tokens):
模型 (版本) | 輸入 (Input) | 緩存輸入 (Cached Input) | 輸出 (Output) |
---|---|---|---|
o3 (o3-2025-04-16) | $10.00 | $2.50 | $40.00 |
o4-mini (o4-mini-2025-04-16) | $1.10 | $0.275 | $4.40 |
o3-mini (o3-mini-2025-01-31) | $1.10 | $0.55 | $4.40 |
主要模型 API 定價比較 (美元 / 每百萬 Tokens)
模型 (Model) | 輸入 (Input) | 緩存輸入 (Cached Input) | 輸出 (Output) |
---|---|---|---|
o3 | $10.00 | $2.50 | $40.00 |
o4-mini | $1.10 | $0.275 | $4.40 |
o1 | $15.00 | $7.50 | $60.00 |
o3-mini | $1.10 | $0.55 | $4.40 |
GPT-4o | $2.50 | $1.25 | $10.00 |
GPT-4o mini | $0.15 | $0.075 | $0.60 |
GPT-4.1 | $2.00 | $0.50 | $8.00 |
GPT-4.1 mini | $0.40 | $0.10 | $1.60 |
GPT-4.1 nano | $0.10 | $0.025 | $0.40 |
緩存輸入 ( Cached Input ) 定價適用於那些在 API 調用之間重複使用部分輸入內容的應用場景 (例如,重複的系統提示或上下文資訊)。使用緩存輸入可以顯著降低成本。值得注意的是,O3 和 O4-mini 的緩存輸入價格相較於其標準輸入價格有 75% 的折扣,而 O3-mini 的折扣為50%。對於 O4-mini 而言,其緩存輸入價格($0.275)僅為 O3-mini ($0.55) 的一半 ,這進一步增強了其在涉及重複上下文的應用中的成本效益,表明 OpenAI 可能在積極鼓勵開發者將其用於注重效率的場景。
此外,對於可以接受非同步處理的任務,使用 OpenAI 的 Batch API 可能會獲得額外的成本節省。官方資料顯示,使用 Batch API 處理 O3 和 O4-mini 任務可節省 50% 的輸入和輸出費用。
將 O3 和 O4-mini 的價格與之前的推理模型進行比較,可以更清晰地看到其市場定位。例如,之前的旗艦推理模型 O1 定價為$15(輸入)/$60(輸出) ,而更強大的 O1-pro 定價高達$150(輸入)/$600(輸出) 。相比之下,O3 的價格 ($10/$40) 低於 O1,而 O4-mini ($1.10/$4.40) 則提供了極具吸引力的成本效益,其輸入/輸出價格與 O3-mini 相同,但緩存輸入價格更低。這種顯著的價格差異清晰地劃分了 O3 和 O4-mini 的目標市場:O3 面向需要頂級性能的用戶,而 O4-mini 則面向追求高性價比和效率的廣大開發者。
技術規格
o4-mini 與 o3 保持一致
- 上下文窗口 ( Context Window ): 200,000 tokens
- 最大輸出 Token 數( Max Output Tokens ): 100,000 tokens
- 知識截止日期( Knowledge Cutoff ): 2024年5月31日
使用限制(Plus 用戶)
- o3:每週100次對話
- o4-mini:每天300次對話
- o4-mini-high:每天100次對話
選擇合適的模型
在 O3 和 O4-mini 之間進行選擇,本質上是在最高推理能力(O3)與速度/成本效益(O4-mini)之間做出權衡。
- 選擇 O3 的場景:當任務需要最高水平的複雜推理、多方面分析、在編碼/科學/視覺方面追求最前沿的性能,且成本是次要考慮因素時,O3 是理想的選擇 。例如,深度科學研究分析、複雜的軟體工程挑戰、高級創意生成等。
- 選擇 O4-mini 的場景:當應用需要強大的推理能力 (尤其是在數學和編碼方面),但同時優先考慮速度、低延遲、高吞吐量和顯著降低的成本時,O4-mini 更為合適 。例如,大規模數據分析、應用程序中的實時推理支持、成本敏感的教育工具、數學/編碼輔導機器人等。
- O4-mini vs. O3-mini:對於目前使用 O3-mini 的用戶而言,O4-mini 提供了一個極具吸引力的升級路徑。它在多個方面 (尤其是在非 STEM 領域和數據科學方面 ) 提供了相當或更優的性能,擁有特別出色的數學能力 ,並且具有更低的緩存輸入成本 ,適用於大多數追求效率的用例。
O4-mini 的出現,以其強大的性能 (在某些領域接近甚至超越 O3) 和極低的成本,代表著先進 AI 推理能力向更廣泛用戶普及的重要一步。過去,頂級的推理能力往往伴隨著高昂的價格。O4-mini 以接近先前 mini 系列的價格點提供了高水平的推理能力,降低了開發者和企業實驗和部署推理模型的門檻。這種可及性的提高,有望在教育、小型企業工具以及其他受成本限制的領域激發新的創新應用。