OpenAI 於2024年12月20日宣布推出其最新的推理模型 o3 以及其迷你版 o3 Mini,進一步拓展了人工智能在程式設計、數學運算及科學領域的應用邊界。這些新模型的發布,顯示出 OpenAI 在解決複雜問題及推理能力方面的重大突破。
推理新時代的來臨
自推出首個推理模型 o1 以來,OpenAI 的研發團隊一直在不斷推進技術邊界,讓模型能夠處理更多需要推理的複雜任務。如今,o3 和 o3 Mini 的推出,標誌著 OpenAI 在 AI 進化的下一階段,兩款新模型不僅在性能上優於前代,更在測試基準中取得了令人矚目的成績。
「我們對這些新模型的表現感到非常激動,並且對模型能夠執行的任務種類感到振奮。」OpenAI 研究總監 Mark 表示。「這些模型展現了 AI 在高難度編程、數學計算及科學問題中的強大潛力。」
性能全面提升
根據 OpenAI 提供的資料,o3 模型在程式設計與數學基準測試中,表現出顯著的進步。例如,在程式設計基準測試(如 Codeforces)中,o3 模型的準確率達到了 71.7%,比 o1 模型高出 20% 以上。在競賽數學(如 AMY 和 GPQ)基準測試中,o3 模型的準確率也達到了 96.7%,明顯超越了 o1 模型的 83.3%。
此外,o3 模型在處理 PhD 級的科學問題時也表現優異,達到了 87.7% 的準確率,超過了 o1 模型的 78%。這顯示出 o3 在解決高難度問題方面的強大能力。
攻克新的挑戰基準
o3 模型也在最新的 Epic AI Frontier Math 基準測試中,達到了 25% 以上的準確率,這個測試包含了大量新穎且極具挑戰性的數學問題,對 AI 模型的運算能力提出了極高要求。而在 ARC 基準測試中,o3 更是以 75.7% 的新紀錄刷新了領先地位,並在高運算設定下達到了 87.5%的成績,這一表現遠超過了人類專家的標準。
o3 Mini:高效推理,降低成本
除了 o3 模型外,OpenAI 也發布了其更具成本效益的版本— o3 Mini 。這款迷你版模型專注於在低成本的情況下提供高效的推理能力,並且支持根據需求調整推理時間。o3 Mini 支援低、中、高三種推理設定,使用戶能根據問題的難度選擇合適的運算時間,以達到最佳效能與成本的平衡。
例如,在程式設計基準測試中,o3 Mini 在較短的運算時間內,能夠達到比 o1 Mini 更好的準確度,而成本卻相對較低。這使得 o3 Mini 成為一個極具吸引力的選擇,尤其適合需要高效能又需控制成本的應用場景。
公開測試與未來計劃
儘管 o3 和 o3 Mini 目前尚未公開正式推出,OpenAI 表示,這兩款模型將會進行公開的安全測試,並邀請全球研究人員參與測試。這些測試不僅能幫助 OpenAI 持續改進模型,還能確保其在日益強大的推理能力下,保持更高的安全性。
「我們將對模型進行更全面的測試,並開放給全球的研究者參與,這是我們在進步的過程中不可或缺的一部分。」OpenAI 研發團隊指出。
未來,OpenAI 仍計劃進一步推動推理模型的發展,並與其他機構合作,探索更多的應用場景和技術挑戰。隨著 o3 和 o3 Mini 的推出,AI 在推理、編程、數學計算等領域的應用將進一步拓展,預示著人工智能邊界的再度擴展。
進一步閱讀
- OpenAI 12天活動 DAY11:推出進階版 ChatGPT 桌面應用
- OpenAI 12天活動 DAY10:推出 ChatGPT 電話服務
- OpenAI 12天活動 DAY9:推出新模型與功能,提升開發者體驗
- OpenAI 12天活動 DAY8:ChatGPT 搜尋功能全面開放,免費用戶也能享受即時資訊
- OpenAI 12天活動 DAY7:推出「專案」功能整合對話與工作場景
- OpenAI 12天活動 DAY6:ChatGPT 推出影片與螢幕分享功能,聖誕老人也來了!
- OpenAI 12天活動 DAY5:ChatGPT 即將登陸 Apple 設備,與 iOS 及 Mac OS 整合
- OpenAI 12天活動 DAY4:推出 Canvas,重新定義 ChatGPT 的協作體驗
- OpenAI 12天活動 DAY3:推出全新影片生成工具 Sora
- OpenAI 12天活動 DAY2:推出突破性模型自訂計劃,採用強化微調
- OpenAI 12天活動揭幕:DAY1 推出 o1 模型完整版和 Chat GPT Pro