OpenAI 再掀波瀾:GPT-4.1 家族 API 登場

GPT-4.1 家族 API 登場

OpenAI 再度投下震撼彈,於2025年4月14日正式推出新一代 AI 模型家族:GPT-4.1、GPT-4.1 Mini 及 GPT-4.1 Nano。此次發布的關鍵在於這三款模型目前僅透過應用程式介面 ( API ) 提供,明確鎖定開發者社群與企業客戶。

影片來源:OpenAI

OpenAI 宣稱,新模型家族在效能上「全面超越」其先前最先進的 GPT-4o 模型,特別在程式編碼、指令遵循以及長文本理解能力方面取得了重大進展。其中最引人注目的升級是支援高達100萬 token 的上下文處理能力,並將知識庫更新至 2024年6月。

此次發布更突顯了 OpenAI 在激烈市場競爭下的策略轉變:不僅追求頂尖效能,更著重於提升成本效益與降低延遲。為此 OpenAI 宣布將於2025年7月14日停止 GPT-4.5 Preview API 的服務,理由是 GPT-4.1 在許多關鍵功能上提供了更好或相似的效能,且成本與延遲顯著降低。同時舊版的 GPT-4 模型也將於 2025年4月30日從 ChatGPT 介面中移除。這一系列行動發生在與 Google ( Gemini ) 和 Anthropic ( Claude ) 等對手的競爭日益白熱化之際,顯示 OpenAI 正積極鞏固其在 AI 平台市場的領導地位。

更快、更強、更划算

OpenAI 此次並非推出單一模型,而是精心打造了一個包含三種不同規模的 API 專用模型家族,旨在滿足不同開發場景的需求。

  1. GPT-4.1: 作為新的旗艦模型,GPT-4.1 被定位於處理最複雜的任務,提供家族中最高的推理能力與準確性,但相應地,其使用成本也最高。
  2. GPT-4.1 Mini: 此模型在智慧、速度與成本之間取得了優異的平衡。OpenAI 指出,它在許多基準測試中甚至超越了 GPT-4o,同時延遲降低近一半,成本更是減少了83%。對於尋求高效能與經濟性兼具的開發者而言,Mini 版本無疑是個極具吸引力的選擇。
  3. GPT-4.1 Nano: 這是 OpenAI 迄今為止速度最快、成本最低的模型,專為需要極低延遲的應用而設計,例如即時分類或自動完成。儘管體積小巧,Nano 仍具備處理 100 萬 token 上下文的能力,並在 MMLU 等基準測試中取得了超越 GPT-4o Mini 的驚人分數 (80.1%)。

OpenAI 強調 GPT-4.1 家族在「延遲曲線的每個點上都推動了效能的提升」,並以「更低的成本提供卓越的效能」。例如 GPT-4.1 的 API 使用成本比 GPT-4o 降低了26%。這種對成本效益的關注,對於需要管理預算並大規模部署 AI 的企業 API 用戶來說極具幫助。

值得注意的是這些標示為「4.1」的模型目前僅能透過 API 存取,雖然 OpenAI 表示許多在指令遵循、編碼和智能方面的改進已逐步整合到 ChatGPT 使用的最新版 GPT-4o 中,但 GPT-4.1 家族獨特的全部功能,特別是 100 萬 token 的超長上下文處理能力,是專為開發者和企業打造的。

編碼、指令遵循與長文本處理能力躍進

GPT-4.1 家族的推出,不僅是型號的增加,更代表著核心能力的顯著躍升,尤其在以下三個關鍵領域:

編碼能力

OpenAI 明顯將編碼能力的提升作為此次發布的重點。在衡量真實世界軟體工程技能的 SWE-bench Verified 基準測試中,GPT-4.1 取得了54.6%的分數,相較於 GPT-4o 的33.2%和 GPT-4.5 的分數,實現了超過21%的絕對提升。部分資料甚至顯示其得分達到 55%。在衡量跨語言編碼和程式碼變更能力的 Aider polyglot diff 基準測試中,GPT-4.1 的得分更是 GPT-4o 的兩倍以上,甚至比 GPT-4.5 高出8%。

除了亮眼的基準測試數據,更重要的是實際應用中的改進。在前端網頁應用程式生成方面,付費的人類評分員有 80% 的時間更偏好 GPT-4.1 生成的網站。開發者可以期待更可靠的程式碼差異(diff )格式遵循能力,這有助於僅輸出更改的行,從而節省成本和延遲。此外,模型進行多餘編輯的情況也大幅減少(從 GPT-4o 的 9% 降至 2%),並且能更好地探索程式碼庫、完成任務,以及生成可運行並通過測試的程式碼。

指令遵循

讓 AI 精確理解並執行複雜指令一直是個挑戰。GPT-4.1 在這方面也取得了顯著進步。在 Scale AI 的 MultiChallenge 基準測試中,得分達到 38.3%,比 GPT-4o 提高了10.5%。在 IFEval 測試中,得分為87.4%,高於 GPT-4o 的81.0%。OpenAI 內部的困難指令遵循評估也顯示準確率從 29% 躍升至 49%。

這意味著 GPT-4.1 更擅長處理包含多個或複雜請求的提示,能更好地遵循指定的輸出格式、否定性約束(例如「不要做什麼」),並在多輪對話中保持連貫性 。

長文本理解

GPT-4.1 家族最令人矚目的突破之一是其處理上下文長度的能力。所有三款模型(包括 Mini 和 Nano)均支援高達 100 萬 token 的輸入上下文窗口,遠超 GPT-4o 的 128,000 token。

OpenAI 表示新模型經過訓練,能夠可靠地關注整個 100 萬 token 長度內的資訊。多項基準測試證實了這一點:在用於多模態長上下文理解的 Video-MME 基準測試中,GPT-4.1 在長影片、無字幕類別中得分72.0%,比 GPT-4o 提高了 6.7%,創下新的技術水平。在需要模型在長文本中區分多條資訊的 OpenAI-MRCR 評估中,GPT-4.1 在 128K token 長度內優于 GPT-4o,並在100萬 token 時仍保持強勁表現。在衡量多跳長上下文推理能力的 Graphwalks 數據集上,GPT-4.1 準確率達到 61.7%,與專注推理的 o1 模型持平,遠超 GPT-4o 的 42%。這種超長的上下文處理能力為企業應用開啟了新的可能性,例如分析完整的程式碼庫、處理冗長的法律或財務文件、或對長影片進行深入問答 。

此外 GPT-4.1 家族的知識庫也更新至 2024 年 6 月,確保了資訊的時效性。

OpenAI 的策略性佈局

GPT-4.1 的發布伴隨著 OpenAI 對其產品線的重大調整。宣布將於2025 年7月14日停止提供 GPT-4.5 Preview API,並於2025年4月30日將 GPT-4 從 ChatGPT 介面中移除。OpenAI 解釋這樣做是因為 GPT-4.1 在成本和延遲方面更具優勢,同時在許多關鍵能力上達到甚至超越了 GPT-4.5。這一舉措簡化產品組合,將開發者的注意力引導至更具成本效益且功能更強大的 4.1 系列。

在激烈的市場競爭中,GPT-4.1 的表現如何?雖然它相較於 OpenAI 自身的舊模型有顯著提升,但在與頂尖對手的較量中,呈現出複雜的局面:

  1. 編碼能力: 儘管 GPT-4.1 在 SWE-Bench 上的得分(54.6%/55%)大幅領先其前代,但仍落後於 Google 的 Gemini 2.5 Pro (63.8%)和 Anthropic 的 Claude 3.7 Sonnet (62-63%/70%)。部分基準測試甚至顯示其落後於開源模型 DeepSeek V3 。然而,在 Qodo 進行的更貼近實際應用的代碼審查建議測試中,GPT-4.1 的表現優於 Claude 3.7 Sonnet 。
  2. 長上下文: GPT-4.1 提供的 100 萬 token 上下文窗口跟上了 Google Gemini 200萬 token 的腳步。Anthropic 的 Claude 目前提供 200k token 。
  3. 推理與通用能力: GPT-4.1 在 MMLU 基準測試中取得領先 (90.2%),但在針對高難度問題的 GPQA Diamond 測試中落後於 Gemini 2.5。在其他綜合性基準測試如 LiveBench 上,GPT-4.1 表現具有競爭力,但並非在所有方面都領先於 Claude 3.7 Sonnet 或 DeepSeek V3 。
  4. 定價策略: GPT-4.1 家族的定價策略極具競爭力。旗艦 GPT-4.1 的輸入/輸出價格為美元$2/$8(每百萬 token),Mini 為$0.4/$1.6, Nano 則低至$0.1/$0.4。這使得 GPT-4.1 Nano 的價格與 Google 的 Gemini 2.0 Flash 完全相同,而 Mini 和 Standard 版本的價格也普遍低於 Anthropic 的 Claude 3.7 Sonnet($3/$15)和 Google 的 Gemini 2.5 Pro (根據上下文長度,價格為$1.25/$10 或 $2.5/$15)。

此次發布被視為 OpenAI 迭代策略中的一個「增量但重要的增強」步驟,可能是在為未來的 GPT-5 或更先進的推理模型鋪路。其核心目標似乎是在能力、成本和可靠性之間尋求最佳平衡點,以維持市場領導地位並推動更廣泛的採用。

GPT-4.5 的快速棄用,儘管其曾被譽為「最大、最好的聊天模型」,暗示 OpenAI 可能正在優先考慮其主流 API 產品的成本效益和可擴展性。這或許意味著,最耗費資源的架構將被保留給專門的推理模型(如 o1/o3 系列)或未來的重大突破,而非廣泛部署於通用 API 中。

合作夥伴整合

OpenAI 對 GPT-4.1 的發布充滿信心。執行長 Sam Altman 表示:「基準測試很強勁,但我們專注於真實世界的效用,開發者似乎非常滿意」。產品長 Kevin Weil 也強調了新模型在編碼、複雜指令遵循和構建代理方面的卓越能力。

此次發布的一個顯著特點是與主要技術平台的緊密整合:

  • Microsoft Azure: 作為 OpenAI 的主要合作夥伴,微軟同步宣布 GPT-4.1 系列模型已登陸 Azure OpenAI Service 和 Azure AI Foundry 。微軟強調了這些模型對 Azure 開發者的價值,特別是在提升編碼效率、處理長文本和驅動代理工作流程方面。更重要的是,微軟預告將很快透過 Azure AI Foundry 為 GPT-4.1 和 4.1-mini 提供監督式微調( fine-tuning )支持,使企業能根據自身數據進一步客製化模型。
  • GitHub: 同樣隸屬於微軟的 GitHub,也將 GPT-4.1 作為公共預覽版整合進 GitHub Copilot 和 GitHub Models 平台。開發者可以在 VS Code 或 github.com 的 Copilot Chat 中直接選用 GPT-4.1( Preview ),或在 GitHub Models 的 playground 中進行實驗。對於 Copilot 企業版用戶,管理員需要透過新的策略設定來啟用 GPT-4.1 的存取權限。

成本效益

GPT-4.1 家族的推出,特別是其優化的成本結構和增強的功能,為企業採用 AI 提供了新的契機。新模型的定價策略極具吸引力。以下比較 GPT-4.1 家族與其前代及主要競爭對手的關鍵指標(價格單位均為美元/每百萬 token):

模型名稱輸入價格輸出價格快取輸入價格最大上下文窗口最大輸出 Token知識截止日期
GPT-4.1$2.00$8.00$0.501,047,57632,7682024 年 5 月
GPT-4.1 Mini$0.40$1.60$0.101,047,57632,7682024 年 5 月
GPT-4.1 Nano$0.10$0.40$0.0251,047,57632,7682024 年 5 月
GPT-4o$2.50$10.00$1.25128,0004,096~8,1922023 年 10 月
GPT-4.5 Preview$75.00$150.00$37.50~128,000 (?)4,096~8,1922024 年 12 月
Claude 3.7 Sonnet$3.00$15.00N/A200,000128,0002024 年 4 月
Gemini 2.5 Pro$1.25/$2.50¹$10.00/$15.00¹N/A2,000,00065,5362025 年 1 月
Gemini 2.0 Flash$0.10$0.40$0.0251,000,0008,1922024 年 6 月

微調 (Fine-tuning) 成本: OpenAI 也為新的 GPT-4.1 和 4.1-mini 提供了微調選項,其定價相對合理(例如,4.1 Mini 的訓練成本為 $5/百萬 token,使用成本為 $0.8/$0.2/$3.2)。微調允許企業使用自有數據客製化模型,以適應特定的業務術語、語氣和工作流程,從而獲得更高的效能。在 Azure AI Foundry 等平台上提供此功能,進一步降低了企業打造專屬 AI 解決方案的門檻。

來更長遠的價值。

結語

OpenAI GPT-4.1 家族的發布是其鞏固 AI 平台市場主導地位的關鍵一步,特別是在利潤豐厚的開發者和企業市場。透過提供顯著提升的編碼和指令遵循能力、100萬 token 上下文處理能力,以及極具競爭力的分層定價結構,OpenAI 正試圖在性能、功能和成本效益之間建立新的行業標竿。與 Microsoft Azure 和 GitHub 等主要平台的深度整合,以及為企業提供的微調選項,進一步強化了其在企業級應用中的吸引力。儘管在某些基準測試上仍面臨來自 Google 和 Anthropic 的激烈競爭,但 GPT-4.1 的整體改進,特別是對「真實世界效用」的關注,使其成為推動下一波 AI 應用和企業數位轉型的重要力量。