​Midjourney V7 推出全新編輯器與 Weird 參數

​Midjourney V7 推出全新編輯器與 Weird 參數

2025年4月18日 Midjourney 宣布推出 V7 版本,帶來全新編輯器功能與「Weird」參數,進一步提升用戶的創作自由度。​

全新編輯器功能

Midjourney 的全新編輯器現已對所有會員等級開放,提供以下功能:​

  1. 多圖層編輯:​允許用戶在單一畫布上進行多層次的圖像編輯,提升創作靈活性。​
  2. 智慧選取工具:​透過 AI 技術,精確選取圖像中的特定區域,進行局部修改或替換。​
  3. 智慧 AI 審核:​加強的內容審核機制,確保創作內容符合社群準則。​

此外,編輯器現已整合 Midjourney 生成圖像與外部上傳圖像的編輯體驗,用戶可透過左側的「編輯」按鈕或燈箱中的「編輯」按鈕進入編輯器。​

Midjourney 多圖層的應用方法(感謝 X 網友 Tatiana Tsiguleva 的分享)

「Weird」參數回歸

Midjourney 在 V7 版本中重新引入了「Weird」參數,允許用戶在生成圖像時加入更多創意與實驗性。​

  • 參數範圍:​0 至 1000,最高可達 3000。​
  • 搭配建議:​與高值的「Stylize」參數結合使用,可創造出更具藝術感與獨特風格的圖像。​

此功能旨在讓用戶突破傳統美學框架,探索更多元的視覺表現。​

結語

Midjourney 鼓勵用戶在 Discord #ideas-and-features 頻道分享對新功能的看法,並在 #v7-showcase 頻道展示創作成果。​

隨著 V7 版本的推出,Midjourney 持續致力於提供更強大且直觀的創作工具,滿足用戶日益多元的創作需求。

進一步閱讀
  1. Midjourney V7 持續升級:導入 V6 熱門功能、AI 輔助提示與用戶回饋加速進化
  2. Midjourney V7 Alpha 版本震撼發布

OpenAI 推出 O3/O4-mini/O4-mini-high

OpenAI 推出 O3/O4-mini/O4-mini-high

OpenAI 於2025年4月16日宣布推出其 O3 與 O4-mini 模型,這是其專為增強推理能力而設計的「o 系列」模型的最新進展 。此次發布緊隨2025年1月31日推出的 O3-mini 模型之後 。這些模型的推出標誌著 OpenAI 在開發能夠進行更長時間「思考」以解決複雜問題的 AI 方面邁出了重要一步。

影片來源:OpenAI

此次發布的一個關鍵進步在於,O3 與 O4-mini 被定位為 OpenAI 迄今為止發布的「最智能模型」,並且首次能夠在其 ChatGPT 平台內自主地使用和組合所有可用工具,包括網路搜尋、使用 Python 分析上傳文件和數據、對視覺輸入進行深度推理,甚至生成圖像 。這種整合工具使用的能力,代表了 AI 發展的一個重要方向。過去的模型或許也能接入工具,但 O3 和 O4-mini 被強調能夠自主地決定何時及如何結合所有工具,這顯示了更高層次的自主性和整合度。這與解決需要多方面分析的複雜查詢的目標相符。透過強化學習教會模型不僅是如何使用工具,更是何時使用它們,這是超越簡單工具執行的關鍵能力飛躍,意味著 AI 在處理涉及多種數據類型 (文本、代碼、圖像) 的複雜多步驟工作流程時,可能需要更少的明確指令。

從 O3-mini (2025年1月底) 到 O3 和 O4-mini (2025年4月16日) 的快速迭代 ,僅約兩個半月的間隔,突顯了 OpenAI 在推理模型領域的積極開發和發布節奏。這可能部分是為了應對日益激烈的市場競爭 (例如 O3-mini 的推出是為了應對 DeepSeek 的崛起 ),也反映了市場對於超越通用模型的專業化推理能力的需求日益增長。這表明 o 系列模型是 OpenAI 的一個關鍵戰略領域,需要快速迭代以在高級推理任務上保持領先地位。

O3:複雜推理的新旗艦

OpenAI 將 O3 定位為其「最強大的推理模型」,旨在推動編碼、數學、科學和視覺感知等領域的技術前沿。它特別適用於處理那些答案不甚明顯、需要深入分析的複雜查詢。  

根據 OpenAI 發布的基準測試數據,O3 在多個關鍵領域達到了新的「技術水平」( State-of-the-Art, SOTA ),顯示其在特定任務上超越了現有模型:

  • 編碼能力: 在 Codeforces 競賽編程平台上,使用終端工具時達到2706的 ELO 等級分;在衡量解決真實世界軟體工程問題能力的 SWE-bench 測試中,達到了69.1%的準確率(未使用客製化模型支架)。在 Aider 多語言代碼編輯基準測試中也表現強勁,整體( whole )準確率為81.3%,差異 ( diff )準確率為79.6%。  
  • 數學推理:在美國數學邀請賽( AIME )2024 年試題上達到91.6%的準確率,在2025年試題上達到88.9%(均未使用外部工具)。  
  • 科學理解:在 GPQA Diamond (博士級別科學問題) 測試中達到83.3%的準確率(未使用外部工具) 。
  • 視覺與多模態:在 MMMU(大學水平視覺問題解決)基準上達到82.9%的準確率;在 MathVista (視覺數學推理)上達到86.8%;在 CharXiv-Reasoning(科學圖表推理)上達到78.6%。官方資料特別指出 O3 在分析圖像、圖表和圖形等視覺任務上表現尤為出色 。  
  • 指令遵循:在 Scale MultiChallenge (多輪指令遵循) 測試中達到 56.51% 的準確率。  
  • 工具使用與自主任務:在 SWE-Lancer(模擬自由職業編碼任務)中賺取了 $65,250;在 BrowseComp (使用 Python 和瀏覽工具進行深度研究) 中達到49.7%的準確率;在 Tau-bench (函數調用) 測試中,Airline 場景準確率為52.0%,Retail 場景為70.4%。  

除了量化的基準測試結果,外部專家評估也顯示,相較於其前代模型 O1,O3 在處理困難的真實世界任務時,嚴重錯誤減少了20%,尤其在程式設計、商業/諮詢和創意構思等領域表現突出。早期測試人員也強調了 O3 作為「思想夥伴」的分析嚴謹性,以及其在生物學、數學和工程等領域生成和批判性評估新穎假設的能力。這種對減少錯誤和提升真實世界任務表現的強調,以及在 SWE-bench 和 SWE-Lancer 等實用基準上的表現,表明 OpenAI 不僅關注原始能力,也致力於提高模型的可靠性和實用性,以應對大型語言模型常見的一致性問題。  

技術層面上,O3 的能力提升得益於大規模強化學習 (RL) 的應用。OpenAI 觀察到,應用於推理的 RL 展現出與 GPT 系列預訓練相似的趨勢,即「投入更多計算資源等於更好的性能」。通過在 RL 階段投入更多訓練計算資源和允許更長的推理時間 (即「思考更長時間」),O3 的性能持續提升 。這一發現意義重大,它驗證了除了預訓練階段,在推理/RL 階段投入更多計算資源同樣能帶來顯著的能力增益,可能開闢了超越僅擴展預訓練數據/計算的新性能提升途徑。此外,RL 也被用於訓練 O3 的工具使用能力,重點不僅在於如何使用工具,更在於何時部署它們 。

O4-mini:平衡速度、成本與性能

與 O3 並行發布的 O4-mini 是一款體積更小、效率更高的模型,專為實現快速、低成本的推理而優化。儘管規模較小,但其性能表現,尤其在特定領域,依然十分出色。  

O4-mini 在多項基準測試中取得了引人注目的成績:

  • 數學推理:在 AIME 2024和2025年試題上分別達到93.4%和92.7%的準確率 (未使用外部工具),這兩項成績均超過了 O3,使其成為這兩項 AIME 基準測試中表現最佳的模型 。
  • 編碼能力: 在 Codeforces 平台上,使用終端工具時的 ELO 等級分達到2719,略高於 O3 。在 SWE-bench 測試中準確率為68.1%。在 Aider 測試中,整體準確率 68.9%,差異準確率 58.2% 。
  • 科學理解: 在 GPQA Diamond 測試中達到81.4%的準確率 (未使用外部工具),略低於 O3 但仍屬非常高的水平。
  • 視覺與多模態:在 MMMU 上達到81.6%,MathVista 上達到84.3%,CharXiv-Reasoning 上達到72.0%,性能接近 O3。  
  • 指令遵循: 在 Scale MultiChallenge 測試中達到42.99%的準確率 。  
  • 工具使用與自主任務: 在 SWE-Lancer 中賺取了$56,375;在 BrowseComp 測試中,根據設置不同,準確率分別為28.3%或51.5%;在 Tau-bench (函數調用) 測試中,Airline 場景準確率為49.2%,Retail 場景為65.6%。

根據外部專家的評估,O4-mini 在非 STEM 任務以及數據科學等領域的表現優於其直接前代模型 O3-mini 。專家們也認為,與前代模型相比,O4-mini 在遵循指令和提供更有用、可驗證的回應方面有所改進 。O4-mini 的一個關鍵優勢在於其效率。由於其高效的設計,O4-mini 支持比 O3「顯著更高的使用限制」,使其成為需要高吞吐量、處理大量受益於推理的問題的有力選擇 。  

O4-mini 在 AIME 數學基準測試中表現優於體積更大、價格更高的 O3 ,這一點尤其值得注意。這強烈暗示了 OpenAI 採取了高度針對性的優化策略。與其追求所有領域的均衡發展,不如在數學推理等高需求領域進行了重點優化,從而在這些特定領域創造出極具成本效益的卓越性能。這使得 O4-mini 能夠在保持較低成本的同時,在關鍵應用場景提供極具競爭力的表現。  

同時,O4-mini 在多個基準測試 (如 MMMU、GPQA、SWE-bench) 上的性能顯著縮小了與旗艦 O3 模型之間的差距 ,而其定價則更接近之前的 mini 系列模型 。這意味著先進的推理能力正以更低的價格點變得觸手可及,有望推動那些以前需要更昂貴模型的任務實現更廣泛的應用。

對於 ChatGPT 付費訂閱用戶,o4-mini 還提供了一個「o4-mini-high」模式 。這並非一個獨立的 API 模型,而是 o4-mini 在 ChatGPT 介面中的一個高推理強度選項,允許模型投入更多計算資源來處理請求,為更複雜的任務提供更強的性能,類似於先前 o3-mini 所擁有的 o3-mini-high 模式 。

API 定價

OpenAI 為其 API 模型提供了分層的定價結構,根據模型的能力進行區分。費用通常按每百萬 token (代幣) 計算,分別針對輸入 ( Input )、輸出 ( Output ) 以及適用的緩存輸入 ( Cached Input ) 收費 。  

以下是 O3、O4-mini 和 O3-mini (作為比較基準) 的詳細 API 定價 (美元/每百萬 tokens):

模型 (版本)輸入 (Input)緩存輸入 (Cached Input)輸出 (Output)
o3 (o3-2025-04-16)$10.00$2.50$40.00
o4-mini (o4-mini-2025-04-16)$1.10$0.275$4.40
o3-mini (o3-mini-2025-01-31)$1.10$0.55$4.40

主要模型 API 定價比較 (美元 / 每百萬 Tokens)

模型 (Model)輸入 (Input)緩存輸入 (Cached Input)輸出 (Output)
o3$10.00$2.50$40.00
o4-mini$1.10$0.275$4.40
o1$15.00 $7.50 $60.00
o3-mini$1.10 $0.55 $4.40
GPT-4o$2.50$1.25$10.00
GPT-4o mini$0.15$0.075$0.60
GPT-4.1$2.00$0.50$8.00
GPT-4.1 mini$0.40$0.10$1.60
GPT-4.1 nano$0.10$0.025$0.40

緩存輸入 ( Cached Input ) 定價適用於那些在 API 調用之間重複使用部分輸入內容的應用場景 (例如,重複的系統提示或上下文資訊)。使用緩存輸入可以顯著降低成本。值得注意的是,O3 和 O4-mini 的緩存輸入價格相較於其標準輸入價格有 75% 的折扣,而 O3-mini 的折扣為50%。對於 O4-mini 而言,其緩存輸入價格($0.275)僅為 O3-mini ($0.55) 的一半 ,這進一步增強了其在涉及重複上下文的應用中的成本效益,表明 OpenAI 可能在積極鼓勵開發者將其用於注重效率的場景。  

此外,對於可以接受非同步處理的任務,使用 OpenAI 的 Batch API 可能會獲得額外的成本節省。官方資料顯示,使用 Batch API 處理 O3 和 O4-mini 任務可節省 50% 的輸入和輸出費用。

將 O3 和 O4-mini 的價格與之前的推理模型進行比較,可以更清晰地看到其市場定位。例如,之前的旗艦推理模型 O1 定價為$15(輸入)/$60(輸出) ,而更強大的 O1-pro 定價高達$150(輸入)/$600(輸出) 。相比之下,O3 的價格 ($10/$40) 低於 O1,而 O4-mini ($1.10/$4.40) 則提供了極具吸引力的成本效益,其輸入/輸出價格與 O3-mini 相同,但緩存輸入價格更低。這種顯著的價格差異清晰地劃分了 O3 和 O4-mini 的目標市場:O3 面向需要頂級性能的用戶,而 O4-mini 則面向追求高性價比和效率的廣大開發者。

技術規格

o4-mini 與 o3 保持一致

  • 上下文窗口 ( Context Window ): 200,000 tokens
  • 最大輸出 Token 數( Max Output Tokens ): 100,000 tokens
  • 知識截止日期( Knowledge Cutoff ): 2024年5月31日

選擇合適的模型

在 O3 和 O4-mini 之間進行選擇,本質上是在最高推理能力(O3)與速度/成本效益(O4-mini)之間做出權衡。

  • 選擇 O3 的場景:當任務需要最高水平的複雜推理、多方面分析、在編碼/科學/視覺方面追求最前沿的性能,且成本是次要考慮因素時,O3 是理想的選擇 。例如,深度科學研究分析、複雜的軟體工程挑戰、高級創意生成等。  
  • 選擇 O4-mini 的場景:當應用需要強大的推理能力 (尤其是在數學和編碼方面),但同時優先考慮速度、低延遲、高吞吐量和顯著降低的成本時,O4-mini 更為合適 。例如,大規模數據分析、應用程序中的實時推理支持、成本敏感的教育工具、數學/編碼輔導機器人等。  
  • O4-mini vs. O3-mini:對於目前使用 O3-mini 的用戶而言,O4-mini 提供了一個極具吸引力的升級路徑。它在多個方面 (尤其是在非 STEM 領域和數據科學方面 ) 提供了相當或更優的性能,擁有特別出色的數學能力 ,並且具有更低的緩存輸入成本 ,適用於大多數追求效率的用例。    

O4-mini 的出現,以其強大的性能 (在某些領域接近甚至超越 O3) 和極低的成本,代表著先進 AI 推理能力向更廣泛用戶普及的重要一步。過去,頂級的推理能力往往伴隨著高昂的價格。O4-mini 以接近先前 mini 系列的價格點提供了高水平的推理能力,降低了開發者和企業實驗和部署推理模型的門檻。這種可及性的提高,有望在教育、小型企業工具以及其他受成本限制的領域激發新的創新應用。

進一步閱讀
  1. OpenAI 推出全新 ChatGPT 模型 o3-mini 與 o3-mini-high,強勢迎戰 DeepSeek

Gemini Deep Research 最佳提示詞指南

Gemini Deep Research 最佳提示詞指南

Gemini Deep Research 是 Google Gemini AI 助理中的一項代理功能,目的是自動化處理複雜的研究任務 。它不僅僅是回答簡單問題,而是能夠模擬研究人員的工作流程:首先將使用者提示詞轉化為個人化的多點研究計畫,接著自主搜尋並深度瀏覽數百個網站以查找相關的最新資訊,然後在其內部推理迴圈中批判性地評估、思考和綜合所收集的資訊,最終生成詳盡、富有洞察力的多頁研究報告,並提供來源引用和音訊摘要 。此功能可以將使用者從耗時數小時、需要開啟大量瀏覽器分頁並自行整合資訊的繁瑣研究工作中解放出來 。

Deep Research 的核心是一個多步驟的代理系統,它結合了 Gemini 模型(如 Gemini 2.5 Pro 或更新版本)的先進推理能力、Google Search 的資訊檢索專長以及網路瀏覽技術 。其運作流程包含:  

  1. 規劃 ( Planning ): 接收使用者提示詞後,系統會制定一個詳細的研究計畫,將複雜問題分解為一系列可管理的子任務 。使用者可以審閱並修改此計畫,確保研究方向正確 。  
  2. 搜尋 ( Searching ): 系統根據計畫,利用搜尋和網路瀏覽工具自主、持續地查找和瀏覽大量(可能超過百個)網路來源,以獲取相關資訊 。  
  3. 推理 ( Reasoning ): 模型在迭代過程中評估收集到的資訊,識別關鍵主題、不一致之處和資訊缺口,並在決定下一步行動前進行思考 。此過程可能涉及多次自我批判以提高清晰度和細節 。  
  4. 報告 ( Reporting ): 最終,系統將綜合分析的結果,以邏輯清晰、資訊豐富的方式組織成一份詳細的多頁報告,通常包含來源引用,並可匯出至 Google 文件。

鑑於 Deep Research 的自主性和複雜性,提示詞 ( prompt )的品質直接影響其研究計畫的制定、資訊搜尋的相關性、分析的深度以及最終報告的效用。一個精心設計的提示詞能夠清晰地傳達研究目標、範圍和期望的輸出,從而引導 AI 代理更有效地執行任務。

基礎提示詞原則

雖然 Gemini Deep Research 是一個專門的研究工具,但其提示詞設計仍然遵循大型語言模型(LLM)提示工程的通用最佳實踐。這些原則對於確保 AI 能夠充分理解你的意圖。

  • A. 清晰明確:避免模糊性
    • 核心要求: 提示詞必須清晰、具體且無歧義 。模糊或過於寬泛的指令會導致 AI 產出不相關或淺層次的結果。  
    • 具體作法:
      • 定義任務: 明確說明希望 AI 執行的具體任務(例如,「分析」、「比較」、「綜合」、「評估」)。  
      • 精確用詞: 使用精確的術語,避免使用可能有多種解釋的詞語 。  
      • 量化要求: 如果可能,量化你的需求(例如,「找出排名前 5 的競爭對手」、「分析過去 3 年的趨勢」)。  
    • 應用於深度研究: 與其說「告訴我關於人工智能的資訊」,不如說「分析人工智能在未來十年對醫療保健產業的潛在影響,重點關注診斷工具和個性化治療」。這種明確性有助於 Deep Research 制定更具針對性的研究計畫。  
  • B. 提供充足的背景資訊
    • 核心要求: 為 AI 提供必要的背景資訊,幫助其理解請求的脈絡和目的 。  
    • 具體作法:
      • 說明目的: 解釋你為什麼需要這項研究或資訊將如何被使用 。例如,「為即將到來的投資者會議準備一份關於 [產業] 市場趨勢的報告」。  
      • 定義範圍: 明確研究的界限,如時間範圍、地理區域、特定產業或主題 。  
      • 目標受眾: 指明報告的讀者是誰(例如,「高階主管」、「技術團隊」、「普通消費者」),這有助於 AI 調整內容的深度和語氣 。  
      • 包含關鍵術語定義: 如果涉及專業術語或縮寫,提供簡要定義 。  
      • 提及專業水平: 告知 AI 你對主題的了解程度(例如,「假設我是該領域的初學者」或「以專家級別進行分析」)有助於 AI 提供適當深度的回應 。  
    • 應用於深度研究: 提供充足的背景資訊,能讓 Deep Research 在規劃階段更好地理解研究的核心問題,篩選更相關的資訊來源,並進行更深入的分析。例如,在請求競爭分析時,提供自己公司的簡介和市場定位,能讓 AI 的分析更具比較價值。
  • C. 結構化提示詞以提高清晰度
    • 核心要求: 將複雜的請求分解為有組織的結構,使 AI 更容易理解和處理 。  
    • 具體作法:
      • 使用分隔符: 使用如 ###""" 等符號將指令、背景資訊和具體問題分開 。  
      • 條列式或編號: 將多個問題或研究面向以條列或編號形式列出 。  
      • 標題/副標題: 對於非常複雜的研究,可以在提示詞內部使用標題來組織不同的部分 。  
      • PTCF 框架: Google 官方推薦使用 Persona(角色)、Task(任務)、Context(背景)、Format(格式)框架來結構化提示詞 。  
    • 應用於深度研究: Deep Research 的第一步是根據提示詞制定研究計畫 。一個結構化的提示詞,例如遵循 PTCF 框架或使用清晰的條列,能讓 AI 在規劃階段更容易解析請求的各個組成部分,減少歧義,從而生成一個邏輯清晰、涵蓋所有必要面向的研究計畫。這反過來又提高了最終報告滿足所有明示和暗示需求的機會。  
  • D. 有效利用自然語言
    • 核心要求: 使用自然、完整的句子進行提問,就像與同事或助理交談一樣 。避免僅使用關鍵字堆砌。  
    • 具體作法:
      • 完整表達: 用完整的句子表達完整的想法 。  
      • 簡潔與細節的平衡: 雖然要使用自然語言,但也要力求簡潔,避免不必要的術語或冗長描述 。在提供足夠細節與保持清晰簡潔之間取得平衡。Google 指出,有效的提示詞平均約 21 個詞,而使用者常嘗試少於 9 個詞 。  
      • 肯定式指令: 專注於告知 AI 應該 做什麼,而不是 不應該 做什麼 。例如,使用「專注於同儕審查的來源」,而不是「不要使用部落格」。  
    • 應用於深度研究: Deep Research 被設計來理解自然語言的目標 。雖然在定義範圍和任務時需要技術上的精確性,但將其框定在清晰的自然語言句子中有助於 AI 理解。關鍵在於找到對話式清晰度與無歧義指令之間的平衡點。

針對深度研究任務的核心策略

為了充分發揮 Gemini Deep Research 在分析、綜合、比較、評估和探索不同觀點方面的能力,需要採用超越基本原則的特定提示詞策略。

  • A. 促使進行分析與綜合的提示詞
    • 分析指令: 要求 Gemini 進行超越資訊總結的分析。使用諸如「分析 X 對 Y 的影響」、「識別 [主題/數據] 中的關鍵主題/模式」、「評估 [概念/產品] 的優缺點」、「確定 [問題] 的根本原因」等提示詞(基於 中描述的能力所構建的概念性範例)。  
    • 綜合指令: 明確要求進行綜合。「綜合近期關於 [主題] 的研究發現」、「提供一份整合了 A、B 和 C 資訊的全面概述」、「為 [產品] 制定一份結合了市場趨勢、競爭分析和客戶回饋的報告」。  
    • 指定分析框架: 如果適用,建議使用特定的分析框架(例如,「進行 SWOT 分析」、「使用波特五力模型分析該產業」)。  
    • 應用考量: Deep Research 的核心優勢在於其處理大量來源的能力 。有效的提示詞應利用這一點,要求執行需要整合多個資訊點的高階任務,如分析和綜合,而不僅僅是檢索事實。  
  • B. 設計用於比較與評估的提示詞
    • 比較指令: 清晰說明要比較的項目以及比較標準。「基於效率、成本和準確性,比較並對比 [方法 A] 和 在 [任務] 上的表現。」「根據功能、性能、價格和客戶評論評估不同型號的 [產品類型]。」「比較 [競爭對手 1] 和 [競爭對手 2] 的市場策略,重點關注目標受眾、定價和分銷管道。」。  
    • 評估指令: 定義何為「好」或「有效」。「引用案例研究證據,評估 [政策/策略] 在實現 [既定目標] 方面的有效性。」「基於市場增長、盈利能力和風險因素,評估 [公司/行業] 的投資潛力。」。  
    • 結構化輸出: 要求以表格形式呈現比較或評估結果可能非常有效 。「創建一個表格,比較放射學領域排名前 3 的 AI 診斷工具……」。  
    • 應用考量: 比較和評估不僅要求 Gemini 收集資訊,還要求其應用標準並根據綜合數據做出判斷。提示詞必須清晰定義比較/評估的主體以及要使用的具體標準。
  • C. 引導探索不同觀點的提示詞
    • 明確指令: 要求模型考慮多種視角。「從 [利害關係人 A]、 和 [利害關係人 C] 的角度分析 [主題]。」「探討支持和反對 [政策/決策] 的論點。」「識別專家們在 [爭議性主題] 上的主要共識點和分歧點。」。  
    • 來源多樣性(間接引導): 雖然直接控制來源有限,但可以透過廣泛設定研究問題或在提示詞中提及需要涵蓋不同觀點,來間接鼓勵視角的多樣性,這可能會影響規劃階段。
    • 處理衝突資訊: 承認可能存在衝突資訊,並要求模型標示出這些區域。「識別並討論文獻中關於 [主題] 的任何衝突性發現或解釋。」。  
    • 應用考量: Deep Research 能夠識別不一致之處 。提示詞可以利用這一點,明確要求探索和報告不同的觀點或衝突數據,將綜合分析推向單一敘事之外的層次。  
  • D. 要求特定資訊類型(事實、趨勢、案例研究)
    • 明確說明: 清晰陳述所需的資訊類型。「識別關於……的關鍵事實數據點。」「分析……的新興趨勢。」「提供說明……的案例研究。」「提取關於……的統計數據。」。  
    • 組合類型: 提示詞可以要求多種類型。「提供一份報告,包含近期統計數據、關鍵趨勢以及 2-3 個關於遠端工作技術採用的說明性案例研究。」。
    • 影響搜尋: 指定資訊類型可以指導規劃和搜尋階段,幫助 Gemini 優先考慮可能包含該類型數據的來源(例如,統計數據庫用於統計數據,新聞文章用於趨勢,學術論文用於案例研究)。
    • 應用考量: 針對特定資訊類型調整提示詞有助於聚焦研究過程,並確保最終報告包含對使用者目的最相關的證據類型。

進階提示詞技術

除了核心策略外,一些進階技術可以進一步優化 Gemini Deep Research 的提示詞,以獲得更精確、深入和可靠的研究結果。

  • A. 思維鏈( Chain-of-Thought, CoT )及相關推理技術
    • 概念: CoT 涉及提示模型「逐步思考」或向其展示推理過程的範例,以提高其在需要邏輯推導或多步驟問題解決的複雜任務上的表現 。  
    • 在 Deep Research 中的應用: 雖然 Deep Research 擁有其內部的推理迴圈 ,但 CoT 原則可以應用於提示詞內部以邏輯地結構化請求,或在後續提示詞中用於分析報告。
      • 結構化複雜提示詞: 在提示詞本身中將主要研究問題分解為邏輯子問題,從而指導預期報告的結構 。範例:「1. 識別 [產品] 的主要競爭對手。2. 分析他們的定價策略。3. 總結他們的關鍵行銷訊息。4. 將這些發現綜合為競爭格局概述。」  
      • 後續分析: 收到報告後,使用 CoT 風格的提示詞要求 Gemini 對發現進行推理:「根據提供的報告,讓我們逐步思考競爭對手 A 的定價策略對我們自己產品發布的影響。」
      • 自我修正/批判提示詞: 透過要求模型批判其自身的發現或考慮替代方案,鼓勵更深入的分析。「批判性地評估報告中為 [發現 X] 提供的證據。是否存在替代解釋?」  
    • 應用考量: 儘管 Deep Research 會執行自己的推理,但在提示詞中明確結構化邏輯步驟或在後續互動中使用 CoT,可以提高請求的清晰度和最終分析或後續互動的深度。這有助於確保複雜查詢的各個方面都得到系統性的處理。
  • B. 設定角色( Persona Setting ):扮演專家角色以進行針對性研究
    • 技術: 指示 AI 扮演特定的角色或身份(例如,「扮演經驗豐富的金融分析師」、「你是一位專攻……的歷史學家」)。  
    • 對 Deep Research 的益處:
      • 量身定制的視角: 透過特定的專業視角聚焦研究和分析,可能(間接地)影響潛在優先考慮的來源類型以及對發現的解釋。
      • 適當的語氣和語言: 確保報告使用適合目標受眾或領域的術語和詳細程度 。  
      • 隱性指導: 角色設定可以隱性地指導 AI 哪些方面最重要(例如,「市場研究員」角色意味著關注趨勢、競爭對手、客戶)。  
    • 範例: 「扮演生物醫學研究員的角色。對用於治療遺傳性血液疾病的 CRISPR 基因編輯技術的最新進展(過去3年)進行深度研究分析。重點關注同儕審查文獻中報導的治療效果、遞送機制和安全性問題。」。  
    • 應用考量: 角色設定為代理程式提供了研究任務的特定背景,可能產生更相關的分析和以更適當風格撰寫的報告,即使核心的 Deep Research 流程保持不變。
  • C. 提供詳細背景和上下文數據
    • 超越基本背景: 對於高度專業化的研究,提供的內容應超越基本範圍。如果可能,包含具體的數據點、理論框架、已知的爭議,甚至關鍵的初步發現摘要 。  
    • 利用文件(間接): 雖然 Deep Research 主要搜尋網路,但您可以將來自文件的資訊整合到提示詞的背景中。例如,「根據我們內部報告 [簡要總結關鍵發現] 中總結的發現,進行深度研究分析,以在近期的市場研究中尋找外部驗證或矛盾之處。」(概念性範例)。在 Workspace 中使用「@」提及檔案的能力 可能最終會更直接地整合,但目前的 Deep Research 側重於網路搜尋。  
    • 應用考量: 豐富的背景資訊使 Deep Research 能夠執行更細緻的分析。透過將研究請求建立在特定的現有知識或數據基礎上,AI 可以生成更有針對性、更有見地的報告,這些報告是在已知資訊的基礎上進行建構,而不僅僅是複製。
  • D. 明確要求引用和來源驗證
    • 重要性: 對於學術和專業可信度不可或缺。Deep Research 被設計為提供引用 。  
    • 提示策略: 不要僅僅假設引用會是完美的。明確要求引用,並在必要時指定所需的格式(儘管格式控制可能有限)。「確保所有事實性聲明和數據點都透過內文引用歸屬於其來源。」「提供所有參考來源的參考文獻列表。」要求 APA 風格。  
    • 驗證指導: 鑑於潛在的不一致性 ,考慮使用指導驗證的提示詞(儘管直接控制有限)。「優先考慮由多個信譽良好來源證實的資訊。」「識別並報告在不同來源中發現的任何衝突資訊。」
    • 應用考量: 雖然 Deep Research 旨在進行引用和驗證,但使用者報告顯示其存在變異性。明確要求嚴格的引用,並指示模型如何報告來源的一致性或分歧(即使只是要求其標註衝突),可以推動更高品質的參考和關於資訊確定性的透明度。使用者仍必須執行最終驗證。要求嚴格的引用和來源處理標準,是確保研究可信度的關鍵步驟,尤其是在處理可能存在爭議或不確定性的資訊時。  
  • E. 指定期望的輸出格式(報告、表格、摘要)
    • 控制輸出結構: 指示 Gemini 最終報告所需的結構和格式 。  
    • 範例: 「生成一份綜合報告,包括執行摘要、方法論部分、關鍵發現(包含 [主題 1]、[主題 2] 的子部分)和結論。」(基於 )。「以表格形式呈現 [X] 和 [Y] 的比較,包含 [標準 1]、[標準 2]、[標準 3] 的欄位。」(基於 )。「以條列式清單提供輸出。」「以 JSON 格式回應。」。  
    • 影響綜合: 指定格式會影響 Gemini 在報告階段如何綜合和組織資訊。要求表格會強制進行結構化比較,而要求執行摘要則需要高層次的綜合。
    • 應用考量: 在提示詞中清晰定義輸出格式,對於確保最終報告不僅資訊豐富,而且對使用者的特定需求(例如,簡報、進一步分析、簡報文件)具有可用性。

有效提示詞範例

以下是針對常見深度研究任務的提示詞範例結構,結合前述原則與策略。

  • A. 範例:設計文獻回顧提示詞
    • 目標: 獲取關於特定主題的近期學術文獻的結構化概述。
    • 關鍵要素:
      • 角色( Persona ): 「扮演 [領域] 的學術研究員。」
      • 任務 ( Task ): 「針對 [特定主題] 進行深度研究文獻回顧。」
      • 背景 ( Context ): 「重點關注過去 [數字] 年(例如3-5年)發表的同儕審查文章。」「識別文獻中的關鍵主題、使用的方法、主要發現以及已報告的研究空白。」
      • 格式 ( Format ): 「報告結構應包含:1. 引言/範圍,2. 關鍵主題/發現(每個主題設子標題),3. 觀察到的方法論途徑,4. 已識別的研究空白/未來方向,5. 結論,6. 參考文獻列表(APA 風格)。」「確保所有主張都有具體來源佐證。」
    • 應用考量: 有效的文獻回顧提示詞應指定主題、時間範圍、來源類型(同儕審查)、期望的分析組成部分(主題、方法、空白)以及清晰的報告結構(包含參考文獻列表)。
  • B. 範例:設計市場分析提示詞
    • 目標: 了解某產品/服務的市場規模、趨勢、客戶群體和機會。
    • 關鍵要素:
      • 角色 ( Persona ): 「扮演專精於 [產業] 領域的資深市場研究分析師。」  
      • 任務 ( Task ): 「針對 [產品/服務] 在 [地理位置/人口統計] 市場進行深度研究市場分析。」
      • 背景 ( Context ): 「重點關注市場規模與增長預測(未來3-5 年)、關鍵客戶群體及其需求/偏好、新興趨勢(技術、消費者行為)、潛在機會以及進入市場的挑戰/壁壘。」「利用來自信譽良好的產業報告、市場研究公司和近期新聞來源的數據。」
      • 格式 ( Format ): 「生成一份報告,包含:1. 執行摘要,2. 市場規模與增長預測,3. 關鍵客戶群體與畫像 ,4. 市場趨勢與驅動因素,5. 機會與挑戰,6. 市場進入/增長策略建議。」「在適當處包含數據視覺化(表格/圖表)。」  
    • 應用考量: 市場分析提示詞應清晰定義產品/服務、目標市場以及具體的分析維度(規模、趨勢、客戶、機會)。要求特定的輸出,如客戶畫像或數據視覺化,能增強報告的實用性。
  • C. 範例:設計競爭分析提示詞
    • 目標: 識別主要競爭對手並分析其策略、優勢和劣勢。
    • 關鍵要素:
      • 角色 ( Persona ): 「扮演專注於 [產業] 行業的競爭情報分析師。」
      • 任務 ( Task ): 「為我方公司 [貴公司/產品] 進入 [市場區隔] 市場進行深度研究競爭分析。」
      • 背景 ( Context ): 「識別排名前 [數字] 的直接和間接競爭對手。針對每個競爭對手,分析其:產品組合、定價策略、目標受眾、關鍵行銷訊息、分銷管道、已報告的市場份額(若有)以及感知的優勢和劣勢。」「重點關注過去2年的資訊。」
      • 格式 ( Format ): 「以報告形式呈現研究結果,包含:1. 競爭格局概述,2. 每個關鍵競爭對手的詳細檔案(使用上述標準),3. 比較分析(可使用表格)突顯關鍵差異與相似之處,4. 識別 [貴公司/產品] 的潛在競爭優勢,5. 策略建議。」  
    • 應用考量: 競爭分析提示詞需要清晰地識別基準(貴公司/產品)以及針對每個競爭對手要分析的具體因素。要求使用比較表格對於此類研究特別有效。
  • D. 提示詞結構與關鍵成功因素分析
    • 共同要素: 這些成功範例中的提示詞通常包含:清晰的任務定義、具體的範圍(主題、時間、地理、產業)、定義的背景/角色、對分析/綜合(而不僅是數據檢索)的要求,以及通常指定的輸出結構。
    • 量身定制: 每個要素內的具體細節(背景、格式、分析維度)都根據研究類型(文獻回顧 vs. 市場分析 vs. 競爭分析)進行了調整。
    • 隱含迭代: 雖然範例展示了初始提示詞,但成功往往依賴於後續對計畫的完善或使用後續提問。
    • 成功關鍵: Deep Research 提示詞的成功取決於能否將複雜的研究需求轉化為一套清晰、結構化的指令,代理系統可以利用這些指令來建立和執行有效的研究計畫。PTCF 框架為此提供了堅實的基礎。

透過迭代與優化提升品質

由於研究任務的複雜性和 AI 回應的可變性,一次性獲得完美結果的情況很少見。迭代測試和逐步優化提示詞是提高 Gemini Deep Research 回應品質與準確性的關鍵環節。

  • A. 迭代式提示詞優化的重要性
    • 核心理念: 提示工程很少是一蹴可幾的過程 。獲得最佳結果通常需要多次測試、評估輸出並調整提示詞 。  
    • 對 Deep Research 的意義: 其自主過程的複雜性意味著初始提示詞可能無法完美捕捉意圖或引導至理想的研究路徑。迭代允許進行路線修正。
    • 優化技巧:
      • 重新措辭: 為同一目標嘗試不同的措辭 。  
      • 改變順序: 修改指令或背景資訊的順序 。  
      • 調整具體性: 使提示詞更詳細或更簡略 。  
      • 增減限制: 修改長度、格式或範圍等限制條件 。  
    • 應用考量: 應將第一個 Deep Research 提示詞視為對話的開端。準備好根據初步計畫或報告來完善請求。  
  • B. 利用 Deep Research 的計畫編輯功能
    • 功能: 在 Deep Research 開始廣泛的網路搜尋之前,它會根據初始提示詞呈現一個研究計畫。使用者可以選擇「編輯計畫」。  
    • 使用方法: 審查建議的步驟。如果某一步驟看似不相關、方向錯誤或有所遺漏,使用自然語言請求更改 。例如:「增加一個專注於監管挑戰的部分。」「優先考慮來自學術期刊的來源。」「移除分析社群媒體情緒的步驟。」  
    • 益處: 這是 Deep Research 特有的一個關鍵的早期控制點 。在耗時的研究開始之前完善計畫,可以顯著提高最終報告的相關性和焦點,相比生成完整報告後再要求重大修改,更能節省時間。  
    • 應用考量: 計畫編輯功能是一個關鍵的差異化因素和重要的優化工具。使用者應始終審查建議的計畫,而不應立即點擊「開始研究」,特別是對於複雜或細微的主題。它允許在主要工作開始之前進行提示詞迭代。
  • C. 透過後續提問完善報告
    • 生成後互動: 報告生成後,使用者可以在聊天視窗中提出後續問題 。  
    • 能力: Gemini 可以根據已進行的研究回答問題,或者返回網路查找新資訊 。使用者可以要求澄清、深入探討特定點,或請求對報告進行補充/修改(例如,「將營隊費用細節添加到我的報告中」)。  
    • 迭代完善: 這允許在初始自動生成後,對報告內容進行迭代完善。
    • 應用考量: 研究過程並非在第一份報告產生後就結束。後續聊天提供了一種基於初步綜合發現進行互動式完善和探索的機制,使過程更具動態性。
  • D. 評估回應品質與準確性
    • 使用者責任: 儘管 Deep Research 功能強大,但最終輸出的準確性和相關性必須由使用者審查 。生成式 AI 仍可能產生錯誤或帶有偏見的資訊 。  
    • 事實核查: 利用提供的引用,透過檢查原始來源來驗證關鍵資訊 。Deep Research 旨在使此過程更容易 。  
    • 評估相關性與完整性: 報告是否完全回應了提示詞?分析是否合理?是否存在明顯的遺漏?
    • 回饋迴圈: 利用此評估來指導未來的提示詞迭代或後續問題。如果來源看似薄弱,未來的提示詞可能會強調來源類型或要求更明確的驗證討論。  
    • 應用考量: 評估是迭代迴圈中的關鍵步驟。Deep Research 提供了輔助評估的工具(引用、推理步驟),但人類判斷仍然不能省略,特別是考慮到報導中提到的來源品質和分析深度的變異性 。

綜合最佳實踐與建議

以下總結了為 Gemini Deep Research 設計高效提示詞的關鍵方法、注意事項與最佳實踐建議。

  • A. 設計有效 Deep Research 提示詞的關鍵要點
    • 框架定位為研究任務: 定義清晰的目標、範圍和期望的報告結構,而不僅是一個簡單的問題。利用 PTCF (角色、任務、背景、格式)框架。
    • 明確性: 提供詳細指令,定義術語,設定界限(時間、地理等),並指定所需的分析類型(比較、綜合、趨勢分析)。
    • 善用計畫編輯階段: 在執行前務必審查並完善建議的研究計畫。這是最有效的控制點。
    • 擁抱迭代: 從清晰的提示詞開始,但準備好根據結果完善計畫、提出後續問題並進行迭代。
    • 引導而非僅提問: 使用進階技術,如角色設定和明確的引用/驗證要求,來引導代理的焦點和標準。
    • 指定輸出格式: 清晰定義最終報告的結構(章節、表格、摘要),以確保可用性。
  • B. 高品質提示詞製作檢查清單
    • [ ] 是否定義了角色 ( Persona )? (例如,「扮演 [角色]」)
    • [ ] 是否清晰陳述了任務 ( Task )? (使用如分析、比較、綜合等行動動詞)
    • [ ] 核心研究問題/目標是否精確?
    • [ ] 是否定義了範圍 ( Scope )? (主題、時間範圍、地理、產業)
    • [ ] 是否提供了充足的背景資訊 ( Context )? (背景、受眾、關鍵術語)
    • [ ] 是否要求了特定的資訊類型? (事實、趨勢、案例研究、分析)
    • [ ] 是否要求了特定的分析? (比較、評估、綜合、SWOT)
    • [ ] 是否指定了輸出格式 ( Format )?(報告結構、表格、摘要、引用風格)
    • [ ] 是否包含了限制條件 ( Constraints )? (長度、排除項、來源偏好)
    • [ ] 指令是否清晰無歧義?
    • [ ] 是否使用了自然語言(完整句子)?
    • [ ] 是否審查了提示詞的簡潔性(避免術語/冗詞贅字)?
  • C. 處理潛在限制的考量
    • 來源品質變異性: Deep Research 可能混合使用來源;報告指出其有時依賴較不嚴謹的網路內容以及學術或產業報告 。緩解策略: 雖然直接控制來源有限,但在背景/任務中提示特定來源類型(例如,「同儕審查」、「產業報告」),批判性地審查提供的引用,並進行手動驗證。  
    • 處理衝突資訊: Gemini 可能會標註衝突,但其解決方式可能較為表面 。緩解策略:提示 Gemini 明確識別並報告衝突發現,而不必強求解決,交由使用者判斷。使用驗證提示詞 要求結構化地報告一致性與衝突。  
    • 深度 vs. 廣度: 部分使用者認為研究範圍廣泛但可能深度不足 。緩解策略: 使用高度具體的提示詞,分解複雜主題,利用計畫編輯功能聚焦研究方向,並針對報告的特定領域提出深入的後續問題。  
    • 潛在偏見/幻覺: 與所有 LLM 一樣,輸出需要批判性審查 。緩解策略: 利用提供的來源進行嚴格的事實核查,意識到網路來源的潛在偏見,並與其他工具或專家知識進行交叉參照。  
    • 成本/可及性: Deep Research 最初與付費層級(Gemini Advanced/Workspace)綁定 ,儘管更廣泛的免費存取(帶有限制)已經推出,但存在使用限制 。緩解策略:注意使用限制。判斷任務的複雜性是否值得使用 Deep Research 而非標準 Gemini 或其他工具 。  
    • 應用考量: Deep Research 是一個強大的工具,但並非完美無缺。有效使用需要理解其局限性,並運用提示策略和批判性評估來降低與來源品質、深度和準確性相關的風險。提示詞本身可以用來設定 AI 應如何處理不確定性和衝突數據的期望。
進一步閱讀
  1. Google Gemini 多模態提示詞指南
  2. Gemini Prompt 專家指南
  3. Gemini Prompt 入門指南

OpenAI 再掀波瀾:GPT-4.1 家族 API 登場

GPT-4.1 家族 API 登場

OpenAI 再度投下震撼彈,於2025年4月14日正式推出新一代 AI 模型家族:GPT-4.1、GPT-4.1 Mini 及 GPT-4.1 Nano。此次發布的關鍵在於這三款模型目前僅透過應用程式介面 ( API ) 提供,明確鎖定開發者社群與企業客戶。

影片來源:OpenAI

OpenAI 宣稱,新模型家族在效能上「全面超越」其先前最先進的 GPT-4o 模型,特別在程式編碼、指令遵循以及長文本理解能力方面取得了重大進展。其中最引人注目的升級是支援高達100萬 token 的上下文處理能力,並將知識庫更新至 2024年6月。

此次發布更突顯了 OpenAI 在激烈市場競爭下的策略轉變:不僅追求頂尖效能,更著重於提升成本效益與降低延遲。為此 OpenAI 宣布將於2025年7月14日停止 GPT-4.5 Preview API 的服務,理由是 GPT-4.1 在許多關鍵功能上提供了更好或相似的效能,且成本與延遲顯著降低。同時舊版的 GPT-4 模型也將於 2025年4月30日從 ChatGPT 介面中移除。這一系列行動發生在與 Google ( Gemini ) 和 Anthropic ( Claude ) 等對手的競爭日益白熱化之際,顯示 OpenAI 正積極鞏固其在 AI 平台市場的領導地位。

更快、更強、更划算

OpenAI 此次並非推出單一模型,而是精心打造了一個包含三種不同規模的 API 專用模型家族,旨在滿足不同開發場景的需求。

  1. GPT-4.1: 作為新的旗艦模型,GPT-4.1 被定位於處理最複雜的任務,提供家族中最高的推理能力與準確性,但相應地,其使用成本也最高。
  2. GPT-4.1 Mini: 此模型在智慧、速度與成本之間取得了優異的平衡。OpenAI 指出,它在許多基準測試中甚至超越了 GPT-4o,同時延遲降低近一半,成本更是減少了83%。對於尋求高效能與經濟性兼具的開發者而言,Mini 版本無疑是個極具吸引力的選擇。
  3. GPT-4.1 Nano: 這是 OpenAI 迄今為止速度最快、成本最低的模型,專為需要極低延遲的應用而設計,例如即時分類或自動完成。儘管體積小巧,Nano 仍具備處理 100 萬 token 上下文的能力,並在 MMLU 等基準測試中取得了超越 GPT-4o Mini 的驚人分數 (80.1%)。

OpenAI 強調 GPT-4.1 家族在「延遲曲線的每個點上都推動了效能的提升」,並以「更低的成本提供卓越的效能」。例如 GPT-4.1 的 API 使用成本比 GPT-4o 降低了26%。這種對成本效益的關注,對於需要管理預算並大規模部署 AI 的企業 API 用戶來說極具幫助。

值得注意的是這些標示為「4.1」的模型目前僅能透過 API 存取,雖然 OpenAI 表示許多在指令遵循、編碼和智能方面的改進已逐步整合到 ChatGPT 使用的最新版 GPT-4o 中,但 GPT-4.1 家族獨特的全部功能,特別是 100 萬 token 的超長上下文處理能力,是專為開發者和企業打造的。

編碼、指令遵循與長文本處理能力躍進

GPT-4.1 家族的推出,不僅是型號的增加,更代表著核心能力的顯著躍升,尤其在以下三個關鍵領域:

編碼能力

OpenAI 明顯將編碼能力的提升作為此次發布的重點。在衡量真實世界軟體工程技能的 SWE-bench Verified 基準測試中,GPT-4.1 取得了54.6%的分數,相較於 GPT-4o 的33.2%和 GPT-4.5 的分數,實現了超過21%的絕對提升。部分資料甚至顯示其得分達到 55%。在衡量跨語言編碼和程式碼變更能力的 Aider polyglot diff 基準測試中,GPT-4.1 的得分更是 GPT-4o 的兩倍以上,甚至比 GPT-4.5 高出8%。

除了亮眼的基準測試數據,更重要的是實際應用中的改進。在前端網頁應用程式生成方面,付費的人類評分員有 80% 的時間更偏好 GPT-4.1 生成的網站。開發者可以期待更可靠的程式碼差異(diff )格式遵循能力,這有助於僅輸出更改的行,從而節省成本和延遲。此外,模型進行多餘編輯的情況也大幅減少(從 GPT-4o 的 9% 降至 2%),並且能更好地探索程式碼庫、完成任務,以及生成可運行並通過測試的程式碼。

指令遵循

讓 AI 精確理解並執行複雜指令一直是個挑戰。GPT-4.1 在這方面也取得了顯著進步。在 Scale AI 的 MultiChallenge 基準測試中,得分達到 38.3%,比 GPT-4o 提高了10.5%。在 IFEval 測試中,得分為87.4%,高於 GPT-4o 的81.0%。OpenAI 內部的困難指令遵循評估也顯示準確率從 29% 躍升至 49%。

這意味著 GPT-4.1 更擅長處理包含多個或複雜請求的提示,能更好地遵循指定的輸出格式、否定性約束(例如「不要做什麼」),並在多輪對話中保持連貫性 。

長文本理解

GPT-4.1 家族最令人矚目的突破之一是其處理上下文長度的能力。所有三款模型(包括 Mini 和 Nano)均支援高達 100 萬 token 的輸入上下文窗口,遠超 GPT-4o 的 128,000 token。

OpenAI 表示新模型經過訓練,能夠可靠地關注整個 100 萬 token 長度內的資訊。多項基準測試證實了這一點:在用於多模態長上下文理解的 Video-MME 基準測試中,GPT-4.1 在長影片、無字幕類別中得分72.0%,比 GPT-4o 提高了 6.7%,創下新的技術水平。在需要模型在長文本中區分多條資訊的 OpenAI-MRCR 評估中,GPT-4.1 在 128K token 長度內優于 GPT-4o,並在100萬 token 時仍保持強勁表現。在衡量多跳長上下文推理能力的 Graphwalks 數據集上,GPT-4.1 準確率達到 61.7%,與專注推理的 o1 模型持平,遠超 GPT-4o 的 42%。這種超長的上下文處理能力為企業應用開啟了新的可能性,例如分析完整的程式碼庫、處理冗長的法律或財務文件、或對長影片進行深入問答 。

此外 GPT-4.1 家族的知識庫也更新至 2024 年 6 月,確保了資訊的時效性。

OpenAI 的策略性佈局

GPT-4.1 的發布伴隨著 OpenAI 對其產品線的重大調整。宣布將於2025 年7月14日停止提供 GPT-4.5 Preview API,並於2025年4月30日將 GPT-4 從 ChatGPT 介面中移除。OpenAI 解釋這樣做是因為 GPT-4.1 在成本和延遲方面更具優勢,同時在許多關鍵能力上達到甚至超越了 GPT-4.5。這一舉措簡化產品組合,將開發者的注意力引導至更具成本效益且功能更強大的 4.1 系列。

在激烈的市場競爭中,GPT-4.1 的表現如何?雖然它相較於 OpenAI 自身的舊模型有顯著提升,但在與頂尖對手的較量中,呈現出複雜的局面:

  1. 編碼能力: 儘管 GPT-4.1 在 SWE-Bench 上的得分(54.6%/55%)大幅領先其前代,但仍落後於 Google 的 Gemini 2.5 Pro (63.8%)和 Anthropic 的 Claude 3.7 Sonnet (62-63%/70%)。部分基準測試甚至顯示其落後於開源模型 DeepSeek V3 。然而,在 Qodo 進行的更貼近實際應用的代碼審查建議測試中,GPT-4.1 的表現優於 Claude 3.7 Sonnet 。
  2. 長上下文: GPT-4.1 提供的 100 萬 token 上下文窗口跟上了 Google Gemini 200萬 token 的腳步。Anthropic 的 Claude 目前提供 200k token 。
  3. 推理與通用能力: GPT-4.1 在 MMLU 基準測試中取得領先 (90.2%),但在針對高難度問題的 GPQA Diamond 測試中落後於 Gemini 2.5。在其他綜合性基準測試如 LiveBench 上,GPT-4.1 表現具有競爭力,但並非在所有方面都領先於 Claude 3.7 Sonnet 或 DeepSeek V3 。
  4. 定價策略: GPT-4.1 家族的定價策略極具競爭力。旗艦 GPT-4.1 的輸入/輸出價格為美元$2/$8(每百萬 token),Mini 為$0.4/$1.6, Nano 則低至$0.1/$0.4。這使得 GPT-4.1 Nano 的價格與 Google 的 Gemini 2.0 Flash 完全相同,而 Mini 和 Standard 版本的價格也普遍低於 Anthropic 的 Claude 3.7 Sonnet($3/$15)和 Google 的 Gemini 2.5 Pro (根據上下文長度,價格為$1.25/$10 或 $2.5/$15)。

此次發布被視為 OpenAI 迭代策略中的一個「增量但重要的增強」步驟,可能是在為未來的 GPT-5 或更先進的推理模型鋪路。其核心目標似乎是在能力、成本和可靠性之間尋求最佳平衡點,以維持市場領導地位並推動更廣泛的採用。

GPT-4.5 的快速棄用,儘管其曾被譽為「最大、最好的聊天模型」,暗示 OpenAI 可能正在優先考慮其主流 API 產品的成本效益和可擴展性。這或許意味著,最耗費資源的架構將被保留給專門的推理模型(如 o1/o3 系列)或未來的重大突破,而非廣泛部署於通用 API 中。

合作夥伴整合

OpenAI 對 GPT-4.1 的發布充滿信心。執行長 Sam Altman 表示:「基準測試很強勁,但我們專注於真實世界的效用,開發者似乎非常滿意」。產品長 Kevin Weil 也強調了新模型在編碼、複雜指令遵循和構建代理方面的卓越能力。

此次發布的一個顯著特點是與主要技術平台的緊密整合:

  • Microsoft Azure: 作為 OpenAI 的主要合作夥伴,微軟同步宣布 GPT-4.1 系列模型已登陸 Azure OpenAI Service 和 Azure AI Foundry 。微軟強調了這些模型對 Azure 開發者的價值,特別是在提升編碼效率、處理長文本和驅動代理工作流程方面。更重要的是,微軟預告將很快透過 Azure AI Foundry 為 GPT-4.1 和 4.1-mini 提供監督式微調( fine-tuning )支持,使企業能根據自身數據進一步客製化模型。
  • GitHub: 同樣隸屬於微軟的 GitHub,也將 GPT-4.1 作為公共預覽版整合進 GitHub Copilot 和 GitHub Models 平台。開發者可以在 VS Code 或 github.com 的 Copilot Chat 中直接選用 GPT-4.1( Preview ),或在 GitHub Models 的 playground 中進行實驗。對於 Copilot 企業版用戶,管理員需要透過新的策略設定來啟用 GPT-4.1 的存取權限。

成本效益

GPT-4.1 家族的推出,特別是其優化的成本結構和增強的功能,為企業採用 AI 提供了新的契機。新模型的定價策略極具吸引力。以下比較 GPT-4.1 家族與其前代及主要競爭對手的關鍵指標(價格單位均為美元/每百萬 token):

模型名稱輸入價格輸出價格快取輸入價格最大上下文窗口最大輸出 Token知識截止日期
GPT-4.1$2.00$8.00$0.501,047,57632,7682024 年 5 月
GPT-4.1 Mini$0.40$1.60$0.101,047,57632,7682024 年 5 月
GPT-4.1 Nano$0.10$0.40$0.0251,047,57632,7682024 年 5 月
GPT-4o$2.50$10.00$1.25128,0004,096~8,1922023 年 10 月
GPT-4.5 Preview$75.00$150.00$37.50~128,000 (?)4,096~8,1922024 年 12 月
Claude 3.7 Sonnet$3.00$15.00N/A200,000128,0002024 年 4 月
Gemini 2.5 Pro$1.25/$2.50¹$10.00/$15.00¹N/A2,000,00065,5362025 年 1 月
Gemini 2.0 Flash$0.10$0.40$0.0251,000,0008,1922024 年 6 月

微調 (Fine-tuning) 成本: OpenAI 也為新的 GPT-4.1 和 4.1-mini 提供了微調選項,其定價相對合理(例如,4.1 Mini 的訓練成本為 $5/百萬 token,使用成本為 $0.8/$0.2/$3.2)。微調允許企業使用自有數據客製化模型,以適應特定的業務術語、語氣和工作流程,從而獲得更高的效能。在 Azure AI Foundry 等平台上提供此功能,進一步降低了企業打造專屬 AI 解決方案的門檻。

來更長遠的價值。

結語

OpenAI GPT-4.1 家族的發布是其鞏固 AI 平台市場主導地位的關鍵一步,特別是在利潤豐厚的開發者和企業市場。透過提供顯著提升的編碼和指令遵循能力、100萬 token 上下文處理能力,以及極具競爭力的分層定價結構,OpenAI 正試圖在性能、功能和成本效益之間建立新的行業標竿。與 Microsoft Azure 和 GitHub 等主要平台的深度整合,以及為企業提供的微調選項,進一步強化了其在企業級應用中的吸引力。儘管在某些基準測試上仍面臨來自 Google 和 Anthropic 的激烈競爭,但 GPT-4.1 的整體改進,特別是對「真實世界效用」的關注,使其成為推動下一波 AI 應用和企業數位轉型的重要力量。

Midjourney V7 持續升級:導入 V6 熱門功能、AI 輔助提示與用戶回饋加速進化

Midjourney V7 持續升級:導入 V6 熱門功能、AI 輔助提示與用戶回饋加速進化

Midjourney 於2025年4月10日宣布為其最新的 V7 模型推出一系列重大更新,不僅將廣受歡迎的 V6 版本功能導入 V7,更優化了核心演算法,並推出創新的提示工具列與用戶回饋機制,顯著加速 V7 邁向成為官方預設模型的進程。

在激烈的生成式 AI 圖像市場競爭中,Midjourney 持續以快速迭代和功能創新引領潮流。此次更新旨在提升用戶體驗、擴展創作可能性,並透過社群力量共同優化模型表現。

V6 強大功能移植 V7:無縫拼貼與圖像混合現已可用

Midjourney 官方表示,兩項在 V6 版本中備受用戶喜愛的功能,現已正式支援 V7 模型:

  1. --tile(無縫拼貼): 用戶現在可以在提示詞後方加入 --tile 指令,利用 V7 更強大的圖像生成能力,創造出可用於紋理、背景或圖案設計的無縫拼接圖像。此功能對於遊戲開發、平面設計及需要重複圖樣的創意工作流程極具價值。(參考資料:Midjourney Tile 文件)
  2. Remix(圖像混合): Remix 功能讓創作者能夠基於現有圖像,透過修改提示詞進行細微或大幅度的調整與再創作,探索更多視覺變體。這為圖像的迭代和風格轉換提供了極大的靈活性。(參考資料:Midjourney Remix 文件)

V7 演算法精進:「增強」按鈕帶來更細膩的品質提升

除了引入新功能,Midjourney 團隊也持續優化 V7 的核心演算法。官方指出,「增強」( enhance )按鈕現在經過改良,能在不大幅改變圖像細節的前提下,提升草稿( draft jobs )圖像的基礎品質。這種效果比「細微變化」( vary subtle )更為細膩,旨在提供直接的品質改善。

全新 V7 提示欄:導入 AI 對話與語音模式,提升創作效率

為了讓提示詞工程( prompt engineering )更加直觀易用,Midjourney 為 V7 推出了全新的提示工具欄。新介面將個人化( Personalization )、草稿模式( Draft Mode )、對話式( LLM )模式和語音模式的開關分開,方便用戶獨立或組合使用:

  • 對話式模式( Conversational Mode ): 點擊新增的「聊天氣泡」圖示,用戶即可啟用由大型語言模型( LLM )驅動的 AI 助手,協助構思、撰寫或迭代提示詞,降低創作門檻。
  • 語音模式( Voice Mode ): 在對話式模式下,點擊麥克風圖示即可啟用語音輸入,讓用戶能以更自然的方式與 AI 互動,發想創意。
Midjourney V7 的更新介面

Midjourney V7 的新操作介面

圖片來源:Midjourney 官方

這些模式與原有的草稿模式可以並存使用,提供了高度彈性的創作流程。

用戶回饋機制登場:加速 V7 模型優化

現在用戶在官方網站上點擊自己生成的 V7 圖像時,可以快速進行評分:喜歡 ( like )、不喜歡( dislike )或中立( neutral )。為了提升效率,用戶甚至可以使用鍵盤上的數字鍵 1、2、3 以及方向鍵快速瀏覽並評分圖像。

Midjourney 呼籲用戶盡可能多地對自己的作品進行評分,這些數據將直接用於未來一至兩週內對 V7 圖像品質的進一步優化。

結語

Midjourney 表示團隊計劃在接下來的一個月左右,每週持續進行類似的更新,目標是將 V7 打磨完善,最終使其成為平台的預設圖像生成模型。此次一系列更新展現了 Midjourney 致力於提升其 AI 圖像生成工具的能力與易用性,並積極結合社群力量共同塑造產品的未來。同時 Midjourney 鼓勵用戶在官方 Discord 的 ideas-and-features 頻道分享想法與建議,並在 v7-showcase 頻道展示使用新功能創作的作品。

進一步閱讀
  1. Midjourney V7 推出全新編輯器與 Weird 參數
  2. Midjourney V7 Alpha 版本震撼發布