Google 推出 Gemini 2.5 Pro :號稱「最聰明」 AI 模型

Google發布Gemini 2.5 Pro

Google 今日宣布推出最新的 AI 模型 Gemini 2.5 Pro,這款實驗性模型被公司內部譽為「最聰明」的 AI,並在多項業界標準的基準測試中取得了領先地位。 Gemini 2.5 Pro 的發布,標誌著 Google 在 AI 領域的持續創新和對更高性能模型的追求,處理日益複雜的問題並支援更強大的 AI 應用。

開發者與進階用戶搶先體驗

根據官方資訊, Gemini 2.5 Pro Experimental 於2025年3月25日正式發布。目前,開發者可以透過 Google AI Studio 體驗這款最新的模型。同時,訂閱 Gemini Advanced 的用戶也能在 Gemini 應用程式中選用 Gemini 2.5 Pro 。 Google 計劃在未來幾週內將 Gemini 2.5 Pro 整合到 Vertex AI 平台,進一步擴大其可用性。至於 Gemini 2.5 Pro 的具體定價策略, Google 則承諾將在未來幾週內正式對外公布。

強大的推理能力與多模態處理

Gemini 2.5 Pro 被描述為一款「思考模型」,其核心特性在於能夠在回應之前進行內部推理,從而顯著提升其性能和準確性。這種設計使其在需要複雜推理的基準測試中表現出色,例如在數學和科學領域的 GPQA 和 AIME 2025 測試中均處於領先地位。此外, Gemini 2.5 Pro 在程式碼能力方面也展現出強勁的實力,擅長創建視覺上引人注目的 Web 應用程式和代理程式碼應用程式,並能高效地進行程式碼轉換和編輯。在 SWE-Bench Verified 基準測試中, Gemini 2.5 Pro 在自訂代理設定下取得了63.8%的優異成績。

與先前的 Gemini 模型一樣,2.5 Pro 也具備原生多模態能力,能夠理解和處理來自文本、音訊、圖像、影片甚至整個程式碼儲存庫等多種來源的資訊。值得一提的是, Gemini 2.5 Pro 的上下文視窗初始版本支援100萬個 token , Google 並計劃很快將其擴展至200萬個 token ,這使其能夠處理龐大的資料集和複雜的問題。此外, Gemini 2.5 Pro 的輸出 token 限制也大幅提升至64,000,相較於先前版本的8,192有顯著的提升。

多項指標領先競爭對手

Gemini 2.5 Pro 在多項關鍵基準測試中展現了卓越的性能,直接挑戰了 OpenAI 的 GPT-4.5 和 Anthropic 的 Claude 3 等頂尖模型。以下表格總結了 Gemini 2.5 Pro 在部分基準測試中的表現,並與其他模型進行了比較:

基準測試 (Benchmark)Gemini 2.5 Pro Experimental (03-25)OpenAI o3-mini HighOpenAI GPT-4.5Claude 3.7 Sonnet 64k Extended thinkingGrok 3 Beta Extended thinking
Humanity’s Last Exam (無工具)18.8%14.0%6.4%8.9%
GPQA Diamond (科學,單次嘗試)84.0%79.7%71.4%78.2%80.2%
AIME 2025 (數學,單次嘗試)86.7%86.5%49.5%77.3%
SWE-Bench Verified (代理程式碼)63.8%49.3%38.0%70.3%
MMMU (視覺推理,單次嘗試)81.7%無多模態支援74.4%75.0%76.0%
MRCR (長上下文,1M tokens)83.1%36.3% (128k)48.8% (128k)
Global MMLU (Lite) (多語言效能)89.8%

數據顯示, Gemini 2.5 Pro 在多項關鍵基準測試中均取得了領先地位,尤其是在科學推理(GPQA Diamond)和數學(AIME 2025)方面表現突出。其在Humanity’s Last Exam(一項旨在測試AI模型高階推理能力的基準)中獲得的18.8%的成績,也顯著優於其他競爭模型。此外, Gemini 2.5 Pro 在長上下文理解和處理方面也展現出強大的能力(MRCR)。儘管在某些特定領域,例如代理程式碼(SWE-Bench Verified)方面, Claude 3.7 Sonnet 的表現略勝一籌,但在整體上, Gemini 2.5 Pro 的基準測試結果證明了其作為一款頂尖 AI 模型的實力。值得注意的是, Google 強調其基準測試結果是在沒有使用如多數投票等增加成本的測試時間技術下取得的。

與前代模型的比較

相較於 Google 之前的模型, Gemini 2.5 Pro 在多個方面都展現出顯著的進化。與 Gemini 2.0 Pro 相比, 2.5 Pro 的知識截止日期更新至2025年1月,而 2.0 Pro 的知識則停留在2024年8月。更重要的是, Gemini 2.5 Pro 被明確定位為一款「思考模型」,具備更強大的推理能力,這使其在處理複雜任務時更具優勢。在應用方面, Gemini 2.5 Pro 在創建 Web 應用程式和代理程式碼應用程式方面表現更為出色。

儘管 Gemini 2.5 Pro 的初始上下文視窗為100萬個 token ,略小於 Gemini 2.0 Pro 和 1.5 Pro 的200萬個 token,但其顯著提升的輸出 token 限制(64,000 vs. 8,192)使其在需要生成大量文本的場景中更具優勢。與 Gemini 1.5 Pro 相比, 2.5 Pro 的訓練數據更新至2025年3月,而 1.5 Pro 的數據則停留在2024年8月。此外,在視覺推理基準測試 MMMU 中, Gemini 2.5 Pro 的表現也優於1.5 Pro 。這些改進表明, Google 在不斷迭代 Gemini 系列模型,更側重於提升模型的核心能力,使其能夠更好地理解和解決複雜問題。

開發者與企業的強大助力

Gemini 2.5 Pro 的目標受眾主要包括 AI 開發者和需要處理複雜任務的企業用戶。其強大的編碼能力可以幫助開發者更有效率地生成程式碼、進行除錯,並在開發過程中提供即時協助。對於企業而言, Gemini 2.5 Pro 的多模態處理能力和長上下文視窗使其能夠應用於複雜的資料分析、內容創作和提升對話式AI的品質。例如,該模型可以分析大量的產品照片、總結冗長的會議記錄,並處理複雜的商業文件。此外,其在理解圖像和音訊方面的能力,也為更廣泛的應用場景打開了大門。

Google 優先向開發者和付費的 Gemini Advanced 用戶提供 Gemini 2.5 Pro ,這表明其希望首先獲得這些核心用戶群的回饋,並鼓勵在開發和進階應用場景中的使用。 Gemini 2.5 Pro 的多功能性使其能夠應用於軟體開發、資料分析、內容創作和對話式 AI 等多個領域,顯示其廣泛的潛在市場。

結語

Gemini 2.5 Pro 的推出無疑是 AI 領域的一個重要里程碑。其強大的效能和先進的功能,特別是在推理、編碼和多模態處理方面的卓越表現,有望推動各行各業的創新。開發者和企業可以利用 Gemini 2.5 Pro 打造更智能、更強大的應用程式和服務,從而提升生產力並創造新的價值。隨著 Google 持續投入 AI 研發, Gemini 2.5 Pro 的發布無疑將加劇 AI 領域的競爭,並推動整個行業向前發展。

OpenAI 的 ChatGPT 4o 大幅提升圖像生成能力,加劇與 Google 及其他公司的 AI 競賽

OpenAI 的 ChatGPT 4o 大幅提升圖像生成能力,加劇與 Google 及其他公司的 AI 競賽

OpenAI 於2025年3月25日宣布在其旗艦產品 ChatGPT 中推出原生圖像生成功能,這項技術由其最新的 GPT-4o 模型提供支持。此舉標誌著 OpenAI 在發展真正多模態 AI 的道路上邁出了重要一步,將文字、圖像以及未來可能出現的其他模態無縫整合。更重要的是,這項功能的推出直接挑戰了 Google 近期在其 Gemini 中整合圖像生成能力的舉措,預示著 AI 領域一場新的激烈競爭正在上演。

YouTube thumbnailYouTube icon
影片來源:OpenAI

GPT-4o 中的 “o” 代表 “omni”(全能),突顯了該模型處理多種數據類型的能力 。這體現了 OpenAI 創建一個能夠理解和生成跨不同模態內容的統一模型的雄心,有望帶來更直觀和強大的 AI 互動體驗。將這項功能原生整合到廣泛使用的 ChatGPT 平台中,可能會使先進的圖像生成能力普及到更廣泛的用戶群體。

這項發布的時間點,緊隨 Google 的 Gemini 更新之後,暗示了這是一場競爭性的回應,也是兩家公司爭奪多模態 AI 領域主導地位的競賽。Google 率先宣布了 Gemini 的圖像生成功能,而 OpenAI 則迅速跟進,在其核心產品中推出了類似但可能更深入整合的功能。這種快速連續的發布表明了兩者之間直接的競爭態勢。此外,OpenAI 強調其圖像生成是「有用的」,而不僅僅是「美麗的」,這表明他們的目標已超越了純粹的藝術或新奇應用,轉向在溝通、商業和教育領域的實際用途。OpenAI 明確提到了資訊圖表、圖表、標誌和社交媒體帖子等用例。這種對實用性的關注表明他們正在瞄準更廣泛的市場,而不僅僅是創意專業人士。

主要功能與特色:不僅僅是美麗的圖片

  1. 照片級真實感與風格:
    ChatGPT 4o 能夠創建照片級真實感的輸出,並轉換現有的圖像。這代表了相較於 OpenAI 先前的 DALL-E 3 等模型的一大進步,可能提供更高保真度和更逼真的圖像生成效果。照片級真實感的提升將應用範圍擴展到需要逼真視覺效果的領域,例如產品模型和模擬。此外,該模型展現了「令人驚訝的視覺流暢性」,並且能夠生成連貫且符合上下文的圖像。這表明該模型對視覺概念有更深入的理解,並且能夠在不同的提示和迭代中保持連貫性。對於角色設計或品牌資產創建等需要視覺元素保持一致性的應用來說這種連貫性至為重要。
  2. 精確的文字渲染:
    GPT-4o 在圖像中精確渲染文字方面表現出色。這解決了先前包括 DALL-E 3 在內的 AI 圖像生成器的一個常見弱點,它們經常難以生成清晰或正確的文字。改進的文字渲染為創建帶有嵌入式資訊的視覺效果開闢了新的可能性,例如資訊圖表、海報和社群媒體圖形。
  3. 多輪生成與上下文理解:
    由於是原生整合,ChatGPT 4o 允許通過自然的對話來完善圖像,並基於聊天上下文中的先前圖像和文字進行構建。這種對話式的圖像生成方法相較於獨立的圖像生成工具提供了更直觀和迭代的工作流程。用戶可以通過簡單的提示來微調他們的創作,從而獲得更精確和客製化的結果。
  4. 細緻的指令遵循:
    ChatGPT 4o 能夠細緻地遵循詳細的提示,並且能夠處理比先前系統(5-8 個)更多的物件(10-20 個)。這種增強的理解和執行複雜提示的能力使得創建更複雜和特定的視覺效果成為可能。這對於需要精確構圖和包含多個元素的任務尤其有價值。
  5. 上下文學習與世界知識:
    該模型可以分析和學習用戶上傳的圖像,並將其細節整合到生成過程中 。這允許風格轉換、物件複製以及將現有的視覺效果用作靈感。這項功能增強了模型的通用性,並使使用者能夠創建符合其特定視覺偏好或品牌指南的圖像。此外,原生圖像生成使 GPT-4o 能夠連結其在文字和圖像之間的知識,從而產生一個更智能和更高效的模型 。這種深度整合意味著圖像生成受益於底層語言模型的龐大知識庫,這可以帶來更符合上下文且更準確的圖像生成結果。

改進的文字渲染能力和處理更多物件的能力的結合,顯著提升了 ChatGPT 4o 在商業應用方面的潛力,例如創建行銷材料、簡報和視覺輔助工具。能夠準確地整合文字和複雜的佈局,使得該工具更適用於需要清晰溝通的專業使用場景。此外,通過對話進行迭代完善的方式模仿了一個協作的設計過程,可能使圖像生成對於那些在提示工程方面沒有深厚技術專業知識的用戶來說更易於使用。

發布日期與推廣:逐步向大眾開放

  1. 發布與初步推廣:
    ChatGPT 4o 圖像生成功能的正式發布和初步推廣於 2025 年 3 月 25 日進行。
  2. 分階段推廣:
    推廣將分階段進行,ChatGPT Plus 和 Pro 訂閱用戶將首先獲得存取權,然後是免費用戶。(筆者註:2025年4月1日起已對免費用戶全面開放)
  3. 企業與教育用戶及 API 存取:
    企業和教育用戶的存取權將很快提供,而開發人員的 API 存取預計將在未來幾週內推出。這表明 OpenAI 打算將這項技術整合到各種平台和工作流程中,以滿足不同的用戶需求。API 存取將使開發人員能夠構建利用 ChatGPT 4o 圖像生成能力的客製化應用程式。
  4. 初期推廣期間可能遇到的情況:
    在初步推廣期間,部分用戶可能仍然會遇到較舊的 DALL-E 3 模型。這突顯了部署的持續性以及在過渡期間用戶體驗可能存在的不一致性。

競爭分析:提升 AI 圖像生成領域的標準

  1. 與 DALL-E 3 的比較:
    ChatGPT 4o 被定位為相較於先前的 DALL-E 3 系列的重大升級,提供了改進的功能。DALL-E 3 雖然功能強大,但在文字渲染和處理複雜提示方面存在局限性。ChatGPT 4o 旨在克服這些限制,提供更通用且使用者友好的圖像生成體驗。此外,ChatGPT 4o 採用自迴歸系統,這與 DALL-E 使用的擴散模型不同。這種根本性的架構差異有助於提升 ChatGPT 4o 的文字渲染和其他增強功能。轉向自迴歸模型標誌著 OpenAI 在圖像生成方法上的技術演進。使用者也注意到 DALL-E 3(旋轉輪)和 GPT-4o(由上而下、由左而右的平面掃描式)之間圖像載入動畫的差異。這為使用者提供了一個視覺線索來識別正在使用的模型,有助於在推廣期間管理用戶期望。
  2. 與 Google 的 Gemini 的比較:
    OpenAI 的發布緊隨 Google 在其 AI Studio 中為 Gemini 添加原生圖像生成功能之後。這突顯了兩家 AI 巨頭在多模態領域的直接競爭。現在,使用者可以從這兩個領先的 AI 平台獲得引人注目的圖像生成選項。值得注意的是,ChatGPT 4o 在生成公眾人物圖像方面的政策比 DALL-E 更寬鬆,這可能是從 Gemini 早期在偏見問題上的失誤中吸取了教訓。這表明在處理敏感內容生成方面採取了更細緻的方法,可能允許更多具有教育、歷史、諷刺和政治意義的有用應用,同時仍然實施安全措施。
  3. 與 Midjourney 的比較:
    在 Sora 中,OpenAI 引入了一個新的圖像生成部分,類似於 Midjourney 的介面。這表明 OpenAI 有意直接與 Midjourney 等以其藝術能力而聞名的成熟圖像生成平台競爭。這可能會吸引那些偏好專用圖像創建介面的使用者。雖然 Midjourney 通常因其藝術性和逼真的圖像品質而受到讚譽,但 ChatGPT 4o 強調實用性和精確的指令遵循,包括文字渲染。這表明兩個平台各有優勢,並針對不同的目標受眾。使用者可能會選擇最符合其特定需求和創意目標的平台。
  4. 與 Stable Diffusion 的比較:
    Stable Diffusion 是一個開源模型,以其可客製化性而聞名,並且通常能產生美觀的圖像。Stable Diffusion 為具有技術專業知識的使用者提供了更多的控制和彈性。相較之下,ChatGPT 4o 憑藉其易用性和原生整合,可能會吸引更廣泛的尋求更簡化體驗的受眾。值得注意的是,相較於人們對 Stable Diffusion 3 的期望,即使在提示極少的情況下,ChatGPT 4o 在角色、文字和風格的一致性方面也表現得令人印象深刻。這突顯了 OpenAI 整合方法的潛在優勢。對於許多實際應用來說,一致性至關重要。

創新背後的技術:自迴歸的力量

  1. 從擴散模型轉向自迴歸模型:
    與使用擴散模型的 DALL-E 不同,ChatGPT 4o 圖像生成是一個原生嵌入在 ChatGPT 中的自迴歸模型。擴散模型通常通過從雜訊開始並迭代地完善它們來生成圖像,而自迴歸模型則按順序生成內容。這種根本性的架構變化使得新的功能得以實現,尤其是在文字渲染和圖像操作方面。
  2. 圖像到圖像的轉換:
    ChatGPT 4o 可以將圖像作為輸入,並生成相關或修改後的圖像。這允許進行風格轉換、圖像編輯以及創建現有視覺效果的變體等任務。這將創作的可能性擴展到純粹的文字轉圖像生成之外。
  3. 訓練數據:
    OpenAI 使用線上圖像和文字的聯合分佈以及來自 Shutterstock 等合作夥伴的授權數據來訓練 GPT-4o。這種龐大且多樣化的訓練數據集對於模型理解和生成各種視覺效果的能力至關重要。訓練數據的品質和多樣性直接影響模型的性能和潛在的偏見。此外,OpenAI 使用了來自人類回饋的強化學習 (RLHF) 來進一步提升模型的輸出品質。RLHF 涉及使用人類專家的反饋來改進模型的性能並使其更符合人類的偏好。這有助於確保生成的圖像不僅在技術上準確,而且在美學上令人愉悅且相關。

ChatGPT 4o 圖像生成的自迴歸特性,即按順序生成圖像,被認為是提高文字渲染準確性和視覺元素一致性的原因。這種順序生成過程可能使模型能夠更好地保持連貫性和細節,尤其是在涉及文字的複雜構圖中。

安全措施與限制:負責任的創新

  1. 安全基礎設施與經驗:
    ChatGPT 4o 圖像生成受益於 OpenAI 現有的安全基礎設施以及從部署 DALL-E 和 Sora 中吸取的經驗。OpenAI 在降低與圖像生成相關的風險方面擁有豐富的經驗。這表明其對新模型潛在的安全問題採取了積極主動的態度。
  2. 具體的安全措施:
    安全措施包括聊天模型拒絕、提示封鎖以及使用多模態推理模型和 CSAM 分類器進行輸出封鎖。這些分層防禦目的在防止生成有害或不當的內容。OpenAI 正在採取措施確保該技術的負責任使用。此外,OpenAI 致力於解決兒童安全風險,包括對 CSAM 進行嚴格的掃描。這突顯了負責任的 AI 開發的一個關鍵重點領域。已採取強有力的措施來防止該技術被濫用於兒童性剝削。ChatGPT 4o 生成的圖像將包含 C2PA 元數據,以表明其 AI 來源 2。這提高了透明度,並有助於用戶區分 AI 生成的內容和人類創建的內容。這是負責任的 AI 部署的重要一步。
  3. 已識別的限制:
    該模型存在一些限制,包括可能難以處理大量物件(描繪超過 10-20 個概念)、多語文字、始終如一地編輯特定的圖像部分、保持上傳圖像中的人臉一致性以及顯示小尺寸的詳細資訊。這承認該技術仍在不斷發展,並且有需要改進的地方。用戶在使用圖像生成功能時應注意這些限制。此外,圖像生成可能比先前的迭代慢,但 OpenAI 認為品質的提升是值得等待的 。與 DALL-E 3 相比,用戶可能會遇到更長的生成時間。OpenAI 預計將隨著時間的推移提高速度。

結語

ChatGPT 4o 在圖像生成方面提供了顯著的進步,包括改進的照片級真實感、文字渲染、指令遵循以及通過原生整合實現的上下文理解。這項技術在行銷、教育、設計和個人溝通等各個行業都具有變革性的潛力。它也加劇了 AI 領域的競爭。

AI 搜尋戰局再起,Anthropic 旗下 Claude 加入競爭

AI 搜尋戰局再起,Anthropic 旗下 Claude 加入競爭

人工智能搜尋領域的競爭日益白熱化,最新一位重量級選手是獲得 Amazon 支持的 AI 新創公司 Anthropic,其旗下的 Claude 於2025年3月21日推出了網路搜尋功能。這項關鍵更新使得 Claude 能夠即時存取網路資訊,為使用者提供更具時效性與關聯性的回應。此舉讓 Claude 在功能上與 OpenAI 的 ChatGPT 及 Google 的 AI Overviews 等主要競爭者並駕齊驅,表示使用者在資訊獲取方面可能迎來一場變革。值得關注的是 Claude 的搜尋功能強調提供明確的來源引用,這被視為提升資訊可信度的重要一步,有望增強使用者對 AI 生成內容的信任。在這個由科技巨頭主導的市場中,Claude 的加入能否帶來真正的衝擊,成為業界矚目的焦點。

特色與市場初步反應

Anthropic 宣布,Claude 現已具備網路搜尋能力,能夠針對使用者的提問提供最新的資訊與更相關的回應 . 這項升級顯著提升了 Claude 在處理需要即時資訊任務時的效能,使其能夠根據當前事件與資料提供更精確的答案。更重要的是,當 Claude 在回覆中引用網路資訊時,會直接提供來源連結,方便使用者驗證資訊的真實性。相較於傳統搜尋引擎僅列出網頁連結,Claude 以更貼近自然對話的方式呈現資訊來源,使用者無需自行過濾與整理搜尋結果,大幅提升了資訊獲取的效率與體驗。

市場對 Claude 推出搜尋功能普遍持樂觀態度。有分析指出,Claude 是繼 ChatGPT Search 和 Perplexity 之後,最新加入具備網路搜尋功能的 AI 聊天機器人。值得注意的是,連搜尋引擎巨擘 Google 也在積極探索以 AI 為核心的全新搜尋模式,這顯示 AI 整合搜尋功能已成為科技發展的重要趨勢。Claude 的即時資訊存取能力使其能與 Google AI Overviews、Microsoft Bing with Copilot 和 Perplexity 等競爭者並列,足見市場對其潛力的認可。 Claude 在銷售、金融、研究與消費等領域的應用案例,更突顯了其廣泛的適用性。

儘管市場普遍看好,但也有早期測試者指出,Claude 的搜尋功能在穩定性方面仍有提升空間。這可能意味著該功能仍在持續完善中,Anthropic 需要不斷優化其搜尋引擎的效能與可靠性。

Claude 搜尋功能的運作方式與使用者體驗

使用者需在 Claude 的設定中啟用「網路搜尋」選項,方能使用此功能。啟用後,當使用者提出相關查詢時,Claude 將自動存取網路資訊,以提供更即時且精確的回應。目前,此功能以預覽形式向美國境內的付費用戶開放, Anthropic 計畫未來將其推廣至免費使用者與國際市場。

與傳統搜尋引擎不同,Claude 並非僅提供一連串的網頁連結,而是以更自然、更具對話性的方式呈現資訊,並在答案中直接引用來源。這種設計可簡化資訊獲取流程,讓使用者能更快速地找到所需答案,並對資訊的來源與可靠性更有信心。

Claude 與 ChatGPT 在搜尋功能上的比較

在 AI 搜尋領域,OpenAI 的 ChatGPT 是 Claude 的主要競爭對手之一。ChatGPT 早已具備網路存取功能 , 而 Claude AI 過去在這方面有所欠缺。如今,隨著 Claude 也加入了網路搜尋的行列 , 兩者在基本功能上趨於一致。ChatGPT 更像是一個功能全面的 AI 工具箱,涵蓋圖像生成、語音功能與客製化 GPT 商店等多種應用,適合希望探索 AI 各種可能性的使用者;而 Claude AI 則更專注於處理複雜的文本與程式碼工作,其自然的寫作風格與強大的程式碼處理能力使其成為開發者、作家與分析師的首選。現在兩者都具備網路搜尋功能,未來它們的市場定位可能會出現新的變化。

在資訊引用方面,Claude 強調在回應中提供直接的來源引用,這有助於提升使用者對資訊的信任度 . 目前的研究材料並未明確說明 ChatGPT 的引用方式,這需要進一步的觀察與比較。

從優勢與劣勢來看,Claude 處理上下文與生成更自然、更人性化的內容方面表現更出色,尤其是在需要複雜溝通的場景下;而 ChatGPT 在數學推理與處理大型文件方面則更具優勢。有國外測試結果顯示,ChatGPT 在產生結構化的提示與使用者友善的指南方面更勝一籌,而 Claude AI 在提供更準確的回應與更詳細的解釋方面表現更好。Claude 之前無法存取即時數據 ,,但隨著新功能的推出,這一限制已被克服。另外免費版的 Claude 在某些基準測試中通常優於免費版的 ChatGPT,但 ChatGPT 的付費訂閱在功能上更豐富,例如提供語音聊天、圖像生成與網路瀏覽等功能。

Claude 能否撼動 Google 的搜尋霸主地位?

Google 在網路搜尋市場的領導地位是毋庸置疑的,然而 AI 聊天機器人整合搜尋功能的趨勢正在快速發展,這為像 Claude 這樣的新進入者提供了挑戰現有格局的機會。Anthropic 近期獲得了巨額融資,並且與 Amazon 等科技巨頭建立了合作關係,這為 Claude 的發展提供了強大的資金與技術支持,包括 Perplexity 在內的 AI 搜尋新創公司都在積極尋求融資,顯示這個領域的競爭非常激烈。 Anthropic 為 Claude 增加網路搜尋功能,以及 OpenAI 和 Google 也在積極發展各自的 AI 搜尋技術,都進一步證明了這一點。

Claude 強調在搜尋結果中引用來源,這在提升資訊可信度方面可能優於其他競爭對手。使用者對於 AI 產生內容的準確性與可靠性一直存在疑慮,而 Claude AI 的做法有望建立更高的使用者信任度。然而,目前 Claude 的網路搜尋功能仍處於預覽階段,且僅限於美國的付費用戶使用,這在初期限制了其市場影響力。此外,Google 擁有龐大的使用者基礎與多年累積的成熟搜尋技術,Claude 需要時間與持續的創新才能真正撼動其在搜尋領域的地位。

結語

Claude 開始支援搜尋功能的核心價值在於其結合了強大的語言模型能力與即時資訊存取,並強調資訊來源的透明度 . 這項功能的推出不僅使 Claude 在功能上更加完善,也使其成為 AI 搜尋領域一個不容忽視的新興力量。

ChatGPT 三大個人化功能誰最大?一文讓你快速搞懂自訂指令、記憶功能、GPTs 指令的優先級

ChatGPT「自訂指令」、「記憶功能」與「GPTs 指令」的交互關係與優先級解析

在 ChatGPT 持續升級的過程中,陸續推出「自訂指令」(Custom Instructions)、「記憶功能」(Memory)與「GPTs 指令」(GPTs Instructions)三種特色功能。但你是否清楚這些功能如何相互影響,彼此之間的優先級又是如何運作?我們將深入解析這三者的交互關係,幫助你有效運用 ChatGPT,達到最理想的使用效果。

筆者註:2024年4月11日 OpenAI 針對 Pro 及 Plus 用戶推出”參考儲存記憶”(Persistent Memory)功能,我們也補充了相關的優先順序介紹。

ChatGPT 三大功能介紹

自訂指令(Custom Instructions)

自訂指令能幫助用戶在每次對話中告訴 ChatGPT 自己的偏好,並且固定適用於所有對話。其主要特點為:

  1. 用戶自訂,靜態固定
  2. 適用所有聊天會話
  3. ChatGPT 回應的整體規則

記憶功能(Memory)

記憶功能能夠讓 ChatGPT 記住用戶過去的偏好、習慣或重要資訊,從而提供更個性化的回應。主要特點為:

  1. ChatGPT 主動記錄用戶資訊
  2. 長期持續更新
  3. 跨對話持續作用

GPTs 指令(GPTs Instructions)

GPTs 指令針對特定用途(如專業或主題)而設計的 ChatGPT 版本,其設定可以完全覆蓋一般設定。主要特點為:

  1. 針對特定 GPTs 量身訂製
  2. 優先級最高
  3. 僅作用於該 GPTs 版本

交互關係與優先級分析

清楚理解這三種設定的交互作用,可以確保 ChatGPT 按照預期的方式提供回應。以下按照優先級進行說明:

優先級最高:GPTs 指令

若使用專門的 GPTs,例如特定領域的專業助理版本,其內部設定永遠具有最高的優先權。即便用戶的自訂指令或記憶設定存在衝突,ChatGPT 仍會優先遵從 GPTs 的指令設定。

優先級次高:自訂指令

若使用一般版本的 ChatGPT,則自訂指令會有最高的優先級,影響所有的對話。這種設定屬於固定的全域參數,不會隨著使用而動態變更。

優先級較低:記憶功能

記憶功能雖然有助於個性化互動,但在存在其他明確設定(如 GPTs 指令或自訂指令)時,其影響效果將被限制或覆蓋。

實際案例

舉例來說,當你使用一個名為「數位行銷專業版 ChatGPT」的 GPTs 時,即使你的記憶功能告訴 ChatGPT 你平常偏愛使用幽默風格,但若此 GPT 的指令設定為正式嚴謹,ChatGPT 仍會優先呈現正式的回應風格。

若你只是一般使用 ChatGPT,設定了「自訂指令」偏好專業正式風格,即便記憶功能中發現你平常喜歡幽默的對話,ChatGPT 還是會遵守你的自訂指令。

如何有效運用這三個功能?

  • 對一般使用者:推薦設置自訂指令,確保 ChatGPT 的回應符合你的整體偏好。
  • 追求個性化體驗者:建議同時使用記憶功能,讓 ChatGPT 逐步學習並調整回應的細節。
  • 專業領域用戶:建議使用 GPTs 指令,精準控制 ChatGPT 在特定場景中的回應方式。

結語

理解並妥善設定 ChatGPT 的自訂指令、記憶功能與 GPTs 指令,將能大幅提升使用效率與滿意度。記住這個簡單的優先級順序:GPTs 指令 > 自訂指令 > 記憶功能,將有助於你更有效地掌握並運用這個強大的 AI 工具。

附錄1:專案的自訂指令優先級

由於這個功能屬於 Plus 用戶以上的功能,免費用戶目前還用不到,所以我們獨立來說明其優先級:

在 「專案」(Projects) 中的 「自訂指令」(Custom Instructions) 的優先級,與 一般 ChatGPT 設定(包含「自訂指令」、「記憶功能」和「GPTs 指令」)相比,通常會遵循以下優先級規則:

  • 在「專案」模式下,該專案的 「自訂指令」 會優先於一般的「自訂指令」和「記憶功能」。也就是說:
    • 若你在「專案」中設定了新的「自訂指令」,它將覆蓋你在 ChatGPT 一般對話的自訂指令。
    • 「專案」內部的設定對該專案的所有會話生效,即使你在全局 ChatGPT 設定中有不同的偏好。
    • 「記憶功能」在「專案」內可能會受限制或無法影響回應,因為專案的設定通常是隔離運作的。

附錄2:參考儲存記憶的優先級

這個功能同樣屬於 Plus 用戶以上的功能,免費用戶目前還用不到,所以我們也獨立來說明其優先級:目前依據 OpenAI 官方文件與實測行為,「參考聊天記錄」的優先順序明顯高於「參考儲存的記憶」

參考聊天記錄參考聊天記錄(Conversation Context)

  • 定義:指的是 ChatGPT 在一次或連續對話中,直接引用當前或近期的對話內容作為理解與生成回應的依據。
  • 優先等級較高,屬於「短期記憶」或「上下文推理」能力。
  • 作用時機:即時生效,在當前對話中直接運用,不需啟用記憶功能。
  • 例子:你在一段對話中提到「我最近在寫小說」,後續再提「角色要從哪裡開始冒險好呢?」ChatGPT 會理解你說的是那部小說的角色。

參考儲存的記憶( Persistent Memory )

  • 定義:ChatGPT 長期儲存你過去主動提供或從對話中推論出的資訊,如你的名字、偏好、職業、工作風格。
  • 優先等級較低,屬於「長期記憶」,只有當上下文不足時才會觸發補充。
  • 作用時機:需開啟記憶功能(目前為 opt-in),資訊更新不會即時反映,需經過儲存與整理。
  • 例子:你曾說過你是數位行銷顧問,往後沒特別提時 ChatGPT 仍會知道你在這領域工作。

總結:最終優先級排序

若包含「專案」的自訂指令,優先級將會是:

1️⃣ GPTs 指令(GPTs Instructions)
2️⃣ 專案內的自訂指令(Project-Specific Custom Instructions)
🔽(專案內部設定 > ChatGPT 全局設定)
3️⃣ 一般 ChatGPT 的自訂指令(Global Custom Instructions)
4️⃣ 參考聊天記錄參考聊天記錄(Conversation Context)

5️⃣ 參考儲存的記憶( Persistent Memory )

「專案」中的「自訂指令」優先於一般 ChatGPT 的「自訂指令」和「記憶功能」,但低於 GPTs 指令的優先級。 如果你希望在特定工作流程中強制 ChatGPT 遵守特定指令,使用「專案」內的設定將是最佳方式。

Google 升級 Gemini Deep Research 功能,免費開放試用

Google 升級 Gemini Deep Research 功能,免費開放試用

Google 2025年3月14日宣布為其旗艦 AI 模型 Gemini 帶來重大更新,其中最引人注目的便是其深度研究(Deep Research)功能的升級,並開放給所有使用者免費試用。這項舉措不僅展現了 Google 在人工智能領域的持續投入與創新,更預示著未來資訊檢索與知識探索方式的潛在變革。Gemini 作為 Google 最先進的 AI 模型,自推出以來便備受關注,其不同版本如標準版和進階版(Gemini Advanced)旨在滿足不同使用者的需求。而深度研究功能,作為 Gemini 中一項專為深入資訊收集與整合而設計的特色功能,此次的升級與免費開放,無疑將吸引更廣泛的使用者群體體驗其強大的能力。這項決策的重要性在於它降低了進階 AI 研究能力的門檻,使得更多個人和組織能夠接觸並利用這項技術。同時,這也引發了關於 AI 工具在資訊獲取和知識生產領域將如何發展,以及 Google 如何在競爭激烈的 AI 市場中定位自己的諸多思考。

Gemini Deep Research 功能升級:更強大、更智慧

本次 Gemini 深度研究功能的升級核心在於採用了 Google 最新的 Gemini 2.0 Flash Thinking Experimental 模型。這個新型模型被設計成一個能夠將複雜問題分解為一系列中間步驟的「鏈式思考系統」,從而顯著提升了其推理能力和回應品質。根據 Google 的描述,Gemini 2.0 Flash Thinking Experimental 是一個「增強的推理模型,能夠展示其思考過程,以提高效能和可解釋性」。這項技術的進步直接提升了深度研究在各個階段的表現,包括研究規劃、網路搜尋、資訊推理分析以及報告生成。

具體而言,本次升級在以下幾個方面顯著改善了研究流程:

  1. 規劃與搜尋能力提升: 新模型具備更強的邏輯推理能力,能夠更好地理解使用者提出的研究主題,並制定更有效的研究計畫,將複雜的問題分解為更容易處理的步驟。在實際執行搜尋時,Gemini 能夠更智慧地判斷哪些資訊來源更具相關性和可靠性。
  2. 推理與分析能力強化: 升級後的模型能夠更深入地理解和分析從不同來源收集到的資訊,並有效地整合這些資訊,從而提供更全面的研究結果。這種能力的提升使得 Gemini 不僅僅是簡單地提供資訊,更能理解資訊之間的關聯,並進行更深層次的分析。
  3. 報告品質顯著提高: 深度研究現在能夠生成更高品質、更詳細且更具洞察力的多頁報告。這些報告不僅內容更豐富,結構也更加清晰,有助於使用者快速掌握研究主題的核心內容。
  4. 研究過程透明化: 一項引人注目的新功能是,Gemini 在進行網路瀏覽和資訊搜尋時,會即時展示其思考過程。這種透明化的設計讓使用者能夠了解 AI 是如何一步步完成研究任務的,有助於建立使用者對 AI 研究結果的信任感。
  5. 更長的上下文視窗: 對於 Gemini Advanced 的使用者,Gemini 2.0 Flash Thinking Experimental 模型還提供了高達 100 萬個 tokens 的上下文視窗。這意味著 Gemini 可以處理和分析更大規模的資料集,使得使用者能夠解決更複雜的研究問題。

Google 強調,透過展示 AI 的「思考過程」,旨在提高使用者對 AI 如何得出結論的理解和信任。此外,持續升級底層模型至更先進的版本,例如 Gemini 2.0 Flash Thinking Experimental,表明 Google 致力於提供最前沿的 AI 研究能力,並在快速發展的 AI 領域保持競爭力。

人人皆可體驗:免費試用詳情

Google 此次將升級後的深度研究功能開放給所有 Gemini 使用者免費試用。這項策略旨在讓更多使用者能夠親身體驗進階 AI 研究工具的強大功能,而無需立即訂閱付費版本(根據其他網友的分享,免費試用的使用者每月可以體驗深度研究功能5次)。

與之相對的是,Gemini Advanced 的訂閱使用者將享有更廣泛的深度研究使用權限。這意味著付費用戶可以更頻繁地使用該功能,並可能在處理更複雜或更大規模的研究專案時獲得更高的優先權(每天可以使用深度研究功能20次)。

值得注意的是,本次升級和免費試用在全球範圍內推廣,支援超過 45 種語言 。然而,部分功能可能尚未向 Google Workspace 的商業和教育用戶開放。這可能反映了 Google 在不同使用者群體中推廣新功能時所採取的階段性策略,或者是由於針對企業用戶的產品可能需要考慮不同的技術或政策要求。

Google 提供免費試用的策略,顯然是希望吸引更廣泛的使用者群體,讓他們在沒有經濟負擔的情況下體驗深度研究的價值。然而,「每月幾次」的限制也暗示了 Google 的意圖,即在鼓勵使用者體驗的同時,也希望引導有更高使用需求的使用者訂閱 Gemini Advanced 以獲得更全面的功能。此外,針對不同使用者群體的功能開放情況,也可能預示著 Google 在 AI 功能的商業化和普及方面,會採取更精細化的策略。

整合 Google 生態系統,提升個人化體驗

本次 Gemini 的更新不僅限於深度研究功能的升級,還包括與 Google 生態系統更深度的整合,以及引入全新的個人化功能。Gemini 現在可以連接使用者的 Google 應用程式和服務,例如搜尋、日曆、記事、任務和相片。這項整合由 Gemini 2.0 Flash Thinking Experimental 模型驅動,使得 Gemini 能夠根據使用者在這些應用程式中的活動提供更個人化的回應。

其中一個關鍵的個人化功能是 Gemini 可以根據使用者的搜尋歷史來調整其回應。例如,它可以根據使用者最近的餐飲搜尋記錄推薦餐廳,或根據之前的旅遊目的地提供旅行建議。Google 強調,使用者完全掌控自己的資料隱私,可以隨時斷開搜尋歷史與 Gemini 的連接。

此外,Google 還推出了名為「Gems」的實驗性功能,允許使用者自訂 Gemini,創建針對特定主題的個人化 AI 專家。使用者可以選擇 Google 預設的 Gems,也可以快速創建自己的客製化 Gems,例如翻譯工具、膳食計畫器或數學教練。這項功能也向所有使用者免費開放。

深度整合 Google 生態系統是 Gemini 相較於其他獨立 AI 工具的一個顯著優勢。對於已經廣泛使用 Google 產品的使用者而言,這種整合可以帶來更流暢和直觀的使用體驗。個人化功能的引入則表明 Google 正在努力使 AI 互動更加貼近使用者的個人需求和偏好,從而提高使用者參與度和滿意度。而 Gems 功能的推出,則進一步賦予使用者自訂和擴展 Gemini 功能的能力,使其成為一個更具彈性和適應性的工具。

深入研究能力的實際應用與優勢

升級後的 Gemini 深度研究功能為使用者帶來了諸多實際應用和顯著優勢:

  1. 節省研究時間: 深度研究能夠在短時間內搜尋並整合來自網路的大量資訊,大幅縮短使用者進行研究所需的時間。
  2. 發現更廣泛的資訊來源: 該功能有助於使用者發現他們可能原本不會找到的網路資源。
  3. 更有效地處理複雜的研究任務: 藉助 Gemini 2.0 Flash Thinking Experimental 模型的強大能力,使用者可以更輕鬆地應對複雜的研究課題。
  4. 生成全面的研究報告: 深度研究能夠創建包含豐富細節和深刻見解的多頁研究報告。

這些優勢使得 Gemini 深度研究在不同領域都具有廣泛的應用潛力:

  1. 商業分析: 可用於競爭對手分析、市場趨勢研究、消費者行為洞察等。
  2. 學術研究: 協助學生和研究人員深入理解研究主題,比較不同觀點,並發現相關文獻。
  3. 產品比較: 幫助消費者評估不同產品的特性、性能、價格和使用者評價。
  4. 盡職調查: 用於調查潛在的銷售機會,分析公司的產品、融資歷史、團隊和競爭環境。

此外,Gemini 還支援將研究結果匯出到 Google 文件,方便使用者進行進一步的分析和分享。這種與 Google 生態系統的無縫整合,進一步提升了深度研究的實用價值。

透過提供具體的應用案例,Google 展示了深度研究功能在不同專業和個人情境下的實用價值和多功能性。與 Google 文件和試算表的整合簡化了研究工作流程,使得使用者能夠輕鬆地將 AI 生成的見解納入現有的文件和分析中。

市場競爭

在 AI 研究工具領域,Google 並非唯一的參與者。OpenAI 的 ChatGPT Deep Research 和 Perplexity Deep Research 等工具也提供了類似的深度研究功能 。一些比較指出,不同的工具在成本、準確性和資訊來源品質方面各有優勢。例如,Perplexity 的深度研究在免費版本中即可使用,而 ChatGPT Deep Research 則需要訂閱付費版本。有使用者認為,在學術研究方面,ChatGPT 可能比 Gemini 更能提供學術論文等更專業的資訊來源。

結語

Google 升級 Gemini 深度研究功能並開放免費試用,是一項意義重大的舉措。本次升級不僅提升了深度研究的效能和智能,使其能夠生成更高品質、更具洞察力的報告,更透過 Gemini 2.0 Flash Thinking Experimental 模型實現了研究過程的透明化。免費試用的開放降低了使用者體驗進階 AI 研究能力的門檻,有望吸引更廣泛的使用者群體。此外,Gemini 與 Google 生態系統的深度整合以及個人化功能的引入,進一步提升了使用者體驗和工具的實用價值。