
OpenAI 於2025年3月25日宣布在其旗艦產品 ChatGPT 中推出原生圖像生成功能,這項技術由其最新的 GPT-4o 模型提供支持。此舉標誌著 OpenAI 在發展真正多模態 AI 的道路上邁出了重要一步,將文字、圖像以及未來可能出現的其他模態無縫整合。更重要的是,這項功能的推出直接挑戰了 Google 近期在其 Gemini 中整合圖像生成能力的舉措,預示著 AI 領域一場新的激烈競爭正在上演。
GPT-4o 中的 “o” 代表 “omni”(全能),突顯了該模型處理多種數據類型的能力 。這體現了 OpenAI 創建一個能夠理解和生成跨不同模態內容的統一模型的雄心,有望帶來更直觀和強大的 AI 互動體驗。將這項功能原生整合到廣泛使用的 ChatGPT 平台中,可能會使先進的圖像生成能力普及到更廣泛的用戶群體。
這項發布的時間點,緊隨 Google 的 Gemini 更新之後,暗示了這是一場競爭性的回應,也是兩家公司爭奪多模態 AI 領域主導地位的競賽。Google 率先宣布了 Gemini 的圖像生成功能,而 OpenAI 則迅速跟進,在其核心產品中推出了類似但可能更深入整合的功能。這種快速連續的發布表明了兩者之間直接的競爭態勢。此外,OpenAI 強調其圖像生成是「有用的」,而不僅僅是「美麗的」,這表明他們的目標已超越了純粹的藝術或新奇應用,轉向在溝通、商業和教育領域的實際用途。OpenAI 明確提到了資訊圖表、圖表、標誌和社交媒體帖子等用例。這種對實用性的關注表明他們正在瞄準更廣泛的市場,而不僅僅是創意專業人士。
主要功能與特色:不僅僅是美麗的圖片
4o image generation has arrived.
— OpenAI (@OpenAI) March 25, 2025
It's beginning to roll out today in ChatGPT and Sora to all Plus, Pro, Team, and Free users. pic.twitter.com/pFXDzKhh2t
- 照片級真實感與風格:
ChatGPT 4o 能夠創建照片級真實感的輸出,並轉換現有的圖像。這代表了相較於 OpenAI 先前的 DALL-E 3 等模型的一大進步,可能提供更高保真度和更逼真的圖像生成效果。照片級真實感的提升將應用範圍擴展到需要逼真視覺效果的領域,例如產品模型和模擬。此外,該模型展現了「令人驚訝的視覺流暢性」,並且能夠生成連貫且符合上下文的圖像。這表明該模型對視覺概念有更深入的理解,並且能夠在不同的提示和迭代中保持連貫性。對於角色設計或品牌資產創建等需要視覺元素保持一致性的應用來說這種連貫性至為重要。 - 精確的文字渲染:
GPT-4o 在圖像中精確渲染文字方面表現出色。這解決了先前包括 DALL-E 3 在內的 AI 圖像生成器的一個常見弱點,它們經常難以生成清晰或正確的文字。改進的文字渲染為創建帶有嵌入式資訊的視覺效果開闢了新的可能性,例如資訊圖表、海報和社群媒體圖形。 - 多輪生成與上下文理解:
由於是原生整合,ChatGPT 4o 允許通過自然的對話來完善圖像,並基於聊天上下文中的先前圖像和文字進行構建。這種對話式的圖像生成方法相較於獨立的圖像生成工具提供了更直觀和迭代的工作流程。用戶可以通過簡單的提示來微調他們的創作,從而獲得更精確和客製化的結果。 - 細緻的指令遵循:
ChatGPT 4o 能夠細緻地遵循詳細的提示,並且能夠處理比先前系統(5-8 個)更多的物件(10-20 個)。這種增強的理解和執行複雜提示的能力使得創建更複雜和特定的視覺效果成為可能。這對於需要精確構圖和包含多個元素的任務尤其有價值。 - 上下文學習與世界知識:
該模型可以分析和學習用戶上傳的圖像,並將其細節整合到生成過程中 。這允許風格轉換、物件複製以及將現有的視覺效果用作靈感。這項功能增強了模型的通用性,並使使用者能夠創建符合其特定視覺偏好或品牌指南的圖像。此外,原生圖像生成使 GPT-4o 能夠連結其在文字和圖像之間的知識,從而產生一個更智能和更高效的模型 。這種深度整合意味著圖像生成受益於底層語言模型的龐大知識庫,這可以帶來更符合上下文且更準確的圖像生成結果。
改進的文字渲染能力和處理更多物件的能力的結合,顯著提升了 ChatGPT 4o 在商業應用方面的潛力,例如創建行銷材料、簡報和視覺輔助工具。能夠準確地整合文字和複雜的佈局,使得該工具更適用於需要清晰溝通的專業使用場景。此外,通過對話進行迭代完善的方式模仿了一個協作的設計過程,可能使圖像生成對於那些在提示工程方面沒有深厚技術專業知識的用戶來說更易於使用。
發布日期與推廣:逐步向大眾開放
- 發布與初步推廣:
ChatGPT 4o 圖像生成功能的正式發布和初步推廣於 2025 年 3 月 25 日進行。 - 分階段推廣:
推廣將分階段進行,ChatGPT Plus 和 Pro 訂閱用戶將首先獲得存取權,然後是免費用戶。(筆者註:2025年4月1日起已對免費用戶全面開放) - 企業與教育用戶及 API 存取:
企業和教育用戶的存取權將很快提供,而開發人員的 API 存取預計將在未來幾週內推出。這表明 OpenAI 打算將這項技術整合到各種平台和工作流程中,以滿足不同的用戶需求。API 存取將使開發人員能夠構建利用 ChatGPT 4o 圖像生成能力的客製化應用程式。 - 初期推廣期間可能遇到的情況:
在初步推廣期間,部分用戶可能仍然會遇到較舊的 DALL-E 3 模型。這突顯了部署的持續性以及在過渡期間用戶體驗可能存在的不一致性。
競爭分析:提升 AI 圖像生成領域的標準
- 與 DALL-E 3 的比較:
ChatGPT 4o 被定位為相較於先前的 DALL-E 3 系列的重大升級,提供了改進的功能。DALL-E 3 雖然功能強大,但在文字渲染和處理複雜提示方面存在局限性。ChatGPT 4o 旨在克服這些限制,提供更通用且使用者友好的圖像生成體驗。此外,ChatGPT 4o 採用自迴歸系統,這與 DALL-E 使用的擴散模型不同。這種根本性的架構差異有助於提升 ChatGPT 4o 的文字渲染和其他增強功能。轉向自迴歸模型標誌著 OpenAI 在圖像生成方法上的技術演進。使用者也注意到 DALL-E 3(旋轉輪)和 GPT-4o(由上而下、由左而右的平面掃描式)之間圖像載入動畫的差異。這為使用者提供了一個視覺線索來識別正在使用的模型,有助於在推廣期間管理用戶期望。 - 與 Google 的 Gemini 的比較:
OpenAI 的發布緊隨 Google 在其 AI Studio 中為 Gemini 添加原生圖像生成功能之後。這突顯了兩家 AI 巨頭在多模態領域的直接競爭。現在,使用者可以從這兩個領先的 AI 平台獲得引人注目的圖像生成選項。值得注意的是,ChatGPT 4o 在生成公眾人物圖像方面的政策比 DALL-E 更寬鬆,這可能是從 Gemini 早期在偏見問題上的失誤中吸取了教訓。這表明在處理敏感內容生成方面採取了更細緻的方法,可能允許更多具有教育、歷史、諷刺和政治意義的有用應用,同時仍然實施安全措施。 - 與 Midjourney 的比較:
在 Sora 中,OpenAI 引入了一個新的圖像生成部分,類似於 Midjourney 的介面。這表明 OpenAI 有意直接與 Midjourney 等以其藝術能力而聞名的成熟圖像生成平台競爭。這可能會吸引那些偏好專用圖像創建介面的使用者。雖然 Midjourney 通常因其藝術性和逼真的圖像品質而受到讚譽,但 ChatGPT 4o 強調實用性和精確的指令遵循,包括文字渲染。這表明兩個平台各有優勢,並針對不同的目標受眾。使用者可能會選擇最符合其特定需求和創意目標的平台。 - 與 Stable Diffusion 的比較:
Stable Diffusion 是一個開源模型,以其可客製化性而聞名,並且通常能產生美觀的圖像。Stable Diffusion 為具有技術專業知識的使用者提供了更多的控制和彈性。相較之下,ChatGPT 4o 憑藉其易用性和原生整合,可能會吸引更廣泛的尋求更簡化體驗的受眾。值得注意的是,相較於人們對 Stable Diffusion 3 的期望,即使在提示極少的情況下,ChatGPT 4o 在角色、文字和風格的一致性方面也表現得令人印象深刻。這突顯了 OpenAI 整合方法的潛在優勢。對於許多實際應用來說,一致性至關重要。
創新背後的技術:自迴歸的力量
- 從擴散模型轉向自迴歸模型:
與使用擴散模型的 DALL-E 不同,ChatGPT 4o 圖像生成是一個原生嵌入在 ChatGPT 中的自迴歸模型。擴散模型通常通過從雜訊開始並迭代地完善它們來生成圖像,而自迴歸模型則按順序生成內容。這種根本性的架構變化使得新的功能得以實現,尤其是在文字渲染和圖像操作方面。 - 圖像到圖像的轉換:
ChatGPT 4o 可以將圖像作為輸入,並生成相關或修改後的圖像。這允許進行風格轉換、圖像編輯以及創建現有視覺效果的變體等任務。這將創作的可能性擴展到純粹的文字轉圖像生成之外。 - 訓練數據:
OpenAI 使用線上圖像和文字的聯合分佈以及來自 Shutterstock 等合作夥伴的授權數據來訓練 GPT-4o。這種龐大且多樣化的訓練數據集對於模型理解和生成各種視覺效果的能力至關重要。訓練數據的品質和多樣性直接影響模型的性能和潛在的偏見。此外,OpenAI 使用了來自人類回饋的強化學習 (RLHF) 來進一步提升模型的輸出品質。RLHF 涉及使用人類專家的反饋來改進模型的性能並使其更符合人類的偏好。這有助於確保生成的圖像不僅在技術上準確,而且在美學上令人愉悅且相關。
ChatGPT 4o 圖像生成的自迴歸特性,即按順序生成圖像,被認為是提高文字渲染準確性和視覺元素一致性的原因。這種順序生成過程可能使模型能夠更好地保持連貫性和細節,尤其是在涉及文字的複雜構圖中。
安全措施與限制:負責任的創新
- 安全基礎設施與經驗:
ChatGPT 4o 圖像生成受益於 OpenAI 現有的安全基礎設施以及從部署 DALL-E 和 Sora 中吸取的經驗。OpenAI 在降低與圖像生成相關的風險方面擁有豐富的經驗。這表明其對新模型潛在的安全問題採取了積極主動的態度。 - 具體的安全措施:
安全措施包括聊天模型拒絕、提示封鎖以及使用多模態推理模型和 CSAM 分類器進行輸出封鎖。這些分層防禦目的在防止生成有害或不當的內容。OpenAI 正在採取措施確保該技術的負責任使用。此外,OpenAI 致力於解決兒童安全風險,包括對 CSAM 進行嚴格的掃描。這突顯了負責任的 AI 開發的一個關鍵重點領域。已採取強有力的措施來防止該技術被濫用於兒童性剝削。ChatGPT 4o 生成的圖像將包含 C2PA 元數據,以表明其 AI 來源 2。這提高了透明度,並有助於用戶區分 AI 生成的內容和人類創建的內容。這是負責任的 AI 部署的重要一步。 - 已識別的限制:
該模型存在一些限制,包括可能難以處理大量物件(描繪超過 10-20 個概念)、多語文字、始終如一地編輯特定的圖像部分、保持上傳圖像中的人臉一致性以及顯示小尺寸的詳細資訊。這承認該技術仍在不斷發展,並且有需要改進的地方。用戶在使用圖像生成功能時應注意這些限制。此外,圖像生成可能比先前的迭代慢,但 OpenAI 認為品質的提升是值得等待的 。與 DALL-E 3 相比,用戶可能會遇到更長的生成時間。OpenAI 預計將隨著時間的推移提高速度。
結語
ChatGPT 4o 在圖像生成方面提供了顯著的進步,包括改進的照片級真實感、文字渲染、指令遵循以及通過原生整合實現的上下文理解。這項技術在行銷、教育、設計和個人溝通等各個行業都具有變革性的潛力。它也加劇了 AI 領域的競爭。