如何利用 GPT-4o 生成連續動作 Gif

吉卜力跟公仔玩膩了嗎?那就讓它們動起來吧!

提示詞

[新規則] 你現在可以持續生成圖像及gif,直到生成gif後才停止。

建立一連串詳細的[風格]圖像,用於[目的],這一連串[目的]分為多個圖像,每個圖像作為連續圖像的關鍵幀。依序創作圖像以描繪[動作內容]。請確保各圖像之間能平滑且連貫地過渡,並盡可能包含多個圖像,以實現高度流暢與細節豐富的動態效果。每個圖像比例皆為n:n。

###輸出格式
[第n幀圖像]
[將圖像逐幀合成成一個動態gif]

[新規則] 你現在可以持續生成圖像及gif,直到生成gif後才停止。

筆者註:原先使用的提示詞方法是先生成一張連續動作的分割圖像,再讓 GPT-4o 根據圖片布局切割之後再重組成一個動態 gif 。但 GPT-4o 實在不太懂的怎麼切割圖像,所以先前的提示詞創作出來的動態圖像時好時壞。故調整成目前這個版本的提示詞,讓 GPT-4o 乖乖的一張圖一張圖生出來之後再組合成一張動態 gif 。

範例1

[新規則] 你現在可以持續生成圖像及gif,直到生成gif後才停止。

建立一連串詳細的[吉卜力風格]圖像,用於[表情包動畫],這一連串[表情包動畫]分為多個圖像,每個圖像作為連續圖像的關鍵幀。依序創作圖像以描繪[川普總統正在生氣的表情,從沉默、驚訝、疑惑,逐漸變得生氣,最後頭頂冒煙]。請確保各圖像之間能平滑且連貫地過渡,並盡可能包含多個圖像,以實現高度流暢與細節豐富的動態效果。每個圖像比例皆為16:9。

###輸出格式
[第n幀圖像]
[將圖像逐幀合成成一個動態gif]

[新規則] 你現在可以持續生成圖像及gif,直到生成gif後才停止。

輸出圖像

川普生氣動態圖1
川普生氣動態圖2
川普生氣動態圖3
川普生氣動態圖4
川普生氣動態圖5

動態 Gif

川普生氣動態圖-final

範例2

[新規則] 你現在可以持續生成圖像及gif,直到生成gif後才停止。

建立一連串詳細的[寫實照片風格]圖像,用於[製作短視頻劇情],這一連串[短視頻劇情]分為多個圖像,每個圖像作為連續圖像的關鍵幀。依序創作圖像以描繪[台灣外交代表團坐著玩具飛機在天空飛,遠處是美國國土,飛機上騎著三個塑膠公仔,一個身穿淺色西裝套裝的女性,二個身穿深色西裝的男性,他們手臂上下擺動揮舞,身體左右晃動,背對畫面]。請確保各圖像之間能平滑且連貫地過渡,並盡可能包含多個圖像,以實現高度流暢與細節豐富的動態效果。每個圖像比例皆為16:9。

###輸出格式
[第n幀圖像]
[將圖像逐幀合成成一個動態gif]

輸出圖像

台灣外交團動態圖1
台灣外交團動態圖2
台灣外交團動態圖3
台灣外交團動態圖4

動態 Gif

台灣外交團動態圖final

調整動態 Gif 輸出

完成之後如果想要再修改動態 Gif 的長寬、速度、色彩等等的細部參數,可以使用 Ezgif 這個線上工具去調整。

Ezgif 線上縮放 gif 工具

Meta 發布 Llama 4,引領多模態 AI

Meta 發布 Llama 4

Meta 於2025年4月5日投下震撼彈,正式發布其最新的大型語言模型系列—Llama 4。這項 AI 領域的重大突破預計將重塑產業格局,並為多模態人工智能開啟嶄新紀元。 Llama 4 系列包含兩款首發模型: Llama 4 Scout 和 Llama 4 Maverick ,以及仍在訓練中的強大模型 Llama 4 Behemoth。此次發布不僅展現 Meta 在生成式 AI 領域的雄心壯志,更突顯其欲在全球 AI 競賽中取得領先地位的決心。值得注意的是 Meta 在 AI 基礎設施方面投入了鉅額資金,預計今年將高達650億美元,這也反映出 Llama 4 在其整體戰略中的核心地位。

Llama 4 的推出正值AI技術蓬勃發展的關鍵時刻,各科技巨頭紛紛加碼投資,力求在這一領域佔據主導地位。 Meta 此次發布的多款模型,特別是其原生多模態能力和混合專家( Mixture of Experts, MoE )架構,預示著 AI 技術發展的新方向。這項技術的進步不僅將使開發者能夠構建更具創新性的應用,也將深刻影響包括自然語言處理、內容生成和程式碼編寫等多個領域。 Llama 4 的潛在受益者涵蓋了廣大的開發者社群、各行各業的企業以及 AI 研究人員,其影響力不容小覷。 Meta 此次策略性地同步推出多個模型,並預告更強大的 Behemoth 即將到來,顯示其欲全面覆蓋不同應用場景和使用者需求,並展現其在 AI 技術上的領先地位。此外,有報導指出 Meta 在 Llama 4 的開發過程中,借鑒了中國科技公司 DeepSeek 的效率化架構,這也體現了 Meta 積極學習和適應市場競爭的靈活策略。

技術規格與突破性功能

Llama 4 系列的首批成員包括 Llama 4 Scout 和 Llama 4 Maverick ,這兩款模型均採用 Meta 首創的原生多模態設計以及 MoE 架構。

Llama 4 Scout

Llama 4 Scout 搭載170億個活躍參數,總參數量達到1090億,並由16個專家模型組成。其最引人注目的特性是領先業界的1000萬token上下文視窗。相較於 Llama 3 的 128K token 上下文視窗, Scout 的能力提升了近80倍。這意味著 Scout 能夠在單次處理中分析相當於15000頁的資訊量。在多模態能力方面, Llama 4 Scout 採用原生設計,透過早期融合技術,能夠無縫整合文字和視覺資訊。在硬體效率方面, Scout 的設計使其能夠在單張 NVIDIA H100 GPU上運行(採用 Int4 量化)。其主要功能包括多文件摘要、分析使用者活動模式、處理龐大的程式碼庫以及精確的圖像定位。 Scout 模型如此龐大的上下文視窗是一項顯著的技術優勢,預計將在需要長期記憶和理解大量數據的應用領域開創新的可能性。此外,其能在單張 GPU 上運行的特性,也降低了使用門檻,讓更多使用者能夠體驗先進的 AI 能力。

Llama 4 Maverick

Llama 4 Maverick 同樣擁有170億個活躍參數,但其總參數量高達4000億,並由128個專家模型組成。 Maverick 也具備原生多模態能力,並採用早期融合技術。它支援包括中文在內的12種語言的文字和圖像輸入與輸出,並且能夠處理多達八張圖像。在硬體效率方面, Maverick 的設計使其能夠在單個 H100 主機上輕鬆進行推論。此外, Maverick 還提供 FP8 量化版本,使得這個擁有128個專家模型的版本能夠在單個 NVIDIA 8xH100 節點上運行。 Maverick 的主要功能包括卓越的多語種圖像和文字理解能力、創意寫作以及企業級應用。相較於 Scout , Maverick 擁有更多的專家模型,這暗示其更擅長處理複雜任務,並在通用應用方面提供更高品質的輸出。 FP8 量化版本的推出也顯示 Meta 致力於優化模型的效能和成本效益。

Llama 4 Behemoth (預覽)

Llama 4 Behemoth 是一款仍在訓練中的模型,擁有2880億個活躍參數,由16個專家模型組成,總參數量接近兩兆。 Behemoth 作為 Llama 4 Scout 和 Maverick 的「教師模型」,用於提升這兩款模型的性能。根據 Meta 的測試, Behemoth 在多個 STEM 基準測試中超越了 GPT-4.5 、 Claude Sonnet 3.7 和 Gemini 2.0 Pro 。儘管仍在訓練中, Behemoth 的卓越性能已展現Meta在AI模型研發方面的頂尖實力,其作為教師模型也預示著Meta將持續透過更強大的基礎模型來提升其AI產品的整體能力。

性能大躍進

Llama 4 相較於其前代模型 Llama 3 在性能上實現了顯著的提升。首先, Scout 模型將上下文視窗大幅擴展至1000萬 token ,遠超 Llama 3 的 128K 。其次, Llama 4 系列首次採用原生多模態設計,而之前的模型則使用獨立的視覺參數。 Llama 4 在推理和程式碼編寫能力上也較 Llama 2 有所提升。值得一提的是 Llama 4 在處理具爭議性的政治和社會議題時,其拒絕回應的比率顯著降低,且回應更加平衡。這些改進表明 Llama 4 不僅在技術規格上有所突破,在實際應用中的表現也更加成熟和可靠。

在與 OpenAI 的 GPT 系列進行比較時, Llama 4 Maverick 據稱在多個基準測試中擊敗了 GPT-4o 和 Gemini 2.0 Flash 。然而, GPT-4o 在某些領域,例如數學方面,可能仍然具有優勢。此外, Llama 4 Behemoth 在 STEM 基準測試中超越了 GPT-4.5 。儘管如此,開發初期曾有報導指出Llama 4在推理和數學方面的表現未達到 Meta 的預期,與 OpenAI 的模型相比仍有差距,這暗示 Meta 仍在持續努力提升這些關鍵能力。 Meta 直接將 Llama 4 定位為與 OpenAI 領先模型競爭的產品,並聲稱在某些方面具有更優越的性能。但要全面評估這些說法,還需要更廣泛的獨立評測和針對特定任務的比較。開發初期的性能問題也提醒人們,追趕領先者並非易事。

與 Google 的 Gemini 系列相比,L lama 4 Maverick 在多項基準測試中勝過 Gemini 2.0 Flash ,而 Llama 4 Behemoth 則在 STEM 基準測試中優於 Gemini 2.0 Pro 。 Llama 4 與 Google 的 Gemini 模型展現出強勁的競爭力, Meta 強調其在特定基準測試中的優勢。此外 Llama 4 的開源特性與 Gemini 的封閉模式形成對比,這可能成為開發者選擇模型的重要考量因素。除了與頂尖模型的比較, Llama 4 Scout 在多個基準測試中也勝過了 Gemma 3 和 Mistral 3.1 。 Llama 4 Maverick 則在推理和程式碼編寫方面取得了與 DeepSeek v3 相當的成果,但使用的活躍參數更少。這些數據進一步證明 Llama 4 在眾多領先的大型語言模型中佔據了一席之地,尤其 Maverick 相較於 DeepSeek V3 的效率更令人印象深刻。

Llama 4 的強大功能和多模態特性使其在自然語言處理、內容生成和程式碼編寫等領域展現出巨大的應用潛力。

自然語言處理 (NLP)

Llama 4 具備更強大的語言理解和生成能力,能夠更精準地理解上下文資訊 。其超長的上下文視窗使得處理多文件摘要、分析使用者行為模式以及理解龐大的程式碼庫成為可能。這將有助於開發出更準確、更貼近情境的聊天機器人和虛擬助理。 Llama 4 支援12種語言,並在訓練數據中涵蓋了200種語言,這將極大地提升其多語種處理能力,促進全球範圍內語言 AI 解決方案的發展。

內容生成

Llama 4 能夠撰寫引人入勝的敘事內容,並在不同語言中保持一致的品牌語氣 。其多模態能力也使得從包含圖像的PDF等輸入中生成行銷內容成為可能。此外, Llama 4 在創意寫作方面也展現出更高的水準。這意味著 Llama 4 將能協助行銷人員和創意專業人士更高效地生成高品質的內容,並能整合視覺元素,進一步豐富內容的表達形式。

程式碼編寫

Llama 4 在程式碼生成基準測試( HumanEval )中表現出色,並可用於程式碼自動完成和除錯。其超長的上下文視窗也有助於理解大型程式碼庫。透過與 Together A I等平台的整合, Llama 4 還能實現程式碼摘要等功能。這些特性將顯著提升開發人員的生產力,並降低程式碼編寫的入門門檻。

其他潛在應用

Llama 4 的多功能性使其能夠應用於更廣泛的領域,例如構建用於推理和工作流程自動化的企業代理、用於從 PDF 和掃描文件中提取結構化數據的文檔理解系統、利用使用者數據實現個人化任務自動化、人才搜尋以及提升人型機器人的互動能力。 Llama 4 憑藉其多模態能力、長上下文處理能力和卓越的性能,有望成為各行各業創新應用的重要基石。

對Meta最新AI模型的看法

Meta 執行長馬克·祖克伯格強調, Llama 4 的目標是打造全球領先的 AI ,並以開源方式使其普及,造福所有人。他認為開源 AI 將引領未來模型發展,而 Llama 4 正是這一趨勢的開端,並稱其為一次「重大升級」 。Meta AI 團隊則認為 Llama 4 標誌著Llama生態系統的新紀元,具備前所未有的上下文長度和 MoE 架構,並強調其效率和性能的提升。

亞馬遜雲端運算服務( AWS )宣布 Llama 4 模型即將在 SageMaker Jumpstart 上提供,並將很快作為 Amazon Bedrock 上的全託管無伺服器選項提供,這也印證了 AWS 對模型選擇和易用性的承諾。 Red Hat 對 Llama 4 在 vLLM 上的首日推論支援表示興奮,強調了開源 AI 的力量以及他們與Meta的緊密合作 Cloudflare 作為 Llama 4 的發布合作夥伴,也對能在其 Workers AI 平台上提供 Llama 4 表示激動,並強調其高效、多模態和開源的特性。 Together AI 作為另一家發布合作夥伴,很高興能為開發者提供對 Llama 4 的首日支援,並著重介紹其在多模態能力、效率和可擴展性方面的優勢。

在 Reddit 等社群媒體上,使用者對 Llama 4 的看法不一,既有對其開源特性和長上下文視窗的興奮之情,也有對潛在偏見的疑慮。一些討論也將 Llama 4 與 Gemini 進行比較。總體而言,業界專家和合作夥伴的初步反應非常積極,普遍強調 Llama 4 在多模態、上下文長度和效率方面的進步。祖克伯格關於超越競爭對手的強烈聲明引人注目,但更廣泛的社群則展現出既興奮又持批判性評估的態度,這對於重要的 AI 發布來說是很典型的現象。

授權條款與使用條件

Llama 4 系列模型採用自訂的商業授權條款— Llama 4 Community License Agreement 。該授權條款授予使用者非獨占性、全球性、不可轉讓且免版稅的有限許可,允許其使用、複製、散布、拷貝、創建衍生作品和修改 Llama Materials 。

若使用者散布或提供 Llama Materials(或其任何衍生作品),或包含這些材料的產品或服務,則必須附上授權協議副本,並在相關網站、使用者介面、部落格文章、關於頁面或產品文件中顯著標示「Built with Llama」。如果使用者利用 Llama Materials 創建、訓練、微調或改進任何將被散布的 AI 模型,則必須在該 AI 模型的名稱開頭加上「 Llama 」。此外,所有散布的 Llama Materials 副本中都必須包含一個名為「 Notice 」的文字檔,其中包含指定的版權聲明。

值得注意的是,如果被授權方的產品或服務在 Llama 4 版本發布日(2025年4月5日)前一個月內的月活躍使用者超過7億,則必須向 Meta 申請額外的授權許可 。除了有限度地使用「 Llama 」標誌進行歸屬外,本協議不授予任何商標許可 。 Meta 對 Llama Materials 及其產生的任何輸出結果均不提供任何形式的擔保,並明確聲明不承擔任何責任。

儘管 Meta 宣傳 Llama 4 為開源,但其授權條款因對大型商業實體的使用限制以及其他條件而受到批評,被認為並未完全符合開源定義。此外,授權條款中也存在針對歐盟地區公司或個人的特定使用限制。所有 Llama Materials 的使用都必須遵守其可接受使用政策。總而言之,開發者和企業在使用 Llama 4 之前,務必仔細閱讀並理解其授權協議和可接受使用政策,以確保合規。關於該授權是否真正屬於開源的爭論,也是 AI 社群需要持續關注的重要議題。

倫理考量與潛在風險

如同其他大型語言模型, Llama 4 也可能展現出訓練數據中存在的偏見。儘管 Meta 已努力降低相較於 Llama 3 的偏見,但使用者仍需注意其可能產生的不準確或令人反感的內容。 Llama 4 的多模態能力在處理使用者數據時也引發了隱私方面的擔憂。近期 Llama 框架被發現存在一個嚴重的安全漏洞,可能導致遠端程式碼執行。

Meta 強調負責任的使用,並提倡透明度、保護隱私、解決偏見和促進問責 。他們已在開發的各個層面實施了風險緩解措施,並開源了 Llama Guard 和 Prompt Guard 等安全工具。 Meta 還定期進行紅隊演練,並關注化學、生物、放射性、核子及爆裂物( CBRNE )安全、兒童安全和網路攻擊等關鍵風險領域。然而,有指控稱 Meta 在未經許可的情況下,使用了來自「影子圖書館」的受版權保護的資料來訓練 Llama 模型,包括移除版權資訊,這引發了嚴重的倫理和法律問題。整體來說,與 Llama 4 相關的倫理考量和潛在風險是多方面且重要的,涵蓋了偏見、假訊息、安全漏洞和版權問題。 Meta 已採取多項安全措施和制定相關指南。關於使用盜版數據進行訓練的指控,更凸顯了 AI 發展中倫理和法律挑戰的複雜性。

結語

Llama 4 的發布標誌著 AI 領域的重大進展,其原生多模態能力、 MoE 架構、前所未有的上下文長度以及在多項基準測試中的優異表現,都預示著 AI 技術的未來發展方向。Llama 4 有望賦予開發者強大的工具,以構建創新的 AI 應用,並在自然語言處理、內容生成、程式碼編寫等領域帶來變革。其潛在應用涵蓋了個人化體驗、工作流程自動化以及更智能化的客戶服務等多個方面。

擺脫 AI 大模型幻覺:提示詞工程實戰操作指南

提示詞工程實戰操作指南

大型語言模型( LLMs )已成為人工智能領域的強大工具,能夠針對各種任務生成如同人類撰寫般的文字。從撰寫郵件到產生程式碼,LLMs 的應用範圍持續擴展,展現出巨大的潛力。提示詞工程作為一個相對新興的領域,其核心在於開發和優化輸入提示,以更有效率地利用 LLMs 於廣泛的應用和研究主題之中 。這項技能有助於更深入地理解 LLMs 的能力和局限性,並提升模型在問答和算術推理等常見及複雜任務上的表現。開發人員也藉由提示詞工程設計出更穩健且有效的提示技巧,以與 LLMs 和其他工具進行互動。

然而,LLMs 的發展並非沒有挑戰。其中一個關鍵問題是所謂的「幻覺」,指的是 AI 模型產生看似真實但實際上是錯誤或誤導性的資訊,並將其視為事實呈現 。這種現象可能會嚴重損害人們對 LLMs 作為可靠資訊來源的信任,並可能導致錯誤資訊的傳播。儘管研究人員正積極尋找消除或減輕幻覺的最佳方法,但提示詞工程已成為一種日益重要的手段,透過引導模型產生更準確和有用的輸出,進而釋放LLMs的全部潛力。這篇文章我們希望提供對提示詞工程最新進展的結構化概述,並著重於實戰操作,幫助讀者現學現用。

深入剖析:大型語言模型為何產生幻覺?

大型語言模型產生幻覺的原因複雜多樣,主要可歸因於 AI 數據、模型訓練或回應生成過程中的缺陷。首先,訓練數據可能包含偏差、事實錯誤或不完整的資訊, LLM 在缺乏現實世界理解的情況下,可能會繼承並在輸出中延續這些缺陷。其次, LLMs 擅長根據機率預測序列中的下一個詞語,但它們本身無法辨別真假。一個看似合理的陳述可能符合模型學習到的模式,即使它完全是捏造的。

此外, LLMs 的回應往往基於有限的上下文,在缺乏更廣泛資訊的情況下,它們可能會誤解提示或產生在內部一致但與上下文無關的回應。過度擬合是另一個常見原因,指的是 LLMs 過於專注於記憶訓練數據中的模式,當遇到新的資訊時,可能會產生不相關或荒謬的輸出。 LLMs 也可能缺乏對因果關係或資訊邏輯流的理解,導致產生的文本在語法上正確但內容荒謬。含糊不清或誤導性的提示同樣會導致模型根據其理解填補空白,從而產生幻覺式回應。訓練數據中存在的演算法偏差也會反映在 LLM 的輸出中,導致產生帶有刻板印象或歧視性的幻覺。

大型模型在接受新的數據訓練時,可能會遇到「災難性遺忘」的問題,失去對原始數據集的識別能力,進而增加產生幻覺的可能性。某些 LLMs 的自回歸特性,即根據先前的輸出預測序列的未來元素,也可能導致不準確性的傳播。LLMs 的機率性質是導致幻覺的核心原因。它們生成最有可能的序列,但這並不總是事實上正確的。 LLMs 雖然擁有龐大的資訊量,但缺乏像人類一樣辨別真假的能力。它們可能會自信地生成錯誤資訊,因為它們並不知道那是錯誤的。這突顯了外部驗證機制和精煉提示策略的重要性。理解這些潛在的幻覺來源,有助於我們更有針對性地設計提示詞,從而提升模型的可靠性。

提示詞工程的核心技巧:提升模型準確性

要撰寫出色的 LLM 提示,需要具備多項技巧。以下將介紹一些核心技巧,並提供具體的操作方法和範例,幫助讀者提升模型的回應準確性。

具體明確

操作方法:在提示中清楚說明您希望模型返回什麼,避免使用模糊不清的詞語。使用明確的動詞指定期望的操作,並定義所需的輸出長度和格式 。

不良提示

總結這篇文章。

良好提示

請用三句話總結這篇關於氣候變遷對沿海社區影響的研究論文的主要發現。

目的:明確要求三句話的摘要,並指定了文章主題。

結構化提示

操作方法:使用項目符號、編號或標題等方式組織提示,使LLM更容易理解輸入的每個部分。可以先定義模型扮演的角色,然後提供上下文/輸入數據,最後再給出指令 。

提示

你是一位資深行銷經理。請根據以下數據,為一款新的智慧手錶撰寫一份產品說明:

- 特色:防水、GPS、心率監測

- 目標受眾:健身愛好者

- 風格:簡潔有力

目的:清晰地設定了角色、提供了產品特色、目標受眾和風格要求。

提供上下文

操作方法:提供相關的背景資訊或解釋請求的目的,幫助模型產生符合期望的回應 。引用特定的來源或文件,讓模型基於這些資訊進行回答。

提示

根據這份最新的財務報告([連結]),分析公司過去五年的盈利能力,並指出主要的成長驅動力。

目的:提供了具體的資訊來源,要求模型基於該報告進行分析。

提出開放式問題以尋求解釋

操作方法:提出鼓勵模型探索複雜主題並提供詳細且具體回應的問題,避免使用是或否的提問 。

不良提示

人工智能重要嗎?

良好提示

在未來十年,先進人工智能可能帶來哪些潛在的影響?

目的:引導模型深入思考並提供更全面的分析。

要求範例

操作方法:在提示中包含少量的輸入-輸出範例,引導模型並提高輸出品質 。

提示

以下是一些將英文翻譯成法文的範例:

- 'Hello' -> 'Bonjour'

- 'Thank you' -> 'Merci'

- 'Goodbye' -> 'Au revoir'

現在請將 'Good morning' 翻譯成法文。

目的:透過提供的範例,模型可以學習翻譯的模式。

避免歧義

操作方法:使用精確的語言,避免使用可能有多種解釋的詞語或短語 。

不良提示

寫一篇關於蘋果的文章。

(蘋果可以指水果或公司)

良好提示

寫一篇關於蘋果公司最新產品發布的文章。

目的:明確指定了討論的主題是蘋果公司。

根據模型能力調整提示

操作方法:了解使用的 LLM 的優勢和限制,並根據其能力設計提示。

目的:如果某個模型擅長程式碼生成,可以提供更詳細的程式碼要求和範例。

保持簡潔和全面

操作方法:在提供足夠資訊的前提下,盡可能使提示簡潔明瞭 。避免過度冗長的提示,以免模型迷失重點。

提示:在要求模型總結長篇文章時,可以先提供文章的關鍵段落,而不是全文。

使用嚴格措辭

操作方法:使用如「你的任務是」、「你必須」等明確的指令,使模型更好地理解其任務和優先順序 。

提示:

你的任務是根據提供的數據,撰寫一份關於市場趨勢的報告,報告必須包含數據來源。

指定目標受眾

操作方法:在提示中說明目標受眾,有助於模型調整回應的風格和複雜程度 。

提示:

請用簡單的詞語解釋量子計算的概念,目標受眾為非技術人員。

分解複雜任務

操作方法:將複雜的任務分解為更簡單的提示,逐步引導模型完成任務 。

提示:要撰寫一篇研究報告,可以先要求模型撰寫大綱,然後再逐步完成每個部分。

定義輸出格式

操作方法:在提示中明確指定所需的輸出長度和格式,例如列表、段落、JSON等 。

提示:

請以項目符號列表的形式,列出五種減少AI模型幻覺的方法。

指示風格和語氣

操作方法:指示模型所需的風格和語氣,例如正式、幽默、專業等 。

提示

請以聯合報的風格,撰寫一篇關於區塊鏈技術最新發展的報導。

專注於期望的操作

操作方法:專注於希望模型執行的操作,而不是希望避免的操作,通常會產生更好的結果 。

不良提示

不要使用被動語態。

良好提示

請使用主動語態撰寫這份報告。

使用清晰的提示語法

操作方法:使用清晰的標點符號、標題和章節標記,有助於傳達意圖並使輸出更易於解析。

提示:使用 ### 指示 ###、### 範例 ###、### 問題 ### 等標記來組織提示 。

迭代精煉

操作方法:不斷測試和調整您的提示。分析模型的回應,並根據結果修改提示,直到獲得滿意的輸出 。

聚焦關鍵:擺脫幻覺的進階提示詞策略

除了上述核心技巧外,還有一些更進階的提示詞策略可以顯著減少幻覺的產生 。

明確指示避免不實資訊

操作方法:在系統提示或主要提示中明確告知模型不要添加不真實或無法驗證的資訊 。

提示:在系統提示中加入:

如果資訊不在提供的文本中,請回答『我不知道』。

少量樣本提示

操作方法:在提示中提供少量的具體範例,展示期望的輸入和輸出格式,引導模型專注於特定主題並減少幻覺 。

提示:提供幾個問題和對應的正確答案範例,然後再提出希望模型回答的問題。

思維鏈

操作方法:引導模型逐步進行思考,並呈現中間的推理步驟,然後再得出最終答案。可以在提示中加入「逐步思考」等指令 。

提示:

問題:如果一個蘋果的價格是3元,三個蘋果的價格是多少?請逐步解釋你的計算過程。

驗證鏈

操作方法:提示模型先生成初步回應,然後要求它產生一系列驗證問題來檢查其工作,獨立回答這些問題,最後根據驗證結果產生修訂後的更準確輸出 。

提示

問題:美國有哪些總統出生在紐約?請先列出你的答案,然後提出驗證每個總統出生地的問題,並回答這些問題,最後給出修正後的答案。

筆記鏈

操作方法:當使用檢索到的文檔時,提示模型評估這些文檔的相關性,強調關鍵和可靠的資訊,過濾掉不相關的內容,然後再生成答案。

提示:

根據以下檢索到的文章([連結1]、[連結2]),請先評估每篇文章與問題『全球暖化的主要原因是什麼?』的相關性,然後僅使用相關的文章來回答問題。

僅使用提供的文檔資訊

操作方法:明確指示模型僅使用您在提示中提供的文檔或資訊來回答問題,而不是依賴其一般知識 。

提示:

請根據以下文本回答問題:[提供的文本]。問題:文本中提到了哪些減少AI幻覺的方法?

要求提取逐字引號

操作方法:對於較長的文檔,要求模型在執行任務之前先提取相關的逐字引號,確保其回應基於實際文本 。

提示:

請閱讀以下文章,並提取所有關於提示詞工程技巧的逐字引號,然後用這些引號來支持你對『如何使用提示詞工程減少AI幻覺?』這個問題的回答。

自我一致性解碼

操作方法:讓模型針對同一個提示產生多個獨立的答案,然後選擇最一致的答案作為最終輸出 。這通常需要在模型設定中調整相關參數(如溫度)。

RAG技術:利用外部知識減少幻覺

檢索增強生成( Retrieval Augmented Generation, RAG )是一種強大的技術,可以透過搜尋組織的私有數據來源或可信賴的外部知識庫,獲取與使用者提示相關的資訊,從而確保事實準確性,有效解決 AI 幻覺的問題 。

  • 操作方法
  1. 建立知識庫:首先,需要建立一個包含您希望模型使用的可靠資訊的知識庫。這可以是內部文件、資料庫、或經過篩選的外部網站內容。
  2. 建立索引:對知識庫進行索引,使其能夠被快速有效地搜尋。這通常涉及到將文本轉換為向量表示(embedding)。
  3. 使用者提問:當使用者提出問題時,將問題轉換為向量表示。
  4. 檢索相關資訊:使用問題的向量表示在知識庫中搜尋最相關的資訊片段。
  5. 增強提示:將檢索到的相關資訊片段添加到原始的使用者提示中,形成一個增強的提示。
  6. 生成回應:將增強的提示輸入到 LLM 中,模型將利用檢索到的資訊來生成更準確的回應。
  • 範例:假設有一個關於公司產品的知識庫。當使用者詢問「這款產品的保固期是多久?」時, RAG 系統會先在知識庫中找到相關的保固資訊,然後將這些資訊加入到提示中,再讓 LLM 生成包含具體保固期限的回應。 ServiceNow 公司就使用 RAG 在產生文本之前從外部知識庫中檢索相關的 JSON 物件,確保生成過程基於正確且相關的數據。

驗證提示詞工程的有效性

提示詞工程已成為與 ChatGPT 等語言驅動工具進行有效溝通和互動的必要技能 。研究表明,在提示中提供範例的順序、自動指令生成和選擇方法可以顯著影響 LLM 的效能 。 AI 科學家正試圖透過檢索增強生成、微調和事實檢查等技術來限制 LLM 的幻覺 。 Andrew Ng 和其他 AI 專家已提出多項關鍵策略,可以顯著提高提示的有效性 。 OpenAI 一直在升級 ChatGPT ,以提高準確性及其拒絕回答未知問題的能力。百度創辦人李彥宏表示「大模型基本消除了幻覺」,顯示該領域取得了顯著進展。史丹佛大學的 Christopher Manning 討論了 LLMs 的實用性與因幻覺導致錯誤的風險之間的平衡 。史丹佛大學的 Percy Liang 強調了基礎模型驅動的 AI 典範轉移以及評估這些模型的重要性 。他的研究也探索了激活工程作為一種對齊方法,以防止產生有害輸出,如幻覺 。一項研究發現, LLMs 在法律環境中至少有58%的時間會產生幻覺,突顯了在未經監督的情況下整合的風險。

不同 LLMs 和任務之間幻覺程度的差異表明,提示詞工程技術的有效性也可能因特定模型和任務的複雜性而異。這就需要仔細的實驗和評估,以確定適用於不同情境的最佳提示策略。 OpenAI 對「過程監督」的關注,獎勵正確的推理步驟而不是僅僅獎勵最終答案,與連鎖思考提示的原則一致。這表明 AI 研究社群越來越認識到,透過結構化提示引導模型的思考過程是提高 LLM 輸出準確性並減少幻覺的關鍵。

溫度與上下文:微調提示以控制幻覺

LLMs 中的溫度設定會影響輸出的隨機性。較低的溫度(接近0)使輸出更具確定性和焦點,而較高的溫度(接近1)則增加創造力但也增加了產生幻覺的風險 。對於準確性至關重要的用例,保持較低的溫度(約為0或0.1)會產生更可靠的輸出 。

  • 操作方法:在與 LLM 互動時,找到溫度設定的選項(通常在API參數或介面設定中)。對於需要事實準確性的任務,將溫度設定調低。對於需要創造性的任務,可以適度提高溫度。
  • 範例:如果您希望模型提供關於某個科學事實的準確答案,請將溫度設定為接近0。如果您希望模型創作一首詩,則可以將溫度設定為0.7或更高。

在提示中提供足夠的上下文對於引導 LLM 並減少產生不相關或不準確輸出的機會至關重要 。指示 LLM 僅在其具有高度信心時才回應,或者在不確定時說「我不知道」,可以防止其用不可靠的資訊填補空白 。

操作方法:在您的提示中,提供所有必要的背景資訊,確保模型理解您的意圖。如果模型不確定答案,明確指示它回答「我不知道」或類似的語句 。

提示

根據你所知的資訊,誰贏得了2020年夏季奧運會男子跳高比賽?

改進提示

請根據你所知的資訊,盡可能真實地回答問題。如果你不確定答案,請說『對不起,我不知道』。問題:誰贏得了2020年夏季奧運會男子跳高比賽?

僅當額外內容的資料集小到足以放入單個提示中時,才可以在提示中添加額外資訊。對於較大的資料集,RAG技術更適合。

結語

提示詞工程是一個充滿活力和創新的領域,為大型語言模型的應用開闢了廣闊的前景。透過不斷探索和優化提示詞的設計方法,我們可以最大限度地發揮模型的潛能,提高生成品質和任務適用性 。未來的提示詞工程很可能與其他AI技術相結合,以構建更智慧、高效和人性化的人機互動系統。幻覺是 LLMs 的一個關鍵挑戰,正受到廣泛的研究關注 。一些研究表明,由於其統計性質,幻覺可能是 LLMs 固有的特性。儘管可能無法完全消除,但透過提示詞工程等技術來減輕幻覺對於構建可信賴的 AI 非常重要。提示範本可以透過提供結構、減少歧義和提供一致的格式來幫助降低產生幻覺的機會 。

即使完全消除幻覺在理論上可能證明是不可能的,但提示詞工程的進步正在顯著提高 LLMs 的可靠性和可信賴性。重點應放在開發和完善能夠在實際應用中最大限度地減少幻覺的發生和影響的技術上。提示詞工程的未來在於多方面的方法,結合了複雜的提示技術、強大的外部知識整合(如 RAG )、對 LLM 輸出進行持續監控和評估,以及更深入地理解導致幻覺的底層機制。這將需要研究人員、開發人員和使用者之間的合作,以建立最佳實踐和倫理準則,用於在現實世界中部署 LLMs 。透過掌握這些實戰技巧,將能夠更有效地利用 AI 大模型,並降低因幻覺帶來的風險。

表格 1:減少幻覺的提示詞工程技巧比較

技術名稱描述如何減少幻覺主要優點潛在限制
具體明確的提示 ( Clear and Specific Prompts )使用清晰、精確的語言描述期望的輸出。避免模型產生模糊或不相關的回應。易於實施,效果直接。需要仔細思考和設計提示。
結構化提示 ( Structured Prompts )使用標題、列表等方式組織提示。幫助模型理解輸入的不同部分,產生結構化的輸出。提高模型理解能力。對於簡單的查詢可能不必要。
提供上下文 ( Providing Context )提供背景資訊和相關細節。幫助模型理解問題的背景,產生更相關的回應。提高回應的準確性。需要收集和整理相關資訊。
少量樣本提示 ( Few-Shot Prompting )在提示中提供幾個輸入-輸出範例。引導模型學習期望的輸出格式和風格。無需額外訓練模型。範例的品質至關重要。
連鎖思考提示 ( Chain of Thought Prompting )要求模型逐步解釋其思考過程。鼓勵模型進行更深入的推理,減少直接跳到錯誤結論的可能性。適用於複雜的推理任務。模型可能產生看似合理但不正確的推理步驟。
驗證鏈 ( Chain of Verification, CoVe )模型生成初步答案後,再自行提出並回答驗證問題。透過自我驗證機制,提高答案的準確性。顯著減少事實錯誤。無法完全消除幻覺,尤其是在推理步驟中。
檢索增強生成 ( Retrieval Augmented Generation, RAG )在生成答案之前,先從外部知識庫檢索相關資訊。使模型能夠基於最新的和可靠的資訊生成答案,減少對模型內在知識的依賴。顯著提高事實準確性,適用於需要最新資訊的場景。需要建立和維護高質量的知識庫。

表格 2:溫度設定對 LLM 輸出的影響

溫度範圍輸出特性產生幻覺的可能性建議使用情境
低 (0 – 0.4)較具確定性、焦點集中、重複性高較低需要高度準確性的應用,例如醫療或法律領域。
中 (0.4 – 0.8)平衡確定性和創造力,連貫且與上下文相關,但具有一定的變異性中等一般用途,在準確性和創造性之間尋求平衡。
高 (0.8 – 1.0+)更多樣化、更具創造力、更隨機較高需要高度創造性的應用,例如詩歌、故事生成。

Midjourney V7 Alpha 版本震撼發布

Midjourney V7 範例 照片

備受期待的 AI 圖像生成服務 Midjourney 近日推出了最新版本— V7 。這距離其上一個主要版本的發布已將近一年,在競爭激烈的 AI 領域中,此舉無疑引發了廣泛關注。 V7 版本的發布時間,恰好與 OpenAI 在其 ChatGPT 平台中推出全新圖像生成器 4o Image Generation 之後不久,這使得市場競爭更趨白熱化。 Midjourney 團隊表示, V7 是一個完全重新打造的模型,擁有其獨特的優勢,但也可能存在一些需要使用者探索和適應的特性,特別是在 prompt 的設計上。

Midjourney V7 已於2025年4月4日(星期五)美國東部時間午夜前後開始以 alpha 測試版本向用戶推出。值得注意的是,在一些社群媒體平台如 Reddit 上,曾有討論指出該版本的目標發布日期為3月31日,但實際發布時間似乎有所延遲。這種時間上的差異在軟體開發過程中並不少見,通常是由於最後階段的測試或調整所致。此次 V7 以 alpha 版本先行發布,也暗示了 Midjourney 可能希望在全面推廣之前收集用戶的反饋並進行進一步的完善。

V7 版本帶來了多項令人矚目的新功能。其中最引人注目的便是全新的 Omni-Reference 功能,據稱該功能可以更好地理解和應用使用者提供的參考圖像,無論是標誌、人類或非人類角色,還是各種物體,都能夠更精確地融入到生成的圖像中。此外, V7 預計將在理解使用者輸入的 prompt 方面有顯著的提升,並能生成更連貫的圖像。更快的處理速度也是 V7 的一大亮點,這意味著使用者可以更快地看到他們的創意成果。然而,在 V7 的 alpha 版本初期,部分功能如圖像放大(upscaling)和局部重繪(in-painting)將暫時使用 V6 的版本,而 V7 專屬的版本預計將在不久的將來推出。同樣,一些進階參數如 weird 、 quality 、 tile 和 multi-prompting 等,可能不會在第一時間提供,但開發團隊承諾將在發布後的幾週內逐步添加這些功能。值得關注的是, V7 預計將採用一套全新的風格參考系統,但目前尚不清楚 V6 版本的 SREF 代碼是否能與之兼容。此外 V7 還可能引入更為先進的 3D 建模功能,包括生成更複雜和細緻的 3D 模型,以及改進的紋理和照明選項,甚至可能與現有的 3D 軟體實現更好的整合。 Midjourney 團隊的目標是讓 V7 能夠生成具有高度細節的美學風格,並能準確地呈現圖像中的面部、角色、標誌和各種物體。

相較於其前身 V6 , Midjourney V7 在多個方面都展現出了顯著的改進潛力。據相關資訊顯示, V7 有望提供更快的處理速度,更精緻且直觀的使用者介面,以及更高品質的圖像,包括更豐富的細節、更生動的色彩和更逼真的效果。 V7 還引入了更先進的圖像合成技術,並提供了更多樣化的濾鏡供使用者選擇。在設計上, V7 也更加精簡且響應迅速,有助於提升使用者的整體體驗。 V7 在理解使用者 prompt 方面的能力也得到了提升,能夠更準確地將文字描述轉化為視覺圖像。此外, V7 可能還會提供更直觀的圖像編輯控制功能,使用者可以直接在平台內進行編輯,從而簡化整體的創作流程。在圖像的細節呈現、空間關係的理解以及色彩的準確性方面, V7 也預計將有所提升。 一個值得注意的改進是 V7 在生成連貫文本方面的能力也得到了增強,這對於需要在圖像中加入文字的使用者來說是一個重要的進步。

目前來看,沒有明確的證據顯示 Midjourney V7 的發布會帶來新的訂閱方案或價格變動。 Midjourney 目前提供四種主要的訂閱方案,分別是 Basic 、 Standard 、 Pro 和 Mega ,價格從每月10美元到120美元不等。其中 Basic 方案每月10美元,提供有限的快速 GPU 時間; Standard 方案每月30美元,提供更多的快速 GPU 時間和無限的 Relax GPU 時間; Pro 方案每月60美元,提供更長的快速 GPU 時間以及一些額外功能,如隱身模式; Mega 方案則是每月120美元,提供最長的快速 GPU 時間和最多的並行任務處理能力。這些方案旨在滿足不同用戶的需求和預算。

早期使用者和專業評測對於 Midjourney V7 的看法呈現出多種不同的聲音。一些參與了早期評分的使用者在提交了超過2000個評分後表示, V7 在圖像品質和細節方面表現非常出色,即使在一張圖像中有多個角色,也能夠保持良好的細節呈現。然而也有意見指出,V7在文本顯示方面仍然存在不足,與 Ideogram 和 OpenAI 的 GPT-4o Image Generation 相比仍有差距,並且其對於 prompt 的準確性還有待進一步觀察。在 Reddit 等社群平台上,一些使用者分享了 V7 與 V6 的比較結果,部分人認為 V7 在某些方面有所改進,例如人像的真實感有所提升,但在整體圖像品質上並未看到顯著的飛躍,甚至有時候更偏愛 V6 的輸出。更有評論認為,整個 AI 圖像生成技術可能已經發展到了一個相對成熟的階段,未來難以再看到像早期那樣巨大的品質提升。一些使用者表達了對於 V7 能夠帶來更好的 prompt 準確性、更強的文本渲染能力以及更易於新手使用的“簡單模式”的期望。值得肯定的是有評論指出 V7 在生成人像時的“粗糙感”有所減輕,這被認為是一個積極的改進。

作為最早的AI圖像生成服務之一, Midjourney 在該領域一直佔據著重要的地位。然而隨著技術的發展,市場競爭也日趨激烈。 Midjourney 的主要競爭對手包括 OpenAI(其 DALL-E 系列以及集成在 ChatGPT 中的圖像生成器)、 Stability AI 的 Stable Diffusion 、 Ideogram 以及 FLUX 等。 Midjourney 一直以來都以其獨特的藝術風格和卓越的創意生成能力而聞名,儘管在 prompt 的準確性方面可能不如某些競爭對手。 V7 的推出被廣泛認為是Midjourney在競爭日益激烈的市場中重新確立其領先地位的重要機會。

Midjourney V7 的發布預計將對整個 AI 圖像生成市場產生積極的影響。它的推出可能會刺激該領域的進一步創新,促使其他競爭對手也加快推出更先進的功能和模型。市場對於更高品質、更逼真圖像的需求持續增長,而 V7 的推出恰好迎合了這一趨勢。儘管 V7 可能尚未完全實現,但 Midjourney 對於影片生成領域的探索也預示著 AI 圖像生成技術未來將朝向多媒體內容發展。

實際測試

寫實照片

Prompt

A young Taipei woman lies comfortably on a cozy, textured gray blanket spread over a bed, with soft natural light illuminating the scene. Her long, dark hair is styled in loose waves, framing her face and cascading over her shoulders. She wears a simple white top paired with light blue jeans, creating a casual yet stylish look. Her left hand is gently placed on her forehead, with her fingers slightly curled and relaxed, while her right hand rests naturally by her side. Her fingers are slender and well-defined, with neatly trimmed nails. The woman’s expression is serene and thoughtful, with her gaze directed towards the camera. The background is softly blurred, emphasizing the focus on her face and upper body. The lighting is diffused, casting subtle shadows that enhance the texture of the blanket and her clothing. The overall composition is intimate and inviting, capturing a moment of quiet reflection. SONY FX3, Sony FE 50mm F1.2 GM. –no extra fingers, missing fingers, mutated hands, deformed hands, mirrored hands, missing arms, missing legs, deformed hands, extra fingers, distorted fingers, broken hands, fused fingers, long fingers, misshapen hands, extra limbs, disfigured hands, flat chest, low pixels –s 50 –style raw

一位年輕的台北女子舒適地躺在一張床上舖著的有質感的灰色毛毯上。柔和的自然光照亮了整個場景。她烏黑的長髮呈現自然的波浪捲,勾勒出她的臉龐,垂落在她的肩膀上。她穿著一件簡單的白色上衣,搭配淺藍色牛仔褲,營造出休閒又時尚的造型。她的左手輕輕地放在額頭上,手指微微彎曲且放鬆,而右手自然地放在身邊。她的手指纖細修長,指甲修剪得整齊。女子的表情寧靜而若有所思,目光直視著鏡頭。背景微微模糊,強調了對她的臉部和上半身的聚焦。光線柔和散射,投下微妙的陰影,增強了毛毯和她衣服的質感。整體構圖親密而吸引人,捕捉了一個寧靜沉思的瞬間。

V7(指令理解、人物皮膚、影像細節及情境表現力最佳,真人還原度高)

Midjourney V7 範例 照片

註:筆者實際測試後,新版本雖然手指的問題降低許多,但是仍然還是沒有完全改善老毛病,即使增加負向提示詞仍然需要多次抽卡才能生成滿意的照片。希望官方在未來的版本能夠積極改善這個問題。此外, Midjourney V7 預設強制使用個人化風格,如果想要使用 V7 原生的圖像風格的話在提示詞後方加入 --p none 參數即可。

V6.1(指令理解一般,藝術表現最佳,皮膚紋理表現較弱)

Midjourney v6.1 範例 照片

V6(指令理解一般,偏向寫實及復古,皮膚細節介於6.1與7之間,藝術感較弱)

Midjourney V6 範例 照片

結論:在照片生成類別中,其實三個模型版本各有特色。端看使用者的用途而定。如果追求真實感及要求指令細節的使用者最佳選擇一定是 V7 。

藝術

Prompt

A woman sitting quietly at the table and lost in thought by Christoph Niemann. –s 50 –style raw

克利斯多福·尼曼(Christoph Niemann)所繪的一名女子靜靜地坐在桌前陷入沉思。

V7

Midjourney V7 範例 藝術

V6.1

Midjourney V6.1 範例 藝術

V6

Midjourney V6 範例 藝術

結論:在藝術風格上, V7 偏向靜謐的哀愁,流露出淡淡的回憶與孤單;V6.1 表現出現實中的壓抑與自我拉扯,顏色對比強化了內在掙扎;V6 情感張力最強,色彩和線條都充滿張力,暗示著難以平息的內心波動。三幅畫都以孤獨為核心,但 V7 偏向內斂,V6.1 著重現實的壓力, V6 則更加強烈地表達情感崩解。這些畫面透過色彩、構圖和畫風的變化,巧妙地傳達出孤獨的不同面向與層次。使用者可以根據自己比較偏好的藝術風格挑選適合的版本創作。

文字

Prompt

A restaurant menu in retro style. The words on the menu are as follows: At the top center, in bold large font, is the headline “Menu”. On the left side below are the words in sequence: “Drinks” (in bold font), “Cola $20”, “Coffee $40”, “Mineral water $15”, “Lemon juice $20”. On the right side below are the words in sequence: “Food” (in bold font), “Hamburger $50”, “Steak $80”, “French fries $10”, “Chicken cutlet $50”. –s 50 –style raw

一個復古風格的餐廳菜單,菜單上的文字分別是: 上方中央粗體字大標題 “菜單”,下方左排文字依序是”飲料”(粗體字),”可樂 $20″,”咖啡 $40″,”礦泉水 $15″,”檸檬汁 $20″,下方右排文字依序是”食物”(粗體字),”漢堡 $50″,”牛排 $80″,”薯條 $10″,”雞排 $50”

V7

Midjourney V7 範例 文字

V6.1

Midjourney V6.1 範例 文字

V6

Midjourney V6 範例 文字

結論:文字呈現一向 Midjourney 最大的弱點之一,即使到了 V7 官方仍然沒有解決這個問題。所以如果各位讀者有文字及排版的需求,筆者還是建議先透過 Midjourney 產生底圖之後再透過 PS 或 Canva 等工具進行二次處理。

進一步閱讀
  1. Midjourney 將 sref V7 設為預設
  2. Midjourney V7 大幅提速,生成成本腰斬,推出新實驗模式
  3. Midjourney V7 優化準確性及手部呈現,並推出 exp 實驗性參數
  4. Midjourney V7 推出全新編輯器與 Weird 參數
  5. Midjourney V7 持續升級:導入 V6 熱門功能、AI 輔助提示與用戶回饋加速進化

科技巨頭 Anthropic 在 AI 版權戰中首傳捷報,法院駁回環球音樂等公司禁令申請

科技巨頭 Anthropic 在 AI 版權戰中首傳捷報,法院駁回環球音樂等公司禁令申請

生成式人工智能(AI)的版權爭議持續升溫,科技公司與版權所有者之間的法律角力備受矚目。近日備受矚目的 AI 新創公司 Anthropic 在與環球音樂集團(Universal Music Group, UMG)、Concord Music Group 及 ABKCO Music & Records 等主要音樂出版商的訴訟中取得初步勝利。加州聯邦法院駁回了這些音樂出版商提出的初步禁令申請,該禁令旨在阻止 Anthropic 使用其擁有的歌詞來訓練其 AI 模型 Claude 。這項裁決被視為 AI 產業在應對版權挑戰方面的一個重要里程碑,也為未來 AI 的發展和版權法律的互動帶來了深遠的影響。

這起訴訟的核心在於音樂出版商指控 Anthropic 未經授權使用了數百首歌曲的歌詞來訓練其 AI 模型。根據訴訟文件,Anthropic 被指控使用了至少 500 首歌曲的歌詞,其中包括碧昂絲(Beyoncé)、滾石樂隊(The Rolling Stones)和海灘男孩(The Beach Boys)等知名藝人的作品。音樂出版商認為,Anthropic 的這種行為構成了版權侵權,並損害了他們未來授權其內容的能力 。他們強調,未經許可地使用受版權保護的材料來訓練 AI 模型,相當於對創作者的「盜竊」。

面對音樂出版商的強烈指控,Anthropic 則辯稱其使用歌詞進行 AI 模型訓練的行為屬於美國版權法中的「合理使用」(fair use)範疇。 Anthropic 認為,其 AI 模型 Claude 並非直接複製或儲存歌詞,而是對其進行分析,以理解和模仿人類語言的模式,從而產生原創的輸出。這種使用方式被 Anthropic 視為具有「轉化性」(transformative),為原始材料增加了新的表達或意義,因此應受到「合理使用」原則的保護。這場法律爭議不僅關乎 Anthropic 本身,也牽動著整個 AI 產業對於如何合法使用受版權保護資料的敏感神經。

在訴訟過程中,音樂出版商向法院申請初步禁令,要求在案件審理期間阻止 Anthropic 繼續使用其歌詞來訓練 AI 模型。然而,美國加州北區地方法院法官 Eumi K. Lee 在 2025 年 3 月 25 日駁回了這一請求。法官在裁決中列出了多項理由,解釋了為何拒絕頒布這項臨時禁令。

首先,法官認為音樂出版商未能充分證明 Anthropic 的行為對他們造成了「無法彌補的損害」(irreparable harm),這是獲得初步禁令的先決條件之一。法官指出,音樂出版商提供的證據顯示,AI 訓練授權市場正在成長,這意味著即使他們最終贏得訴訟,所遭受的任何損失都可以通過金錢賠償來彌補。換句話說,法院認為,如果 Anthropic 確實侵犯了版權,音樂出版商可以通過後續的損害賠償訴訟來獲得經濟上的補償,而無需在現階段阻止 Anthropic 的 AI 模型訓練。

其次,法官對音樂出版商提出的禁令範圍表示擔憂,認為其要求過於寬泛和模糊。音樂出版商的律師在聽證會上未能明確說明有多少歌曲將受到禁令的約束,並且沒有提供具體的方法讓 Anthropic 能夠確定禁令的範圍或遵守其條款 。法官強調,禁令請求中包含的作品範圍似乎不斷擴大,這引發了關於禁令的可執行性和可管理性的重大疑慮。

此外,法官還提及,本案的核心法律問題,即使用受版權保護的內容訓練 AI 是否構成「合理使用」,尚未有明確的法律判決。法官認為,音樂出版商實際上是要求法院在「合理使用」這個基本問題尚未解決的情況下,就定義 AI 訓練授權市場的輪廓。法院在這個階段不願界定一個新的授權市場,特別是在關於 AI 訓練是否屬於「合理使用」的法律界限尚不明確的情況下。

最後法官指出,音樂出版商並未請求法院頒布一個範圍更窄的禁令,例如僅針對訴訟中最初指出的 500 首歌曲。由於音樂出版商提出的禁令範圍過於廣泛,法院認為不適合自行頒布一個範圍更小的禁令。

值得注意的是,法院的這項裁決僅針對初步禁令的申請,並未對 Anthropic 是否構成版權侵權或其行為是否屬於「合理使用」做出最終判決。這些核心法律問題將在未來的訴訟程序中進一步審理。儘管如此,法院駁回禁令申請的決定,對於 Anthropic 而言,無疑是一次重要的初步勝利。

法院的這項裁決具有廣泛的意義和影響,不僅對 Anthropic 本身,也對整個 AI 產業和未來的版權法律產生了深遠的影響。

就 Anthropic 而言,短期內,他們可以繼續使用包括受版權保護歌詞在內的資料來訓練其 AI 模型 Claude,而不會受到立即的法律限制。這對於 Anthropic 繼續開發和改進其 AI 技術至關重要,讓他們能夠在無需立即重新訓練模型或限制訓練資料的情況下保持競爭力。然而,從長遠來看,這場版權侵權訴訟仍在進行中,Anthropic 仍然面臨被判侵權並支付巨額賠償金的風險。這次裁決突顯了 Anthropic 提出的「合理使用」辯護的重要性,他們很可能將繼續依賴這一原則來應對後續的法律挑戰。除此之外 Anthropic 已經實施了「防護措施」(guardrails),以防止 Claude 在其輸出中直接複製受版權保護的歌詞。這種積極主動的措施可能在一定程度上影響了法院對初步禁令的考量。 Anthropic 在積極捍衛其使用版權材料進行訓練的權利的同時,也願意採取措施防止直接的版權侵權,這反映了其在複雜的法律環境中採取的策略性做法。

對於整個 AI 產業而言,這項裁決可能被視為一個積極的信號。許多 AI 公司,包括 OpenAI、Meta 和微軟等,都面臨著類似的版權訴訟。法院駁回針對 Anthropic 的初步禁令,可能暗示著版權所有者在試圖通過初步禁令來阻止 AI 公司使用受版權保護資料進行訓練方面,可能會面臨挑戰,尤其是在他們無法證明「無法彌補的損害」的情況下。然而,這並不意味著 AI 公司可以完全免除版權責任。關於版權侵權和「合理使用」的基本法律問題仍然懸而未決。 AI 公司仍然需要謹慎對待使用受版權保護的資料進行訓練,並可能需要探索授權選項或開發替代的訓練資料集。此案也凸顯了迫切需要更清晰的法律框架,甚至可能需要新的立法來應對 AI 和版權法帶來的獨特挑戰。全球的監管機構可能會密切關注此案的進展。

在「合理使用」原則方面,儘管法官 Lee 並未明確就此做出裁決,但她拒絕頒布禁令的決定表明,在「合理使用」問題得到充分審理之前,法院對於基於版權考量來限制 AI 訓練活動可能會採取謹慎的態度。 Anthropic 的辯護很大程度上依賴於其使用受版權保護的歌詞進行 AI 訓練屬於「轉化性使用」,因此符合「合理使用」原則 。他們認為,其 AI 模型並非簡單地複製歌詞,而是對其進行分析以理解語言模式並生成原創的輸出。法院在裁決中提到 AI 訓練背景下「合理使用」原則的不確定性,表明這將是正在進行的訴訟以及未來涉及 AI 的版權糾紛中的一個核心問題。此案的結果可能會對「合理使用」原則在應用於 AI 技術時的解釋和適用方式產生重大影響。這凸顯了傳統版權法(為人類創作者和更直接的複製形式而設計)與 AI 的新現實(AI 從龐大的資料集中學習以創造新穎的輸出)之間的張力。在這種背景下對「合理使用」的解釋,對於平衡版權所有者的權利與 AI 創新的潛力也是很重要的。

環球音樂集團和其他音樂出版商對法院的裁決表示失望,但他們強調將繼續對 Anthropic 提起更廣泛的訴訟,並積極尋求貨幣賠償。他們在一份聲明中指出,法院駁回禁令申請是基於一個狹隘的理由,即他們所遭受的任何損失最終都可以通過金錢賠償來彌補,而他們打算「積極尋求」這些賠償。音樂出版商認為,此案對於保護創作者免受 Anthropic 和其他 AI 公司對其受版權保護作品的「大規模盜竊」至關重要。他們預計,隨著案件的進展和全面證據記錄的建立,他們的訴訟請求將得到驗證。法院也批准了音樂出版商提出的證據開示請求,允許他們獲取 Anthropic 的 Claude 模型在 2023 年 9 月至 2024 年 3 月期間的提示和輸出記錄的「具有統計學意義的樣本」。這項裁決將使音樂出版商能夠更深入地了解 Anthropic 如何使用其歌詞,並可能為他們的訴訟提供更有力的證據。音樂出版商的回應表明,他們至少在目前將戰略從試圖立即阻止 Anthropic 的訓練活動轉向建立一個強有力的財務賠償案例。法院批准證據開示表明,法官希望確保出版商有機會在訴訟的後期階段建立他們的索賠。出版商使用的強烈措辭「大規模盜竊」顯現他們對 AI 公司未經許可使用受版權保護材料的擔憂程度。

法律學者和業界人士普遍認為,Anthropic 案突顯了當前版權法在應用於 AI 訓練時所面臨的不確定性。關於 AI 訓練是否構成「合理使用」的爭論仍在繼續,一方認為這是一種具有轉化性的使用,通過促進創新來造福公眾,而另一方則認為這是一種侵犯版權的行為,損害了創作者的權利。這項裁決的法律啟示在於,它可能影響未來法院在類似案件中的判決,並可能促使立法機構修改版權法以應對 AI 帶來的挑戰。一些專家可能將此視為 AI 發展的勝利,而另一些專家則可能對其對創意產業的潛在影響表示擔憂。缺乏明確的法律先例意味著法院正在探索一個新的領域。專家們對於「合理使用」應如何應用於 AI 訓練可能持有不同意見,這反映了通過版權保護來激勵創造力與促進技術創新之間的根本衝突。此案可能成為一個試驗案例,有助於塑造 AI 和智慧財產權的法律格局。法律的不確定性可能導致持續的訴訟,並可能促使立法機構制定專門針對 AI 和版權的法律。這可能導致 AI 訓練資料的新授權模式的出現,或者重新定義數位時代的「合理使用」。法律專家在此領域的意見對於指導決策者和法院如何平衡智慧財產權保護與人工智慧領域的創新非常重要。

Anthropic 版權訴訟中的主要論點

音樂出版商要求禁令的論點Anthropic 反對禁令的論點法官 Lee 駁回禁令的原因
Anthropic 使用受版權保護的歌詞進行 AI 訓練構成版權侵權。他們使用受版權保護的歌詞進行 AI 訓練屬於「合理使用」,特別是轉化性使用。出版商未能證明其遭受了無法彌補的損害。
這種使用對他們現有的和未來的授權市場造成了無法彌補的損害。出版商未能證明其遭受了無法彌補的損害。AI 訓練授權市場正在成長,暗示潛在的貨幣賠償。
在訴訟進行期間,應阻止 Anthropic 繼續這種行為。禁令請求過於寬泛和模糊。禁令請求過於寬泛和定義不明確。
他們已經實施了「防護措施」以防止侵權輸出。「合理使用」這個核心問題尚未解決。
出版商沒有請求範圍更窄的禁令。

Anthropic 裁決的潛在影響

影響
對 Anthropic短期:可以繼續使用受版權保護的歌詞進行訓練。長期:在基礎訴訟中仍面臨貨幣賠償的風險;將繼續依賴「合理使用」的抗辯。
對 AI 產業可能暗示法院不願輕易頒布針對 AI 訓練的初步禁令。突顯了謹慎行事和潛在授權的必要性。強調了迫切需要更清晰的法律框架。
對版權所有者在 AI 版權案件中證明「無法彌補的損害」可能具有挑戰性。重點可能轉向尋求貨幣賠償和開發授權模式。可能推動版權法的立法變革。
對「合理使用」原則此案可能顯著影響在 AI 訓練背景下對「合理使用」的解釋。「轉化性使用」的論點將受到密切審查。

結語

法院駁回環球音樂等公司對 Anthropic 的禁令申請,是這場 AI 版權大戰中的一個重要轉折點,也是 Anthropic 的一次初步勝利。然而,這場法律戰遠未結束,關於 AI 使用受版權保護資料進行訓練是否構成侵權,以及是否屬於「合理使用」的根本性法律問題仍有待解決。此案的發展和最終判決,無疑將對 AI 產業的未來走向、版權法律的適用以及科技創新與智慧財產權保護之間的平衡產生深遠的影響。可以預見的是,圍繞 AI 和版權的法律爭議將在未來持續不斷,並可能催生新的法律解釋和行業規範。