
大型語言模型( LLMs )已成為人工智能領域的強大工具,能夠針對各種任務生成如同人類撰寫般的文字。從撰寫郵件到產生程式碼,LLMs 的應用範圍持續擴展,展現出巨大的潛力。提示詞工程作為一個相對新興的領域,其核心在於開發和優化輸入提示,以更有效率地利用 LLMs 於廣泛的應用和研究主題之中 。這項技能有助於更深入地理解 LLMs 的能力和局限性,並提升模型在問答和算術推理等常見及複雜任務上的表現。開發人員也藉由提示詞工程設計出更穩健且有效的提示技巧,以與 LLMs 和其他工具進行互動。
然而,LLMs 的發展並非沒有挑戰。其中一個關鍵問題是所謂的「幻覺」,指的是 AI 模型產生看似真實但實際上是錯誤或誤導性的資訊,並將其視為事實呈現 。這種現象可能會嚴重損害人們對 LLMs 作為可靠資訊來源的信任,並可能導致錯誤資訊的傳播。儘管研究人員正積極尋找消除或減輕幻覺的最佳方法,但提示詞工程已成為一種日益重要的手段,透過引導模型產生更準確和有用的輸出,進而釋放LLMs的全部潛力。這篇文章我們希望提供對提示詞工程最新進展的結構化概述,並著重於實戰操作,幫助讀者現學現用。
深入剖析:大型語言模型為何產生幻覺?
大型語言模型產生幻覺的原因複雜多樣,主要可歸因於 AI 數據、模型訓練或回應生成過程中的缺陷。首先,訓練數據可能包含偏差、事實錯誤或不完整的資訊, LLM 在缺乏現實世界理解的情況下,可能會繼承並在輸出中延續這些缺陷。其次, LLMs 擅長根據機率預測序列中的下一個詞語,但它們本身無法辨別真假。一個看似合理的陳述可能符合模型學習到的模式,即使它完全是捏造的。
此外, LLMs 的回應往往基於有限的上下文,在缺乏更廣泛資訊的情況下,它們可能會誤解提示或產生在內部一致但與上下文無關的回應。過度擬合是另一個常見原因,指的是 LLMs 過於專注於記憶訓練數據中的模式,當遇到新的資訊時,可能會產生不相關或荒謬的輸出。 LLMs 也可能缺乏對因果關係或資訊邏輯流的理解,導致產生的文本在語法上正確但內容荒謬。含糊不清或誤導性的提示同樣會導致模型根據其理解填補空白,從而產生幻覺式回應。訓練數據中存在的演算法偏差也會反映在 LLM 的輸出中,導致產生帶有刻板印象或歧視性的幻覺。
大型模型在接受新的數據訓練時,可能會遇到「災難性遺忘」的問題,失去對原始數據集的識別能力,進而增加產生幻覺的可能性。某些 LLMs 的自回歸特性,即根據先前的輸出預測序列的未來元素,也可能導致不準確性的傳播。LLMs 的機率性質是導致幻覺的核心原因。它們生成最有可能的序列,但這並不總是事實上正確的。 LLMs 雖然擁有龐大的資訊量,但缺乏像人類一樣辨別真假的能力。它們可能會自信地生成錯誤資訊,因為它們並不知道那是錯誤的。這突顯了外部驗證機制和精煉提示策略的重要性。理解這些潛在的幻覺來源,有助於我們更有針對性地設計提示詞,從而提升模型的可靠性。
提示詞工程的核心技巧:提升模型準確性
要撰寫出色的 LLM 提示,需要具備多項技巧。以下將介紹一些核心技巧,並提供具體的操作方法和範例,幫助讀者提升模型的回應準確性。
具體明確
操作方法:在提示中清楚說明您希望模型返回什麼,避免使用模糊不清的詞語。使用明確的動詞指定期望的操作,並定義所需的輸出長度和格式 。
不良提示:
總結這篇文章。
良好提示:
請用三句話總結這篇關於氣候變遷對沿海社區影響的研究論文的主要發現。
目的:明確要求三句話的摘要,並指定了文章主題。
結構化提示
操作方法:使用項目符號、編號或標題等方式組織提示,使LLM更容易理解輸入的每個部分。可以先定義模型扮演的角色,然後提供上下文/輸入數據,最後再給出指令 。
提示:
你是一位資深行銷經理。請根據以下數據,為一款新的智慧手錶撰寫一份產品說明:
- 特色:防水、GPS、心率監測
- 目標受眾:健身愛好者
- 風格:簡潔有力
目的:清晰地設定了角色、提供了產品特色、目標受眾和風格要求。
提供上下文
操作方法:提供相關的背景資訊或解釋請求的目的,幫助模型產生符合期望的回應 。引用特定的來源或文件,讓模型基於這些資訊進行回答。
提示:
根據這份最新的財務報告([連結]),分析公司過去五年的盈利能力,並指出主要的成長驅動力。
目的:提供了具體的資訊來源,要求模型基於該報告進行分析。
提出開放式問題以尋求解釋
操作方法:提出鼓勵模型探索複雜主題並提供詳細且具體回應的問題,避免使用是或否的提問 。
不良提示:
人工智能重要嗎?
良好提示:
在未來十年,先進人工智能可能帶來哪些潛在的影響?
目的:引導模型深入思考並提供更全面的分析。
要求範例
操作方法:在提示中包含少量的輸入-輸出範例,引導模型並提高輸出品質 。
提示:
以下是一些將英文翻譯成法文的範例:
- 'Hello' -> 'Bonjour'
- 'Thank you' -> 'Merci'
- 'Goodbye' -> 'Au revoir'
現在請將 'Good morning' 翻譯成法文。
目的:透過提供的範例,模型可以學習翻譯的模式。
避免歧義
操作方法:使用精確的語言,避免使用可能有多種解釋的詞語或短語 。
不良提示:
寫一篇關於蘋果的文章。
(蘋果可以指水果或公司)
良好提示:
寫一篇關於蘋果公司最新產品發布的文章。
目的:明確指定了討論的主題是蘋果公司。
根據模型能力調整提示
操作方法:了解使用的 LLM 的優勢和限制,並根據其能力設計提示。
目的:如果某個模型擅長程式碼生成,可以提供更詳細的程式碼要求和範例。
保持簡潔和全面
操作方法:在提供足夠資訊的前提下,盡可能使提示簡潔明瞭 。避免過度冗長的提示,以免模型迷失重點。
提示:在要求模型總結長篇文章時,可以先提供文章的關鍵段落,而不是全文。
使用嚴格措辭
操作方法:使用如「你的任務是」、「你必須」等明確的指令,使模型更好地理解其任務和優先順序 。
提示:
你的任務是根據提供的數據,撰寫一份關於市場趨勢的報告,報告必須包含數據來源。
指定目標受眾
操作方法:在提示中說明目標受眾,有助於模型調整回應的風格和複雜程度 。
提示:
請用簡單的詞語解釋量子計算的概念,目標受眾為非技術人員。
分解複雜任務
操作方法:將複雜的任務分解為更簡單的提示,逐步引導模型完成任務 。
提示:要撰寫一篇研究報告,可以先要求模型撰寫大綱,然後再逐步完成每個部分。
定義輸出格式
操作方法:在提示中明確指定所需的輸出長度和格式,例如列表、段落、JSON等 。
提示:
請以項目符號列表的形式,列出五種減少AI模型幻覺的方法。
指示風格和語氣
操作方法:指示模型所需的風格和語氣,例如正式、幽默、專業等 。
提示:
請以聯合報的風格,撰寫一篇關於區塊鏈技術最新發展的報導。
專注於期望的操作
操作方法:專注於希望模型執行的操作,而不是希望避免的操作,通常會產生更好的結果 。
不良提示:
不要使用被動語態。
良好提示:
請使用主動語態撰寫這份報告。
使用清晰的提示語法
操作方法:使用清晰的標點符號、標題和章節標記,有助於傳達意圖並使輸出更易於解析。
提示:使用 ### 指示 ###、### 範例 ###、### 問題 ### 等標記來組織提示 。
迭代精煉
操作方法:不斷測試和調整您的提示。分析模型的回應,並根據結果修改提示,直到獲得滿意的輸出 。
聚焦關鍵:擺脫幻覺的進階提示詞策略
除了上述核心技巧外,還有一些更進階的提示詞策略可以顯著減少幻覺的產生 。
明確指示避免不實資訊
操作方法:在系統提示或主要提示中明確告知模型不要添加不真實或無法驗證的資訊 。
提示:在系統提示中加入:
如果資訊不在提供的文本中,請回答『我不知道』。
少量樣本提示
操作方法:在提示中提供少量的具體範例,展示期望的輸入和輸出格式,引導模型專注於特定主題並減少幻覺 。
提示:提供幾個問題和對應的正確答案範例,然後再提出希望模型回答的問題。
思維鏈
操作方法:引導模型逐步進行思考,並呈現中間的推理步驟,然後再得出最終答案。可以在提示中加入「逐步思考」等指令 。
提示:
問題:如果一個蘋果的價格是3元,三個蘋果的價格是多少?請逐步解釋你的計算過程。
驗證鏈
操作方法:提示模型先生成初步回應,然後要求它產生一系列驗證問題來檢查其工作,獨立回答這些問題,最後根據驗證結果產生修訂後的更準確輸出 。
提示:
問題:美國有哪些總統出生在紐約?請先列出你的答案,然後提出驗證每個總統出生地的問題,並回答這些問題,最後給出修正後的答案。
筆記鏈
操作方法:當使用檢索到的文檔時,提示模型評估這些文檔的相關性,強調關鍵和可靠的資訊,過濾掉不相關的內容,然後再生成答案。
提示:
根據以下檢索到的文章([連結1]、[連結2]),請先評估每篇文章與問題『全球暖化的主要原因是什麼?』的相關性,然後僅使用相關的文章來回答問題。
僅使用提供的文檔資訊
操作方法:明確指示模型僅使用您在提示中提供的文檔或資訊來回答問題,而不是依賴其一般知識 。
提示:
請根據以下文本回答問題:[提供的文本]。問題:文本中提到了哪些減少AI幻覺的方法?
要求提取逐字引號
操作方法:對於較長的文檔,要求模型在執行任務之前先提取相關的逐字引號,確保其回應基於實際文本 。
提示:
請閱讀以下文章,並提取所有關於提示詞工程技巧的逐字引號,然後用這些引號來支持你對『如何使用提示詞工程減少AI幻覺?』這個問題的回答。
自我一致性解碼
操作方法:讓模型針對同一個提示產生多個獨立的答案,然後選擇最一致的答案作為最終輸出 。這通常需要在模型設定中調整相關參數(如溫度)。
RAG技術:利用外部知識減少幻覺
檢索增強生成( Retrieval Augmented Generation, RAG )是一種強大的技術,可以透過搜尋組織的私有數據來源或可信賴的外部知識庫,獲取與使用者提示相關的資訊,從而確保事實準確性,有效解決 AI 幻覺的問題 。
- 操作方法:
- 建立知識庫:首先,需要建立一個包含您希望模型使用的可靠資訊的知識庫。這可以是內部文件、資料庫、或經過篩選的外部網站內容。
- 建立索引:對知識庫進行索引,使其能夠被快速有效地搜尋。這通常涉及到將文本轉換為向量表示(embedding)。
- 使用者提問:當使用者提出問題時,將問題轉換為向量表示。
- 檢索相關資訊:使用問題的向量表示在知識庫中搜尋最相關的資訊片段。
- 增強提示:將檢索到的相關資訊片段添加到原始的使用者提示中,形成一個增強的提示。
- 生成回應:將增強的提示輸入到 LLM 中,模型將利用檢索到的資訊來生成更準確的回應。
- 範例:假設有一個關於公司產品的知識庫。當使用者詢問「這款產品的保固期是多久?」時, RAG 系統會先在知識庫中找到相關的保固資訊,然後將這些資訊加入到提示中,再讓 LLM 生成包含具體保固期限的回應。 ServiceNow 公司就使用 RAG 在產生文本之前從外部知識庫中檢索相關的 JSON 物件,確保生成過程基於正確且相關的數據。
驗證提示詞工程的有效性
提示詞工程已成為與 ChatGPT 等語言驅動工具進行有效溝通和互動的必要技能 。研究表明,在提示中提供範例的順序、自動指令生成和選擇方法可以顯著影響 LLM 的效能 。 AI 科學家正試圖透過檢索增強生成、微調和事實檢查等技術來限制 LLM 的幻覺 。 Andrew Ng 和其他 AI 專家已提出多項關鍵策略,可以顯著提高提示的有效性 。 OpenAI 一直在升級 ChatGPT ,以提高準確性及其拒絕回答未知問題的能力。百度創辦人李彥宏表示「大模型基本消除了幻覺」,顯示該領域取得了顯著進展。史丹佛大學的 Christopher Manning 討論了 LLMs 的實用性與因幻覺導致錯誤的風險之間的平衡 。史丹佛大學的 Percy Liang 強調了基礎模型驅動的 AI 典範轉移以及評估這些模型的重要性 。他的研究也探索了激活工程作為一種對齊方法,以防止產生有害輸出,如幻覺 。一項研究發現, LLMs 在法律環境中至少有58%的時間會產生幻覺,突顯了在未經監督的情況下整合的風險。
不同 LLMs 和任務之間幻覺程度的差異表明,提示詞工程技術的有效性也可能因特定模型和任務的複雜性而異。這就需要仔細的實驗和評估,以確定適用於不同情境的最佳提示策略。 OpenAI 對「過程監督」的關注,獎勵正確的推理步驟而不是僅僅獎勵最終答案,與連鎖思考提示的原則一致。這表明 AI 研究社群越來越認識到,透過結構化提示引導模型的思考過程是提高 LLM 輸出準確性並減少幻覺的關鍵。
溫度與上下文:微調提示以控制幻覺
LLMs 中的溫度設定會影響輸出的隨機性。較低的溫度(接近0)使輸出更具確定性和焦點,而較高的溫度(接近1)則增加創造力但也增加了產生幻覺的風險 。對於準確性至關重要的用例,保持較低的溫度(約為0或0.1)會產生更可靠的輸出 。
- 操作方法:在與 LLM 互動時,找到溫度設定的選項(通常在API參數或介面設定中)。對於需要事實準確性的任務,將溫度設定調低。對於需要創造性的任務,可以適度提高溫度。
- 範例:如果您希望模型提供關於某個科學事實的準確答案,請將溫度設定為接近0。如果您希望模型創作一首詩,則可以將溫度設定為0.7或更高。
在提示中提供足夠的上下文對於引導 LLM 並減少產生不相關或不準確輸出的機會至關重要 。指示 LLM 僅在其具有高度信心時才回應,或者在不確定時說「我不知道」,可以防止其用不可靠的資訊填補空白 。
操作方法:在您的提示中,提供所有必要的背景資訊,確保模型理解您的意圖。如果模型不確定答案,明確指示它回答「我不知道」或類似的語句 。
提示:
根據你所知的資訊,誰贏得了2020年夏季奧運會男子跳高比賽?
改進提示:
請根據你所知的資訊,盡可能真實地回答問題。如果你不確定答案,請說『對不起,我不知道』。問題:誰贏得了2020年夏季奧運會男子跳高比賽?
僅當額外內容的資料集小到足以放入單個提示中時,才可以在提示中添加額外資訊。對於較大的資料集,RAG技術更適合。
結語
提示詞工程是一個充滿活力和創新的領域,為大型語言模型的應用開闢了廣闊的前景。透過不斷探索和優化提示詞的設計方法,我們可以最大限度地發揮模型的潛能,提高生成品質和任務適用性 。未來的提示詞工程很可能與其他AI技術相結合,以構建更智慧、高效和人性化的人機互動系統。幻覺是 LLMs 的一個關鍵挑戰,正受到廣泛的研究關注 。一些研究表明,由於其統計性質,幻覺可能是 LLMs 固有的特性。儘管可能無法完全消除,但透過提示詞工程等技術來減輕幻覺對於構建可信賴的 AI 非常重要。提示範本可以透過提供結構、減少歧義和提供一致的格式來幫助降低產生幻覺的機會 。
即使完全消除幻覺在理論上可能證明是不可能的,但提示詞工程的進步正在顯著提高 LLMs 的可靠性和可信賴性。重點應放在開發和完善能夠在實際應用中最大限度地減少幻覺的發生和影響的技術上。提示詞工程的未來在於多方面的方法,結合了複雜的提示技術、強大的外部知識整合(如 RAG )、對 LLM 輸出進行持續監控和評估,以及更深入地理解導致幻覺的底層機制。這將需要研究人員、開發人員和使用者之間的合作,以建立最佳實踐和倫理準則,用於在現實世界中部署 LLMs 。透過掌握這些實戰技巧,將能夠更有效地利用 AI 大模型,並降低因幻覺帶來的風險。
表格 1:減少幻覺的提示詞工程技巧比較
技術名稱 | 描述 | 如何減少幻覺 | 主要優點 | 潛在限制 |
具體明確的提示 ( Clear and Specific Prompts ) | 使用清晰、精確的語言描述期望的輸出。 | 避免模型產生模糊或不相關的回應。 | 易於實施,效果直接。 | 需要仔細思考和設計提示。 |
結構化提示 ( Structured Prompts ) | 使用標題、列表等方式組織提示。 | 幫助模型理解輸入的不同部分,產生結構化的輸出。 | 提高模型理解能力。 | 對於簡單的查詢可能不必要。 |
提供上下文 ( Providing Context ) | 提供背景資訊和相關細節。 | 幫助模型理解問題的背景,產生更相關的回應。 | 提高回應的準確性。 | 需要收集和整理相關資訊。 |
少量樣本提示 ( Few-Shot Prompting ) | 在提示中提供幾個輸入-輸出範例。 | 引導模型學習期望的輸出格式和風格。 | 無需額外訓練模型。 | 範例的品質至關重要。 |
連鎖思考提示 ( Chain of Thought Prompting ) | 要求模型逐步解釋其思考過程。 | 鼓勵模型進行更深入的推理,減少直接跳到錯誤結論的可能性。 | 適用於複雜的推理任務。 | 模型可能產生看似合理但不正確的推理步驟。 |
驗證鏈 ( Chain of Verification, CoVe ) | 模型生成初步答案後,再自行提出並回答驗證問題。 | 透過自我驗證機制,提高答案的準確性。 | 顯著減少事實錯誤。 | 無法完全消除幻覺,尤其是在推理步驟中。 |
檢索增強生成 ( Retrieval Augmented Generation, RAG ) | 在生成答案之前,先從外部知識庫檢索相關資訊。 | 使模型能夠基於最新的和可靠的資訊生成答案,減少對模型內在知識的依賴。 | 顯著提高事實準確性,適用於需要最新資訊的場景。 | 需要建立和維護高質量的知識庫。 |
表格 2:溫度設定對 LLM 輸出的影響
溫度範圍 | 輸出特性 | 產生幻覺的可能性 | 建議使用情境 |
低 (0 – 0.4) | 較具確定性、焦點集中、重複性高 | 較低 | 需要高度準確性的應用,例如醫療或法律領域。 |
中 (0.4 – 0.8) | 平衡確定性和創造力,連貫且與上下文相關,但具有一定的變異性 | 中等 | 一般用途,在準確性和創造性之間尋求平衡。 |
高 (0.8 – 1.0+) | 更多樣化、更具創造力、更隨機 | 較高 | 需要高度創造性的應用,例如詩歌、故事生成。 |