
圖片來源:unsplash
現今,AI聊天機器人無需獲得許可即可自由地抓取你的網站內容。這對於許多網站擁有者來說可能是一個令人擔憂的問題。然而,有一些方法可以防止AI工具訪問你的網站,但這些方法也有一些限制。
AI聊天機器人如何訪問你的網站內容?
AI聊天機器人通過使用多種數據集進行訓練,其中一些是開源的並且可以公開獲取。例如,GPT3就是使用五個數據集進行訓練的,這是根據OpenAI發表的一篇研究論文:
- Common Crawl(訓練中佔60%的權重)
- WebText2(訓練中佔22%的權重)
- Books1(訓練中佔8%的權重)
- Books2(訓練中佔8%的權重)
- Wikipedia(訓練中佔3%的權重)
Common Crawl包含自2008年以來收集的來自網站的數據,其數據量以PB(數千TB)計算,這與Google的搜尋算法抓取網頁內容的方式相似。WebText2是OpenAI創建的數據集,包含來自Reddit貼文的約4500萬個網頁連結,這些貼文至少獲得了三個讚。
因此,對於ChatGPT這種AI機器人來說,它並不是直接訪問和抓取你的網頁——至少現在還不是。然而,OpenAI宣布將推出一款由ChatGPT主導的網頁瀏覽器,這引發了人們對這種情況可能即將改變的擔憂。
與此同時,網站擁有者應該密切關注其他AI聊天機器人,因為市場上的這種機器人越來越多。Bard是該領域的另一個重要名字,但我們對用於訓練它的數據集知之甚少。顯然,我們知道Google的搜尋機器人不斷地抓取網頁,但這並不一定意味著Bard可以訪問相同的數據。
為什麼有些網站擁有者會感到擔憂?
對於網站擁有者來說,他們最大的擔憂是像ChatGPT、Bard和Bing Chat這樣的AI機器人會貶低他們的內容價值。AI機器人使用現有的內容來生成他們的回應,但同時也減少了用戶訪問原始來源的需求。用戶不再需要訪問網站來獲取資訊,他們可以簡單地讓AI機器人生成他們需要的資訊摘要。
對於AI聊天機器人在搜尋中的應用,網站擁有者最大的擔憂是流量的損失。在Bard的情況下,這個AI機器人在其生成的回應中很少包含引用,告訴用戶它從哪些頁面獲取的資訊。所以,除了用AI回應取代網站訪問之外,Bard幾乎完全消除了源網站接收流量的可能性——即使用戶想要更多的資訊。另一方面,Bing Chat更常見的是連結到資訊來源。
換句話說,當前的生成型AI工具正在使用內容創作者的工作來系統性地取代內容創作者的需要。最終,我們必須問的是,這還留給網站擁有者繼續發布內容的動力嗎?並且,當網站停止發布AI機器人依賴的內容時,AI機器人會發生什麼?
如何阻止AI機器人訪問你的網站?
如果你不希望AI機器人使用你的網頁內容,你可以使用robots.txt文件來阻止它們訪問你的網站。不幸的是,你必須阻止每一個單獨的機器人並按名稱指定它們。
例如,Common Crawl的機器人被稱為CCBot,你可以通過在你的robots.txt文件中添加以下代碼來阻止它:
User-agent: CCBot
Disallow: /
這將阻止Common Crawl在未來抓取你的網站,但它不會刪除已經從之前的抓取中收集的任何數據。
如果你擔心ChatGPT的新插件訪問你的網頁內容,OpenAI已經發布了阻止其機器人的指南。在這種情況下,ChatGPT的機器人被稱為ChatGPT-User,你可以通過在你的robots.txt文件中添加以下代碼來阻止它:
User-agent: ChatGPT-User
Disallow: /
然而,阻止搜尋引擎AI機器人抓取你的內容是另一個完全不同的問題。由於Google對其使用的訓練數據保密,因此無法確定需要阻止哪些機器人,也無法確定它們是否會尊重你的robots.txt文件中的命令(許多爬蟲不會)。
這種方法有多有效?
在你的robots.txt文件中阻止AI機器人是目前可用的最有效方法,但並不特別可靠。
首先,你必須指定要阻止的每一個機器人,但誰能跟蹤市場上每一個AI機器人呢?下一個問題是,你的robots.txt文件中的命令是非強制性的指示。雖然Common Crawl、ChatGPT和許多其他機器人尊重這些命令,但許多機器人不會。
另一個大的限制是,你只能阻止AI機器人進行未來的抓取。你無法刪除之前抓取的數據,也無法向像OpenAI這樣的公司發送請求,要求刪除所有的數據。
你應該阻止AI工具訪問你的網站嗎?
不幸的是,沒有簡單的方法可以阻止所有AI機器人訪問你的網站,並且手動阻止每一個單獨的機器人幾乎是不可能的。即使你跟上了最新的AI機器人,也不能保證他們都會遵守你的robots.txt文件中的命令。
這裡的真正問題是,結果是否值得努力,簡單的答案是(幾乎肯定)不。
阻止AI機器人訪問你的網站也有可能的缺點。最重要的是,你將無法從搜尋引擎的流量中獲益,這可能對你的網站有重大影響。此外,你可能會阻止一些有益的機器人,如網站分析工具或搜尋引擎優化(SEO)工具。
然而,這並不意味著你應該完全無視AI機器人對你網站的影響。相反,你應該密切關注這個問題,並考慮你的選擇。例如,你可能想要阻止某些特定的機器人,或者你可能想要尋找其他方法來保護你的內容。
AI機器人是一個複雜的問題,並且沒有簡單的解決方案。但是,通過了解這些工具是如何工作的,以及你可以採取的步驟,你可以更好地保護你的網站和你的內容。