圖片來源:unsplash
GPTBot是OpenAI的網路爬蟲,可透過特定的使用者代理標記和字串進行識別。其完整的使用者代理字串為:
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)
用途
GPTBot使用者代理可能用於改善未來的模型,並過濾需要付費閱讀、收集個人身份資訊(PII)或違反政策的文字。允許GPTBot訪問你的網站可以幫助AI模型變得更精確,提高其一般能力和安全性。
如何禁止GPTBot訪問
要禁止GPTBot訪問你的網站,你可以將GPTBot添加到網站的robots.txt中。同時,你也可以自訂GPTBot的訪問權限,允許其訪問網站的特定部分。
IP出口範圍
OpenAI的爬蟲將從OpenAI網站上記載的IP地址塊進行網站呼叫。目前包括以下地址:
20.15.240.64
20.15.240.80
20.15.240.96
20.15.240.176
20.15.241.0
20.15.242.128
20.15.242.144
20.15.242.192
40.83.2.64
網站管理者的反應
有網站管理者在WebmasterWorld上抱怨GPTBot的活動。該網站管理者表示,他的網站自動為每次擊中提供了403,因為該機器人不在白名單中,也未通過“人類”測試。
結語
GPTBot的推出可能對網站管理者和開發人員產生影響,特別是在控制網站訪問和保護內容方面。OpenAI提供了相關文件,以協助網站擁有者了解如何管理GPTBot的訪問。