OpenAI的GPTBot:新一代網路爬蟲技術解析與應用

OpenAI

圖片來源:unsplash

GPTBot是OpenAI的網路爬蟲,可透過特定的使用者代理標記和字串進行識別。其完整的使用者代理字串為:

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

用途

GPTBot使用者代理可能用於改善未來的模型,並過濾需要付費閱讀、收集個人身份資訊(PII)或違反政策的文字。允許GPTBot訪問你的網站可以幫助AI模型變得更精確,提高其一般能力和安全性。

如何禁止GPTBot訪問

要禁止GPTBot訪問你的網站,你可以將GPTBot添加到網站的robots.txt中。同時,你也可以自訂GPTBot的訪問權限,允許其訪問網站的特定部分。

IP出口範圍

OpenAI的爬蟲將從OpenAI網站上記載的IP地址塊進行網站呼叫。目前包括以下地址:

20.15.240.64

20.15.240.80

20.15.240.96

20.15.240.176

20.15.241.0

20.15.242.128

20.15.242.144

20.15.242.192

40.83.2.64

網站管理者的反應

有網站管理者在WebmasterWorld上抱怨GPTBot的活動。該網站管理者表示,他的網站自動為每次擊中提供了403,因為該機器人不在白名單中,也未通過“人類”測試。

結語

GPTBot的推出可能對網站管理者和開發人員產生影響,特別是在控制網站訪問和保護內容方面。OpenAI提供了相關文件,以協助網站擁有者了解如何管理GPTBot的訪問。