OpenAI允许阻止其网络爬虫

OpenAI 现允许网站阻止其网络爬虫抓取数据,避免数据被用于训练 AI 模型

OpenAI 在其博客文章中表示,网站运营者可以通过在其网站的 Robots.txt 文件中禁止 GPTBot 的访问,或者通过屏蔽其 IP 地址,来阻止 GPTBot 从其网站上抓取数据。

GPTBot是OpenAI的网络爬虫,可以通过以下用户代理和字符串来识别。
User agent token: GPTBot
Full user-agent string:
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

禁止 GPTBot
User-agent: GPTBot
Disallow: /

自定义 GPTBot 访问
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

IP 出口范围
40.83.2.64/28

—— OpenAI

更多文章

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注