如何禁止OPENAI的爬虫(GPTBot)抓爬网站附该爬虫的IP地址网段

OPENAI 利用自己的网络爬虫在互联网上抓取信息，这些信息经过分类整理后，用来继续训练GPT系列模型。

当然可能会有网站和出版商觉得OPENAI这是在白嫖自己，所以OPENAI公布爬虫和 IP 地址网段供网站屏蔽。

这个爬虫遵守网站提供的robots.txt协议 , 网站和出版商不想被OPENAI抓取内容即可按照提示进行屏蔽操作。

OPENAI提供的说明：

OPENAI使用GPTBot用户代理抓取的网页可能用于改进未来的模型，同时会过滤掉某些付费才能访问的内容。

另外：基于OPENAI的政策，如果网页中包含个人身份信息或其他违规内容，则GPTBot也会删除这部分网页。

允许GPTBot访问您的站点可帮助 AI 模型变得更加准确并提高其总体功能和安全性，但也允许网站屏蔽抓取。

以下是爬虫信息和屏蔽方法：

爬虫名称：GPTBot 该爬虫使用的网段为40.83.2.64/28 你可以使用nslookup命令来判断GPTBot爬虫真假。

# 以下是爬虫的完整UA信息
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

如果想禁止GPTBot抓爬你的内容，你可以在robots.txt中写入指令，爬虫检测到该指令后会按照指令要求操作。

# 完全禁止GPTBot抓取内容
User-agent: GPTBot
Disallow: /

# 完全允许GPTBot抓取内容(不禁止即默认允许、所以下面的非必须)
User-agent: GPTBot
Allow: /

# 完全允许的另一种作用：当禁止其他所有爬虫但允许 GPTBot 时则必须声明以下内容
# 禁止所有爬虫但仅允许 GPTBot
User-agent: *
Disallow: /
User-agent: GPTBot
Allow: /

# 允许GPTBot抓取特定内容
User-agent: GPTBot
Disallow: /
Allow: /路径1/...
Allow: /路径2/...

查看GPTBot的抓爬记录：

OPENAI毕竟不是传统的搜索引擎提供商，所以并没有站长平台 , OPENAI不提供爬虫的抓爬频次等相关设置。

网站管理员可以搜索自己的网站日志检查GPTBot的抓爬记录，打开网站日志后搜索GPTBot关键词即可查看。