在 OPENAI 公布 GPTBot 爬虫的相关信息后,今天谷歌宣布在 GoogleBot 基础上推出 Google-Extended 爬虫扩展代理,允许网站管理员使用 robots.txt 文件屏蔽谷歌抓取网站内容用来训练 AI 模型。
谷歌没有退出单独的 AI 爬虫,AI 爬虫仍然使用 GoogleBot,但网站可以声明是否拒绝其抓取内容后训练 AI,如果要声明那就需要使用 Google-Extende代理令牌。
谷歌称,Google-Extended 是一种新控件,网络发不上可以使用它管理其网站是否有助于改进 Bard 和 Vertex AI 等生成式 AI 模型,在博客中谷歌多次提到网站可以帮助谷歌改进 AI,比如网站管理员可以选择是否帮助这些 AI 模型随着时间推移变得更准确和强大。
不过最终还是网站管理员自己决定是否允许谷歌拿内容去训练 AI,如果不愿意的话,可以在 robots.txt 中添加以下内容:
User-Agent: Google-Extended Disallow:/
需要提醒的是谷歌对于 robots.txt 的处理遵循了多种原则,而且 Google Bot 本身有一大堆用于不同用途的 bot,例如常规的 GoogleBot、GoogleBot-News、GoogleBot-Image 等,这些 bot 是可以在 robots.txt 里混用的。
例如要允许谷歌搜索抓取网站内容、不允许谷歌抓取内容用于训练 AI,那么 robots.txt 可以真么写:
User-Agent: Googlebot Allow: / User-Agent: Google-Extended Disallow: /
版权声明:感谢您的阅读,除非文中已注明来源网站名称或链接,否则均为蓝点网原创内容。转载时请务必注明:来源于蓝点网、标注作者及本文完整链接,谢谢理解。