大量新闻网站屏蔽互联网档案馆网站时光机保存快照 原因是被AI抓取训练模型
嗯,用户让我用中文帮他总结一下这篇文章的内容,控制在一百个字以内。而且不需要以“文章内容总结”或者“这篇文章”这样的开头,直接写描述就行。好的,首先我得仔细阅读文章,抓住主要信息。 文章讲的是美国多家新闻媒体开始屏蔽互联网档案馆的“网站时光机”抓取功能。原因是AI公司可能通过快照非法获取内容用于模型训练,损害了新闻媒体的利益。比如《今日美国》和《纽约时报》等都禁止了互联网档案馆的爬虫。另外,像Reddit这样的论坛也禁止了抓取,并与谷歌和OpenAI签署了授权协议。 然后,文章提到互联网档案馆和用户被误杀,因为屏蔽快照不仅影响AI公司,也影响了普通用户的访问。比如查看网页变动或被删除后的内容就无法实现了。最后提到未来可能会有更多媒体屏蔽互联网档案馆,导致开放互联网格局改变。 现在我要把这些信息浓缩到100字以内。重点包括:新闻媒体屏蔽网站时光机、原因是为了防止AI公司非法获取内容、影响互联网档案馆和用户、以及可能改变互联网格局。 所以总结应该是:美国多家新闻媒体屏蔽互联网档案馆的“网站时光机”,以防止AI公司非法获取内容用于训练模型,此举影响用户存档和访问功能,并可能改变开放互联网格局。 </think> 美国多家新闻媒体屏蔽互联网档案馆的"网站时光机"抓取功能,以防止AI公司非法获取内容用于模型训练,此举影响用户存档和访问功能,并可能改变开放互联网格局。 2026-4-14 03:0:44 Author: www.landiannews.com(查看原文) 阅读量:10 收藏

Ad

Ad

#行业资讯 诸多新闻媒体网站开始屏蔽互联网档案馆网站时光机抓取并保存内容,原因是 AI 公司可能通过快照非法获取新闻网站的内容。Wired 发布的消息称,目前仅在美国就有超过 20 家主流新闻媒体屏蔽网站时光机,根本原因就是 AI 公司通过快照非法获取内容并用于模型训练等,这直接损害了新闻媒体的合法权益。查看详情:https://ourl.co/112638

据 WIRED 发布的消息,目前在美国已经有诸多网站开始屏蔽互联网档案馆旗下的网站时光机 (Wayback Machine) 快照功能,即不再允许网站时光机抓取这些新闻网站的页面并将其存档,原因则是 AI 爬虫抓取数据拿来训练模型。

目前人工智能热潮已经让大量网站的流量出现大幅度下滑,而 AI 公司则是想方设法绕过限制非法抓取网站内容,最终将抓取到的数据用于 AI 对话机器人或者用于训练后续的人工智能模型。

对于网站来说这种行为存在未经许可的抓取和使用内容,以及会造成网站流量下滑,所以不少网站都已经在 robots.txt 里明确禁止来自人工智能的搜索爬虫抓取网站数据。

大量新闻网站屏蔽互联网档案馆网站时光机保存快照 原因是被AI抓取训练模型

互联网档案馆和用户都被误杀:

基于保护自身合法权益和利益,包括今日美国、纽约时报等多家知名新闻媒体已经屏蔽互联网档案馆的网站时光机,这些新闻网站将 ia_archiverbot 爬虫排除在外,这是互联网档案馆使用的爬虫。

除了新闻媒体外,像是 Reddit 这种网络论坛也同样禁止互联网档案馆抓取内容,Reddit 已经与谷歌和 OpenAI 等签署授权协议,允许这些公司抓取数据并用于训练人工智能模型,至少对 Reddit 来说,如果允许互联网档案馆抓取数据,AI 公司再抓取互联网档案馆的数据,那就可能导致自己没法继续卖数据。

问题在于很多内容并非永久存在,网站时光机的意义在于可以查看网页内容的变动,以及在网页被删除时继续通过快照浏览内容,这对不少用户来说是非常重要的。

因此在 AI 热潮下,新闻媒体屏蔽互联网档案馆抓取数据实际上也是对互联网档案馆和用户的误杀:为了屏蔽 AI 公司进而屏蔽正常使用相关功能的用户。

今日美国称这不是针对互联网档案馆:

今日美国公司发言人表示,屏蔽互联网档案馆抓取内容也并非专门针对互联网档案馆,这是该公司广泛屏蔽所有网络爬虫的正常计划。

卫报商业事务和授权总监则表示,该公司正在与互联网档案馆沟通,就人工智能公司可能滥用为保存目的而抓取内容问题进行讨论 (但还没有明确结果)。

从这种情况来看未来可能会有越来越多的媒体屏蔽互联网档案馆,避免自己的内容被 AI 公司通过互联网档案馆抓取,说到底根源还是这些 AI 公司。

这些 AI 公司未经授权抓取内容、高频次抓取内容等行为屡见不鲜,最终这可能会改变开放互联网的格局,让更多网站从公开访问转向注册登录访问甚至付费访问。


文章来源: https://www.landiannews.com/archives/112638.html
如有侵权请联系:admin#unsafe.sh