互联网档案馆时光机器(Wayback Machine)存档的内容被媒体广泛使用,然而包括 NYT 和 USA Today 等美国几十家主流新闻网站最近都屏蔽了互联网档案馆的存档爬虫 ia_archiverbot,社交新闻平台 Reddit 也屏蔽了该爬虫,《卫报》没有屏蔽但进行了限制。《卫报》解释称这是为了防止 AI 公司滥用存档目的的内容抓取。NYT 给出的理由类似,称 AI 公司正利用互联网档案馆存档的纽约时报内容训练其模型。AI 公司大量收集互联网内容,而时光机器拥有数十年历史的资料库,被认为是一个极具吸引力的数据源。互联网档案馆运营了 30 年,存档了逾万亿网页。主流网站对其的限制可能削弱其保存工作。互联网档案馆正与 NYT 等媒体进行对话,希望它们最终会改变其做法。
https://web.archive.org/web/20260413110649/https://www.wired.com/story/the-internets-most-powerful-archiving-tool-is-in-mortal-peril/