美国主流媒体封禁互联网档案馆的存档机器人

美国主流媒体封禁互联网档案馆的存档机器人
嗯，用户让我总结一下这篇文章的内容，控制在100字以内，而且不需要用“文章内容总结”之类的开头。我得先仔细读一遍文章，抓住主要信息。文章讲的是互联网档案馆的时光机器被主流媒体屏蔽了，比如NYT和USA Today这些大网站都不让他们的爬虫访问。Reddit也屏蔽了，虽然《卫报》没有屏蔽，但限制了访问。这些媒体给出的理由是担心AI公司滥用存档内容来训练模型。而互联网档案馆已经运营了30年，存档了超过万亿的网页，是个非常大的数据源。现在主流网站的限制可能会影响他们的存档工作，他们正在和媒体沟通，希望能改变现状。好的，现在要压缩到100字以内。我需要涵盖：哪些网站屏蔽了爬虫，原因是什么（AI滥用），互联网档案馆的重要性以及他们正在努力解决这个问题。可能的结构：主流媒体如NYT等屏蔽了时光机器的爬虫，担心AI滥用存档内容训练模型。互联网档案馆拥有大量历史资料库，但面临限制可能影响保存工作，正在与媒体协商。检查一下字数：大概在100字左右。确保没有使用“文章内容总结”之类的开头。 </think> 主流媒体如《纽约时报》等屏蔽了互联网档案馆的爬虫工具ia_archiverbot，担心AI公司利用其存档内容训练模型。社交平台Reddit也采取了类似措施，《卫报》则有限制使用。互联网档案馆拥有数十年历史的海量网页存档，但主流网站的限制可能削弱其保存工作。该机构正与媒体协商以寻求解决方案。 2026-4-17 06:24:42 Author: www.solidot.org(查看原文) 阅读量:20 收藏

互联网档案馆时光机器（Wayback Machine)存档的内容被媒体广泛使用，然而包括 NYT 和 USA Today 等美国几十家主流新闻网站最近都屏蔽了互联网档案馆的存档爬虫 ia_archiverbot，社交新闻平台 Reddit 也屏蔽了该爬虫，《卫报》没有屏蔽但进行了限制。《卫报》解释称这是为了防止 AI 公司滥用存档目的的内容抓取。NYT 给出的理由类似，称 AI 公司正利用互联网档案馆存档的纽约时报内容训练其模型。AI 公司大量收集互联网内容，而时光机器拥有数十年历史的资料库，被认为是一个极具吸引力的数据源。互联网档案馆运营了 30 年，存档了逾万亿网页。主流网站对其的限制可能削弱其保存工作。互联网档案馆正与 NYT 等媒体进行对话，希望它们最终会改变其做法。

https://web.archive.org/web/20260413110649/https://www.wired.com/story/the-internets-most-powerful-archiving-tool-is-in-mortal-peril/

文章来源: https://www.solidot.org/story?sid=84070
如有侵权请联系:admin#unsafe.sh