美国主流媒体封禁互联网档案馆的存档机器人
嗯,用户让我总结一下这篇文章的内容,控制在100字以内,而且不需要用“文章内容总结”之类的开头。我得先仔细读一遍文章,抓住主要信息。 文章讲的是互联网档案馆的时光机器被主流媒体屏蔽了,比如NYT和USA Today这些大网站都不让他们的爬虫访问。Reddit也屏蔽了,虽然《卫报》没有屏蔽,但限制了访问。这些媒体给出的理由是担心AI公司滥用存档内容来训练模型。而互联网档案馆已经运营了30年,存档了超过万亿的网页,是个非常大的数据源。现在主流网站的限制可能会影响他们的存档工作,他们正在和媒体沟通,希望能改变现状。 好的,现在要压缩到100字以内。我需要涵盖:哪些网站屏蔽了爬虫,原因是什么(AI滥用),互联网档案馆的重要性以及他们正在努力解决这个问题。 可能的结构:主流媒体如NYT等屏蔽了时光机器的爬虫,担心AI滥用存档内容训练模型。互联网档案馆拥有大量历史资料库,但面临限制可能影响保存工作,正在与媒体协商。 检查一下字数:大概在100字左右。确保没有使用“文章内容总结”之类的开头。 </think> 主流媒体如《纽约时报》等屏蔽了互联网档案馆的爬虫工具ia_archiverbot,担心AI公司利用其存档内容训练模型。社交平台Reddit也采取了类似措施,《卫报》则有限制使用。互联网档案馆拥有数十年历史的海量网页存档,但主流网站的限制可能削弱其保存工作。该机构正与媒体协商以寻求解决方案。 2026-4-17 06:24:42 Author: www.solidot.org(查看原文) 阅读量:6 收藏

互联网档案馆时光机器(Wayback Machine)存档的内容被媒体广泛使用,然而包括 NYT 和 USA Today 等美国几十家主流新闻网站最近都屏蔽了互联网档案馆的存档爬虫 ia_archiverbot,社交新闻平台 Reddit 也屏蔽了该爬虫,《卫报》没有屏蔽但进行了限制。《卫报》解释称这是为了防止 AI 公司滥用存档目的的内容抓取。NYT 给出的理由类似,称 AI 公司正利用互联网档案馆存档的纽约时报内容训练其模型。AI 公司大量收集互联网内容,而时光机器拥有数十年历史的资料库,被认为是一个极具吸引力的数据源。互联网档案馆运营了 30 年,存档了逾万亿网页。主流网站对其的限制可能削弱其保存工作。互联网档案馆正与 NYT 等媒体进行对话,希望它们最终会改变其做法。

https://web.archive.org/web/20260413110649/https://www.wired.com/story/the-internets-most-powerful-archiving-tool-is-in-mortal-peril/


文章来源: https://www.solidot.org/story?sid=84070
如有侵权请联系:admin#unsafe.sh