#人工智能 Reddit CEO 吐槽封锁必应等搜索引擎实在太麻烦,微软、Anthropic 和 Perplexity 都在使用 Reddit 数据训练 AI,但都不愿意付钱。早前 Reddit 已经封禁除谷歌以外的所有搜索引擎,禁止必应等搜索引擎抓取 Reddit 论坛的任何内容防止被拿去训练 AI 模型。查看全文:https://ourl.co/105220
早前知名网络社区 Reddit 已经封禁除谷歌以外的所有搜索引擎,也就是只允许谷歌继续抓取 Reddit 上的内容并将其编入索引,原因很简单:谷歌每年向 Reddit 支付 6,000 万美元获得内容授权,可以抓取这些内容用来训练人工智能。
而其他搜索引擎开发商不愿意支付费用因此自然会被封禁,当时微软必应搜索主管还表示早在 2023 年 9 月必应就为所有网站提供了抓取控件,该控件可以用来控制必应搜索的抓取情况。
不过随后微软必应主管还是透露 Reddit 确实已经屏蔽必应搜索的爬虫和其他数据,这不仅影响必应搜索获取 Reddit 上的内容,也影响其他基于必应搜索的搜索引擎例如 DuckDuckGo 等。
因此现在用户通过必应和 DuckDuckGo 等无法搜索到 Reddit 上的内容,只能切换成谷歌搜索后才能从搜索引擎上找到 Reddit 论坛上更多有用的或者最新帖子、评论。
Reddit 首席执行官史蒂夫霍夫曼日前在接受采访时透露了封禁这些搜索引擎的原因:
微软已经从 Reddit 获取数据并将这些数据用于人工智能模型的训练,同时「在不知情的情况下」将 Reddit 的内容编入必应搜索中。
另外两家人工智能开发商 Anthropic (主要产品是 Claude) 和 Perplexity (主要产品是同名 AI 搜索引擎) 也通过 Reddit 上的数据训练他们的系统。
微软、Anthropic 和 Perplexity 都表现得好像互联网上的所有内容都可以免费供他们使用,这才是他们真正的立场。
霍夫曼还表示封锁这些公司实在太麻烦了,他认为搜索引擎从网站获取内容并不提供任何补偿的传统情况正在发生改变,即抓取内容以换取流量的价值正在变得模糊。
传统模式中搜索引擎索引网站内容并在用户搜索时呈现,搜索引擎可以为网站带来流量并转化为收益,而现在搜索引擎则是抓取数据用来训练模型,所以霍夫曼觉得这已经不是等价交换了。
另外还有消息称微软等公司都已经明确拒绝与 Reddit 进行内容授权谈判,即便搜索引擎已经被 Reddit 封禁他们也不会向该论坛支付任何费用换取解禁或购买内容数据。