测试显示 AI Overviews 每 10 个答案就有一个是错误的

测试显示 AI Overviews 每 10 个答案就有一个是错误的
好的，我现在需要帮用户总结这篇文章的内容。用户的要求是用中文，控制在100字以内，不需要特定的开头，直接描述文章内容。首先，我仔细阅读了文章。文章主要讲的是《纽约时报》测试Google的AI概括功能AI Overviews，发现每10个答案中有一个错误。考虑到Google每天的搜索量巨大，这意味着每分钟都有大量错误信息传播。他们和Oumi合作使用SimpleQA评估准确性。测试显示，当模型从Gemini 2.5升级到3时，准确率从85%提升到91%。不过，AI给出的答案有时会与引用来源矛盾。接下来，我需要将这些信息浓缩到100字以内。重点包括：测试结果、错误率、传播速度、合作伙伴、模型升级后的准确率变化以及引用矛盾的问题。然后，我组织语言，确保信息全面且简洁。例如：“纽约时报与Oumi合作测试Google AI Overviews准确性达85%-91%，但每分钟传播大量错误信息。” 这样既涵盖了测试结果、合作伙伴和准确率变化，又指出了问题所在。最后，检查字数是否符合要求，并确保表达清晰准确。 </think> 纽约时报与Oumi合作测试Google AI Overviews准确性达85%-91%，但每分钟传播大量错误信息。 2026-4-8 06:18:2 Author: www.solidot.org(查看原文) 阅读量:8 收藏

纽约时报的测试显示，Google 搜索的 AI 概括功能 AI Overviews 每 10 个答案有一个是错误的，这听起来还不错，但考虑到 Google 服务每天的搜索量，这意味着每分钟就有成千上万的错误信息传播出去。纽约时报和 Oumi 合作利用 AI 工具通过 SimpleQA 评估 AI Overviews 答案的准确性。Oumi 从去年开始执行测试，当时 Google 最好的模型还是 Gemini 2.5，当时 AI Overviews 的准确性是 85%。当模型升级到 Gemini 3 后，AI Overviews 的准确性提高到 91%。AI Overviews 给出答案时会列出引用来源，当它出错时，其答案经常会与引用来源的信息互相矛盾。

https://www.nytimes.com/2026/04/07/technology/google-ai-overviews-accuracy.html

文章来源: https://www.solidot.org/story?sid=83983
如有侵权请联系:admin#unsafe.sh