测试显示 AI Overviews 每 10 个答案就有一个是错误的
好的,我现在需要帮用户总结这篇文章的内容。用户的要求是用中文,控制在100字以内,不需要特定的开头,直接描述文章内容。 首先,我仔细阅读了文章。文章主要讲的是《纽约时报》测试Google的AI概括功能AI Overviews,发现每10个答案中有一个错误。考虑到Google每天的搜索量巨大,这意味着每分钟都有大量错误信息传播。他们和Oumi合作使用SimpleQA评估准确性。测试显示,当模型从Gemini 2.5升级到3时,准确率从85%提升到91%。不过,AI给出的答案有时会与引用来源矛盾。 接下来,我需要将这些信息浓缩到100字以内。重点包括:测试结果、错误率、传播速度、合作伙伴、模型升级后的准确率变化以及引用矛盾的问题。 然后,我组织语言,确保信息全面且简洁。例如:“纽约时报与Oumi合作测试Google AI Overviews准确性达85%-91%,但每分钟传播大量错误信息。” 这样既涵盖了测试结果、合作伙伴和准确率变化,又指出了问题所在。 最后,检查字数是否符合要求,并确保表达清晰准确。 </think> 纽约时报与Oumi合作测试Google AI Overviews准确性达85%-91%,但每分钟传播大量错误信息。 2026-4-8 06:18:2 Author: www.solidot.org(查看原文) 阅读量:4 收藏

纽约时报的测试显示,Google 搜索的 AI 概括功能 AI Overviews 每 10 个答案有一个是错误的,这听起来还不错,但考虑到 Google 服务每天的搜索量,这意味着每分钟就有成千上万的错误信息传播出去。纽约时报和 Oumi 合作利用 AI 工具通过 SimpleQA 评估 AI Overviews 答案的准确性。Oumi 从去年开始执行测试,当时 Google 最好的模型还是 Gemini 2.5,当时 AI Overviews 的准确性是 85%。当模型升级到 Gemini 3 后,AI Overviews 的准确性提高到 91%。AI Overviews 给出答案时会列出引用来源,当它出错时,其答案经常会与引用来源的信息互相矛盾。

https://www.nytimes.com/2026/04/07/technology/google-ai-overviews-accuracy.html


文章来源: https://www.solidot.org/story?sid=83983
如有侵权请联系:admin#unsafe.sh