纽约时报的测试显示,Google 搜索的 AI 概括功能 AI Overviews 每 10 个答案有一个是错误的,这听起来还不错,但考虑到 Google 服务每天的搜索量,这意味着每分钟就有成千上万的错误信息传播出去。纽约时报和 Oumi 合作利用 AI 工具通过 SimpleQA 评估 AI Overviews 答案的准确性。Oumi 从去年开始执行测试,当时 Google 最好的模型还是 Gemini 2.5,当时 AI Overviews 的准确性是 85%。当模型升级到 Gemini 3 后,AI Overviews 的准确性提高到 91%。AI Overviews 给出答案时会列出引用来源,当它出错时,其答案经常会与引用来源的信息互相矛盾。
https://www.nytimes.com/2026/04/07/technology/google-ai-overviews-accuracy.html