谷歌宣布扩展Gemini API中的文件搜索功能为开发者带来更完整的多模态RAG能力

#人工智能谷歌宣布扩展 Gemini API 中的文件搜索功能，为开发者带来更完整的多模态检索增强生成 (RAG) 能力。此次更新的核心包括：支持图像与文本混合检索、支持自定义元数据过滤、新增页面级引用支持等，这可以显著提升 AI 系统在企业知识库、文档问答以及智能体等场景中的可访问性和准确性。查看详情：https://ourl.co/112882

谷歌日前宣布扩展 Google Gemini API 中的文件搜索功能，为开发者带来更加完整的多模态检索增强生成 (RAG) 能力，此次更新的核心包括：支持图像与文本混合检索、支持自定义元数据过滤、新增页面级引用支持，提升 AI 系统在企业知识库、文档问答以及智能体等场景中的可访问性和准确性。

根据谷歌官方博客介绍，新版文件搜索功能已经不再局限于传统文本向量搜索，而是基于 Gemini Embedding 2 构建的统一多模态嵌入能力，可以同时理解图片、PDF、文档中的视觉内容与文字内容，开发者无需自行搭建复杂的向量数据库、Embedding 管线或文档切分系统，就可以直接在 Gemini API 中完成完整的 RAG 工作流。

在传统的 RAG 系统里，图片、图表、截图、设计图等视觉内容往往难以有效被索引，这导致 AI 回答缺乏上下文理解，而 Gemini API 新增的多模态文件搜索能力能够原生识别图片中的内容，与文本共同建立检索索引。例如企业可以上传包含产品图片、数据图表或技术架构图的 PDF 文件，AI 在回答时能够同时理解其中的视觉信息与文本描述。

谷歌称这项能力特别适合构建企业级知识助手、客服机器人、文档分析系统以及 AI 智能体，开发者可以让模型基于内部文档进行推理，而不需要进行额外维护独立的图像检索系统，对于拥有大量图文混排资料的企业来说，这意味着更低的部署复杂度和更高的检索准确率。

还有个新增功能是自定义元数据过滤，开发者可以为上传的文件增加标签、分类、时间和部门等元数据，以便在后续进行检索时按照元数据进行过滤提升准确率和效率，这也更加适合大型知识库管理，减少无关内容进入上下文窗口。

另一项重要功能是页面级引用，Gemini AI 在生成答案时可以明确标注信息来自哪一页文档，而不仅仅是模糊地引用整个文件，这可以让用户在获得回答后点击查看具体的文档页面判断内容准确性以及阅读完整文档获得更多信息等。

目前新版 Google Gemini API 文件搜索功能已经面向所有开发者开放，感兴趣的开发者可以通过 Google AI Studio 以及 Google Cloud 等平台开通 Gemini API 进行体验。

开发者指南：https://dev.to/googleai/multimodal-rag-with-the-gemini-api-file-search-tool-a-developer-guide-5878