谷歌推出新人工智能模型双子座(Gemini)1.0版性能拉满甚至超越GPT-4

早前有消息称谷歌下一代人工智能模型双子座发布时间被延迟到明年年初，原因是在非英语上的表现不太好，但现在谷歌还是推出了双子座 1.0 版，而且可能确实非英语水平不太好，因为初期仅支持英语。

按照谷歌的说法双子座人工智能模型在性能上拉满，在一大堆基准测试中名列前茅，而且最重要的是双子座同时支持服务器、PC 和智能手机，也就是在智能手机上也可以调用本地硬件进行计算。

当然受限于移动设备的算力，双子座有几种版本，其中面向手机的是 Gemini Nano 版，其性能与 Ultra 版还是有差距的。

双子座 1.0 版提供三种模型：

Gemini Ultra 版：最大、能力最好的模型，适用于高度复杂的任务

Gemini Pro 版：可以进行各类任务扩展的最佳模型

Gemini Nano 版：在设备端运行的最高效的模型

双子座的一些亮点介绍：

性能方面：

从自然图像、音频和视频理解到数学推理，Gemini Ultra 版在各类学术基准测试中名列前茅，甚至超过了 OPENAI GPT-4。

例如在 MMLU (大规模多任务语言理解) 基准测试中超越了人类专家的模型，该模型结合了数学、物理、历史、法律、医学和伦理学等 57 个学科来测试知识和解决问题的能力。

在图像基准测试中在无需借助 OCR 光学识别系统的基础上，也由于其他典型模型。

有关此方面有兴趣的用户可以阅读谷歌发布的学术报告：https://goo.gle/GeminiPaper

下一代性能：

目前多模态模型主要是将不同模态的模型拼接到一起，谷歌认为这些模型有时候擅长处理某些任务例如描述图像，但难以处理更概念性和复杂的推理。

双子座模型则是原生多模态，从一开始就针对不同模式进行了训练，然后再使用额外的多模态数据进行微调，从而有效提高其性能。

这有助于双子座模型从头开始无缝理解和推理各种输入，其性能远远优于现有的多模态模型，并且功能几乎在每个领域都是最先进的。

复杂的推理：

双子座 1.0 版复杂的多模态推理功能可以帮助理解更复杂的书面和数学信息，这使得它在发现大量数据中难以辨别的知识方面具有独特的能力。

双子座可以从数十万份文档中阅读、过滤、理解和提取信息，这有助于从科学到金融等许多领域实现以数字速度实现新的突破。

理解文本、图像和音频等：

双子座 1.0 版经过训练可以同时识别和理解文本、图像和音频等，因此它可以更好地理解某些微妙的信息，并可以回答与复杂主题相关的问题，这使得双子座特别擅长解释数学和物理等复杂学科的推理。

高级编程功能：

双子座 1.0 版还可以理解、解释和生成流行编程语言例如 Python、Java、C++ 和 Go 等的高质量代码，它的跨语言工作和推理复杂信息的能力使其成为世界领先的编程基础模型之一。

Gemini Ultra 版在许多编程基准测试中表现出色，还可以用作更高级编程系统的引擎。

谷歌还基于 Gemini Ultra 创建了 AlphaCode 2，该模型擅长解决超出编程范围、涉及复杂数学和理论计算机科学的竞争性编程问题。

首发版本为 Gemini Pro 版：

从今天开始 Google Bard 将使用 Gemini Pro 的微调版本来进行更高级的推理、计划和理解等，它将在 170 多个国家或地区提供英语版本，谷歌计划在不久后扩展到不同模型、支持更多语言。

Pixel 8 Pro 引入 Gemini Nano 版：

谷歌还将双子座引入 Pixel 8 Pro，在录音机等应用中提供总结。后续 WhatsApp、Gboard 等也会集成 Gemini Nano。

接下来几个月里谷歌还会将双子座集成到更多产品里，包括搜索、广告、Chrome 和 Duet AI 等。