对比体验 ChatGPT，聊聊文心一言的优缺点

Matrix 精选

Matrix 是少数派的写作社区，我们主张分享真实的产品体验，有实用价值的经验与思考。我们会不定期挑选 Matrix 最优质的文章，展示来自用户的最真实的体验和观点。

文章代表作者个人观点，少数派仅对标题和排版略作修改。

在昨天文心一言发布后，我第一时间拿到了体验的资格，但第一次使用后却不禁有些失望。他的逻辑能力极度缺乏、创造力也差点意思。不过，今天再次高强度使用后，却又让我对这款产品的想法有了些许改变。

前言

将 2023 年称为 AI 纪元在我看来也没什么不合适的：虽说 ChatGPT 在去年就已推出，但真正在国内大火还是在今年的事情；而在这个月，OpenAI 又接连推出了 GPT-3.5-Turbo 的 API 和 GPT-4 模型，又让一大波基于 OpenAI 的二次开发的工具类软件大火；在今天，微软在发布会上再度宣布将把 ChatGPT 整合进 Microsoft Office 套件中。一时间，AI 仿佛成为了最近最「潮流」的词语。

而如果我们将时间倒回两年之前，就能看到其实百度早在 2021 年就已经入局 AI：文心大模型的第一个版本早在 2019 年就已发布，此后的每一年都会发布一个新版本。不过直到 ChatGPT 在国内大火后，百度才推出了自己面向公众的自然语言处理工具——文心一言。

「文心一言」是什么？

根据百度自己的介绍：

文心一言是百度全新一代知识增强大语言模型，文心大模型家族的新成员，能够与人对话互动，回答问题，协助创作，高效便捷地帮助人们获取信息、知识和灵感。文心一言是知识增强的大语言模型，基于飞桨深度学习平台和文心知识增强大模型，持续从海量数据和大规模知识中融合学习具备知识增强、检索增强和对话增强的技术特色。文心一言有五大能力，文学创作、商业文案创作、数理逻辑推算、中文理解、多模态生成。

要更好的了解文心一言的能力，我们不妨就来试试文心一言「主打」的这五个能力，看看他们的能力分别是怎样的。

实际体验

1. 文学创作能力

在这里我选择了最能考验 AI 想象能力的科幻作品创作，并且提升了一些难度：

🔑 Prompt：请你生成一个科幻故事，以「你好，宇宙。」作为结尾的最后一句。

在这个 Prompt 中，如果想要生成一个满足条件的、有趣的科幻作品，难度不小。而且比较考验 AI 把控情感和主题线索的能力。

来看看文心一言的表现：

可以看出，文心一言生成的内容，与其说是「科幻故事」，倒不如说是第三人称叙事，并且也并没有满足 Prompt 的全部要求。不过对于文章主题（宇宙、太空）等大意能够进行把握，有基本的分析文本的能力。

接下来是 GPT-4 模型的表现：

GPT-4 生成的故事要明显好于文心一言生成的内容，并且准确的理解了 Prompt 的所有要求。文章中也不乏一些有意思的句子，改一改或许真的能写成一篇科幻小说。不过 GPT-4 生成的内容虽然扣题，但「你好，宇宙」与文章内容的联系还是有些勉强。

总的来说，文心一言在文学创作方面，至少是科幻作品创作方面，还远远没有达到基础的门槛，甚至都没有完全实现 Prompt 中的指令。不过文学创作方面本身就比较困难，因此也可以理解。

2. 商业广告能力

在这里我选择了我最熟悉的 Apple 的广告词。Apple 英文广告词一个非常常见的风格是每一句都很押韵，例如 iPad 10 的英文广告词是「Lovable. Drawable. Magical.」，但这一句在国区被翻译为「可圈可点可画心」，丧失了英文广告词的精髓。我们不妨让文心一言和 GPT-4 来试着翻译翻译 iPad 10 的广告词。

文心一言的效果：

又再次出现了老问题：生成的内容并不严格遵循 prompt 的指令。接下来看看 GPT-4 模型的能力：

可见 GPT-4 模型在这种要求的商业广告能力上也显得力不从心，看来商业广告的生成还是有很大难度。

3. 数理逻辑推算

为了验证 GPT-4 和文心一言的数理逻辑，我们问了两个问题。一个是初中难度纯数学问题，另一个是逻辑思维问题。

🔑 Prompt 1：请问一次函数 y=3x+3 与 X 轴的交点坐标是多少？

GPT-4：

看起来初中的题 GPT-4 模型来计算还是小菜一碟。但是当我们将目光放在文心一言上，就会发现他还有很大的提升空间：

至于 GPT-4 的上限，现在已经有很多人测试过，在这里不做过多赘述。

接下来是一道逻辑题：

🔑 Prompt：有一个 3L 的烧杯和一个 5L 的烧杯，如何得到 4L 水？

先看 GPT-4，完美解决，用的是最简单的方法：

可见 GPT-4 还是有一定的的逻辑能力。但接下来文心一言的生成让我有点不敢相信这是 2023 年的语言模型：

这个回答，竟一时让我不知从哪开始反驳。可见文心一言的 AI 模型目前连最基础的数字运算都还不完善。

4. 中文理解

这个在我最初的理解中，应该是文心一言的强势部分。毕竟 GPT-4 中的中文模型比例仅占到 0.2%。在测试他的中文理解能力上，我选取了白话文、古诗文、小说三种中文形式进行测试

1）白话文理解

在白话文的测试中，我就选去情侣之间经常说的一句话🌚：

🔑 Prompt：你要是还不来，就给我等着吧！

在这句话里，「你给我等着吧」有一种略微的威胁、生气以及有些开玩笑的语气成分在。来看看 GPT-4 和文心一言对于这句话的理解能力：

在这个测试中，文心一言比我想象中的，类似于「意思是是在等待另一方」的回复要更加正确一些。但是相比于 GPT-4 模型的更加完善、全面的解释，文心一言显然只体会到了其中略微威胁、生气的情感。

2）古诗文理解

在这一个部分中，我选取了《茅屋为秋风所破歌》的「安得广厦千万间，大辟天下寒士俱欢颜」一句。

🔑 Prompt：「安得广厦千万间，大辟天下寒士俱欢颜」表达了什么样的情感

他们的表现分别是：

对于这种非常经典的内容，两个模型的理解都还不错，尤其是 GPT-4 要比我想象的水平好不少。

3）小说理解

在这个部分中，我选择用《红楼梦》这部经典名作的其中一段来让两个模型练练手：

两个模型都对于红楼梦这部分内容有最基础的理解，但是更深度的思考都很欠缺。仅仅是在概括和使用白话文总结这个段落发生的事情。

5. 多模态生成

多模态生成应该是文心一言相比于 ChatGPT 的优势（我们在这里暂且先不考虑 OpenAI 的 DALL·E 模型）。

在测试中，我使用了常见 Prompt 和毫无逻辑的 Prompt 两个 Prompt 让 AI 生成图像。

对于常见的 Prompt，文心一言生成的内容质量还能有最基本的保证。风格默认是写实和插画混合的风格，但是可以通过 Prompt 来改变风格。可惜在生成过程中，还是犯了文心一言的老毛病：不严格遵循 Prompt 的要求。尤其是下面第二幅图，只画出了「一个人」，其他的要点都没有展现在图片中，这是目前文心一言一个很大的问题。