张鹏对话生数科技：视频模型迎来「首次涌现」，视觉将更有可能通往通用智能

张鹏对话生数科技：视频模型迎来「首次涌现」，视觉将更有可能通往通用智能
2024-12-2 18:31:0 Author: mp.weixin.qq.com(查看原文) 阅读量:0 收藏

创业公司最重要的是目标的创新与坚持。

对话｜张鹏

编辑｜Nico

2024 年接近尾声，这一年多模态领域最大的进展，是从年初就开始的视频生成技术的突破。

Sora 基于 DiT（Diffusion Transformer）架构，把长视频生成的效果提高到了前所未有的水平，也掀起了全球范围内的视频生成热潮。

追随者众多，全球第一个交出成果的是国内大模型团队生数科技的 Vidu。随后数月，生数不断在一致性等模型性能上取得突破，近期发布的 Vidu 1.5 在全球率先突破了视频模型的多主体一致性难题，证实视频模型也有 context window，泛化能力得到验证。它通向「通用」。

事实上，Vidu 背后的团队，比 OpenAI 更早实践了 Diffusion Transformer 架构。2022 年 9 月，还在清华大学朱军教授实验室的鲍凡发表了 U-ViT 架构论文，12 月伯克利团队发布了路线同源的 DiT 架构，这一年的 CVPR，大会接收了清华大学的 U-ViT，反而拒收了伯克利的 DiT。

后来团队创业，成立生数。在一个个技术热点的拍打下，生数被市场认知为一家视频生成领域的优秀公司，但不止如此。从创业之初，生数团队就笃定原生的多模态模型能够像语言模型一样通向智能，甚至，多模态比语言模型拥有更高的智能上限。

在不断的实践和尝试后，生数确定，视频是实现通用多模态模型最重要的模态能力。视频可以成为多模态的统一表示，意味着所有模态都可以用视频的形式来呈现，在模型黑盒中同时作为输入与输出——就像 LLM 把语言文字作为统一输入与输出。

这就像是，在发现了大模型的「左脑」语言后，我们又确认了视觉模型作为「右脑」的通向智能的合理性。

我们找到生数科技的 CTO 鲍凡，也是 U-ViT 论文的一作，聊了聊 Vidu 最新版本取得的成果，以及作为全球范围内最早实践 Diffusion Transformer 的专家，他对于视频生成领域的观察和理解。

以下是极客公园创始人张鹏与生数科技联创、CTO 鲍凡的对话，经编辑整理。

Vidu 1.5，视频模型的上下文突破

张鹏：欢迎鲍凡，在进入具体话题之前，先给我们介绍一下你的经历，你是怎么投身这条大模型路线的？

鲍凡：我是本科时期，很早加入了朱军老师的实验室，一直到博士。一开始在做理论性的工作，博一的时候，还花了一年时间学纯数学的东西。比较巧，最早做了能量模型，可以说是扩散模型的前身，一路下来，算是比较自然的选择。

2020 年开始，我们观察到扩散模型在图像生成质量上的突破，立刻决定 all in，一直从事相关工作，包括加速、可扩展性以及通用性等等，做了几个比较有影响力的工作，Analytic-DPM、UniDiffuser 和 U-ViT 等。然后生数创业，相当于是研究工作到工业界的延续。我在生数负责整体技术，以及围绕技术的组织架构、流程建设等等。

张鹏：最近 Vidu 1.5 版本发布了，取得了一些令人振奋的进展。先介绍一下这个版本中有哪些突破？

鲍凡：如果用一个词来概括这次的突破，那就是「上下文能力」的出现。

具体来说，模型能够灵活理解多张图片作为输入，可以将多个主体、多个特征之间的关系作为上下文进行记忆和关联。基于这些输入前提，模型能够个性化调整自己的表现，从而产生相应的视频生成能力。这是非常重要的一个突破点。

张鹏：体现到视频模型里就是我们说的「一致性」？

鲍凡：没错，一致性是上下文能力的一个重要体现。

张鹏：就是一个人物形象在整个生成过程中保持连贯，不会出现脸部变形之类的问题？

鲍凡：这其实只是最基础的能力。最初是实现单个角色的一致性，但我们逐步扩展了这个概念。现在，我们可以同时处理多个主体，让模型理解并维持多个角色之间的交互关系。更进一步，我们实现了场景的一致性，可以预先设定场景，让模型在特定场景下生成视频。

随着上下文能力的增强，我们甚至可以支持音频模态，不仅能记录人物的外貌，还能保持声音特征的一致性，这些都可以自由指定。

张鹏：所以不只是视觉，声音等多个维度的一致性都可以保持下去。

鲍凡：是的，多主体一致性的范围包括了声音、场景等多个方面。

张鹏：从最初维持单个人脸的一致性，到现在能够处理多主体，并在长时间内保持一致，这在技术上最大的挑战是什么？这种技术路线的变化背后有什么深层含义？

鲍凡：技术范式有一个非常大的升级。

可以类比语言模型里从 Bert 到 GPT 模式的演变。之前做单个主体的一致性常用的方式是，先预训练一个文生视频模型，然后用 LoRA 的方式把它微调成关于某个（特定）人脸的模型。这非常类似之前 Bert 的范式，预训练，然后在特定问题上做微调。

但现在我们已经转变到一个更通用的模式，类似 GPT，核心是通过上下文的能力去维持多主体一致性。我们不再依赖预训练模型加微调的方式，而是将所有问题都转化为视觉输入、视觉输出的形式，用统一的模型处理。视觉输入作为上下文，可以接收各种内容，从而影响视频生成的行为。这是从特定任务微调转向基于上下文的通用学习方式的重要转变。

我们内部也把它叫做多模态提示词，从纯文本的提示词，变成文本、视觉、音频，这些模态都可以作为提示词。

张鹏：画面的任何一个点都可以理解为一个主体，而任何一种它的组合都是成为了一种主体。理论上，如果多主体扩展到极致，是不是就能实现某种特定风格的持续生成？比如王家卫风格的视频？

鲍凡：没错。

张鹏：要实现这样的效果，你们具体做了哪些工作？这个结果是在你们预期之中的吗？

鲍凡：其实这种泛化性的出现在我们的预料之中，但具体它会泛化出什么（任务）能力，我们一开始确实无法预测。所以最终看到这个结果时，还是比较惊喜的。

具体做了哪些事情，我认为这是一个技术认知上可以规划的过程。因为我们在语言模型上已经积累了一些经验，可以作为参考。

比如，在任务表示或数据表示方面，我们需要尽可能将各种不同的问题进行统一的表示。举个例子，对于多主体或者单主体的各种问题，都可以通过一种视频输入、视频输出的形式来表示。这就类似于语言模型会将各种问题统一表示为文本输入加文本输出的形式。

同时，在架构层面，也不能针对每个问题单独设计一个专门的架构，因为这样会与通用性背道而驰。我们试图把基于单任务的 Diffusion Transformer 架构，发展为一个通用的架构。

我们的思路是使用一个架构来处理所有的输入和输出。这样，架构本身便能够与具体问题解耦开。凡是可以表示为视频输入和视频输出的问题，都可以用这个架构来处理。

总之，我们在数据和架构两方面实现了统一，通过这两点，最终达成了模型的上下文能力，使其具备更强的通用性。

张鹏：通过一套完整的架构和流程设置，来对齐到 context window 的目标。这并不是一个非常「直接」提升生成效果的方式，你们设计这套方法的思路是什么？

鲍凡：这与我们一开始设定的目标有关。

我们的目标是打造一个通用的多模态模型。考虑了各种各样的设计。在视频模型的基础上处理一些问题时，常见的方法是采用插件式，在基模上加入一个新的插件，用于处理特定的输入。但这种方案很快就被我们否定了。因为它不够通用。

一个插件只能处理一种特定的输入，解决某一类特定的问题，跟通用性背道而驰。最终，我们还是设计出了一套自己的方案。因为当时发现市面上没有相关的工作可以参考。所以我们基于自身对技术的认知，设计了一套能够支持上下文能力的通用架构。

张鹏：但这样复杂的 context，推理的性能怎么样？

鲍凡： 我们的推理速度并没有受到任何影响，效率仍然保持在全球领先。

这类上下文模型确实存在一个特点：随着上下文窗口长度增加，也就是模型输入内容越多，推理时间成本会相应提高。这类似于大语言模型，输入内容越多，生成每个 token 所需的时间也会相应增加。

但另一方面，我们在扩散模型理论加速方面有非常深厚的积累。虽然多了一些上下文窗口，但我们通过对扩散模型采样算法的理论优化和架构层面的进一步优化，可以实现数十倍的加速。

综合来看，由于上下文长度增加而导致的时间开销增长，没有超过我们在推理速度优化上的提升节奏。

张鹏：优化已经实现了一个数量级的提升，还有很大空间。但综合来看，视频作为上下文的复杂度应该会超乎想象，接下来综合结果会有什么变化？

鲍凡：如果单纯增加上下文长度，那么时间开销的增长和上下文长度可能是乘积关系，会比线性关系更高一些。

举个例子，当上下文长度从当前的多图扩展到未来的视频上下文，等模型需要理解更长的视频内容的时候，比如长达几分钟甚至十几分钟的带有故事情节的视频，其推理时间的开销可能会提升一个甚至两个数量级。

张鹏：之前大家用 Midjourney 生图的时候，可以将图片作为提示词。这种方式下面，图片所包含的信息量显然比一句话要多得多。因此，要让这个系统能够沿着这个方向发展，一个必要条件就是必须优化系统的效率，否则听起来这种方案就难以实现了，对吧？

鲍凡：对，虽然视频时长的增加可能会让推理时长提升两个数量级，但我们有推理优化技术，能够把推理效率提升几十倍。经过这些优化之后，最终的推理时间还是一个非常可接受的状态。

张鹏：必须预先计算好需要多少优化空间，才能确保这条路线是可行的。

鲍凡：我认为一切都需要做提前规划。包括我们预想未来某些场景所需要的上下文长度，这些上下文长度会直接影响到我们需要将推理优化到什么程度。所有这些因素都需要提前考量。

视频模型的首次「智能涌现」

张鹏：文字作为提示词，大家通过 ChatGPT 已经很熟悉了。视觉作为提示词，我们也在一些图片和视频生成模型中见过。你们提到的多主体一致性能够稳定持续生成，这让人联想到 GPT 的特性，这也是一种涌现吗？也就是在达到某个参数规模后自然出现的泛化能力吗？

鲍凡： 多主体一致性这个能力，其实是具有一定泛化性的。比如说，传统的多主体模型可能会考虑两个角色的互动，保持一致性。但我们这个多主体的一致性，它可以泛化到更多层面。比如，可能是抽象的拍摄手法。

在这种情况下，虽然几乎没有对应的训练数据，甚至几乎没有相关的样本，但它依然能在这些非常抽象的场景下表现得非常好。这种能力，实际上就是涌现出来的能力，是我们在准备数据时没有预料到的，或者超出了我们原本的预期范围。

张鹏：「涌现」这个词大家讨论得很多，但可能一直没有一个特别精准的定义。你们怎么理解这个概念？

鲍凡：涌现指的是，当你施加某些要素之后，模型会突然泛化出一些比较通用的能力。这个词最早其实是用在大语言模型的场景中，指的是随着模型的参数量不断增加，达到一定程度时，模型会突然具备一些原本做不到的能力。

在我们的视频模型场景下，像模型的参数量、架构设计和数据设计等，这些要素都会影响模型涌现出的一些能力。

张鹏：在语言模型中，我们说参数量和涌现的能力是高度相关的，参数量较少时，模型可能就不会出现涌现。

那么，在视频模型中，是否也可以理解为，当参数量达到一定规模时，涌现的能力就会出现？还是说，涌现更多是与架构和设计上的创新相关？参数量的 scaling 是否仍然是一个重要因素？

鲍凡：确实如此。我们不仅需要在 scale up 上努力，还需要在数据、模型架构和算法方面投入。这与大语言模型的发展路径不同。大语言模型的架构和数据处理方式已相对成熟，主要挑战是工程实现，而我们面临的挑战更多元。

比如，我们尝试过插件式架构，虽然也投入了大量参数，但模型只能处理已学习过的内容。当我们改用更统一的架构后，模型才展现出了超出训练范围的能力。这说明架构设计对于实现真正的泛化能力至关重要。

张鹏：你刚才提到，训练数据之外的能力在测试中出现了，这让我挺好奇的。能谈谈具体是怎么理解这些「超越训练范围」的能力吗？

鲍凡：我们的训练是逐步进行的，首先我们会选择比较有限的主体数量作为参考对象。最开始，我们确定的方向是人脸（一致性），然后是单主体，再到多主体，最后逐步引入一些更复杂的场景。所以，我们的计划是按照这个脉络一步步推进的。

但在过程中，我们发现当模型走到某个阶段时，很多原本计划中的步骤已经不再需要做了，许多设想中的能力已经自然涌现出来了，这让我们很惊讶。

张鹏：你们看到的这个现象，里面有什么可以被总结出来的发现吗？

鲍凡：我们确实有一些反思。一个很重要的点是，模型的设计尽可能简洁和统一。简洁的架构不仅有助于优化，还能更高效地进行知识压缩。更简洁的设计可以让模型在更低的成本下去做泛化，甚至在一些训练数据之外的场景下也能有很好的表现。所以，对于整个机器学习领域来说，我觉得保持（架构）简洁并在此基础上处理更多问题，是第一性原理。

张鹏：刚才你说你们早期就在扩散模型这条路上探索，生数科技的成立，本身就是为了实现一个通用的视频多模态模型。

当时这个目标是怎么形成的？为什么你们会认为需要设计一套全新的架构？这个目标从设定到最终落实，过程中经历了哪些关键的创新？这个创新的核心是什么？

鲍凡：对，其实这个目标在生数科技成立之前就已经有了。2021 年底，那会还是在实验室阶段，我们认为，在视觉领域，我们需要构建通用的模型，更进一步，我们希望在多模态领域也能够做出通用的模型。

为什么会有这个目标呢？当时虽然 ChatGPT 还未推出，但 OpenAI 的 GPT-3 已经在学术界造成很大影响，我们看到了语言模型中通用性的潜力。我们认为，真正的通用性一定是多模态的，因此我们要更彻底地实现这一点。今年的 Vidu1.5 版本、以及上下文能力，都是基于之前积累的技术和经验。

图片、视频、声音、3D，多模态是一件事

张鹏：既然 1.5 已带来令人兴奋的变化，而且你们是按阶梯式发展，那估计之前没料到会有这一次的涌现型跳跃。这会不会让你们后续的模型发展计划有所调整？在 1.5 之后，你们主要打算做哪些工作？重点想突破什么、优化什么呢？

鲍凡： 实际上，涌现这件事我们有预料到，但涌现出的具体能力一开始不太好预测。

我们后续要做的事其实和之前还是相对一致，下一步很直接的想法是用更抽象的概念来保持一致性。现在是以图片为参考保持一致，图片参考对象主要是某种主体，之后可参考更抽象的内容，比如著名导演的经典电影片段，像王家卫一些电影，就可能参考他的特定的风格，如抽帧感、运镜调度等，这些都能作为参考对象，也会学习特殊的运镜手法，这些都是后续的想法，也在之前的规划之中。

张鹏：即使模型没有见过某些场景，也能保持有效的一致性，这与传统的 Lora 插件模式很不同。那么未来，你们是只在这个机制上进行 Scale up，还是会在这个体系上构建新的东西？

鲍凡：目前我们架构相对成熟，短期内会集中突破以下方面：

一方面，因为上下文长度会不断变长，在数据构建上，要让模型能理解更长的上下文，还要理解更多抽象概念，比如理解拍摄手法、动作等，这都需要构造更长上文窗口的数据。

另一方面，随着上文长度增加，在推理优化时不能让模型推理速度大幅降低，需要采取更深入、激进的策略。当然，scale up 工作也必不可少，这是提升模型能力的重要条件。

总体而言，一是针对上下文长度提升做数据相关工作，二是为保障用户体验做推理优化提高效率的工作，三是进行基本的 scale up 工作。

张鹏：之前大语言模型面临互联网数据快被用尽的问题。但如果进入多模态领域则会很不同，还有大量数据未被有效利用，至少在 scale up 进程上，能看到有很多待拓展的内容。当然这其中挑战很大，因为它的上下文和信息量比原来大很多，对架构、效率、简洁性要求极高。

但就 scaling law 在这个维度来讲，感觉还是挺有希望、挺值得期待的，还有很大发展空间。我这样理解对吗？

鲍凡： 对，我觉得多模态数据获取难度比语言模型小很多。一方面模态更多，另一方面语言模型的数据很多源于人类思维形成文字，会比较耗精力，而像视频，随手一拍就有了可用数据，所以多模态尤其是视觉数据获取难度更低，在数据方面也就有更强的 scale up 空间。

张鹏：我们讨论大语言模型的时候，就是看数据、算法、算力这个三个核心的要素。从现在这个架构的角度来看，你会如何排序这三个要素的重要性？

鲍凡：这其实跟发展阶段相关。现阶段话我觉得还是算法和技术本身是很重要的事情，比方说 Vidu 1.5 的推出，更底层还是技术认知的一些领先。可能到后面技术更加收敛，对于我们内部而言，会去做数据工程的优化。那时候可能数据和工程能够带来更大的收益。

张鹏：所以关键在于能在架构与训练方法上逐步看到它的高效性与成长性。算力虽然很重要，但现阶段，并非没它就不能往前走。

张鹏：以前说 AGI，大多从语言模型角度出发，如今想探讨统一多模态模型，它未来是否会是通向通用智能的另一条路径？毕竟它不仅能生成视频，还具备泛化能力，能理解、识别、生成，而且多模态丰富信息可直接影响其生成，所以它会是走向 AGI 的不同路径吗？

鲍凡：终极通用模型必然是多模态的，且视频是极为重要的模态，甚至堪称最重要。有两个重要原因：

一方面，各种模态都可以通过视觉统一表示，比如图像是单帧视频，3D 可与视频相互转换，音频可通过梅尔频谱表示成特殊图像进而成为特殊视频，文本也可看成符号，也算是一种视觉信息，能处理成特殊视频。在这种认知下，各种东西趋于统一，能用视觉模态代表不同信号并实现各模态交互。

另一方面，视觉模态有无损性质，是升维表达，而语言模型多是抽象的降维表达。所以在这种升维表达下，它能做到没有信息损失，这是语言模型所不具备的，所以我甚至觉得最终通用的 AGI、通用多模态模型更可能以视觉作为核心载体。

张鹏：视觉层面是一种给能带来损耗更小的模态，比语言更能有效通向通用智能。但今年像 OpenAI 等，是在语言模型上加多模态来具备相关能力，而你们是从多模态本身出发。该如何理解二者的不同？差别在哪？

鲍凡：我觉得关键在于语言和视觉的区别，语言是降维表达，视觉是升维表达。

语言模型加多模态的路径虽然能比较好抽象、去理解事物，但在生成方面有欠缺，不太擅长生成。不少人认为语言很核心，觉得文本可抽象很多信息，但这也有负面影响，现实世界很多信号无法用语言抽象，语言模型天然难以表示更多现实世界信号。而视觉是无损模态，能将所有东西转换进去，不存在信息损失。

张鹏：所以再好的抽象也是有损压缩，视觉模态再不好、再复杂，但它至少是无损的，其实就可以更好地去基于它颗粒度更丰富的角度去还原和生成。就本质上就是有损和无损的问题呗。

鲍凡：对，有损和无损是一个重要维度，但更关键的是如何处理各种各样的问题。要保留不同问题的原始特征，就必须采用无损的处理方式。

张鹏：从你的角度来看，语言模型加多模态，顺着这条路往上发展，最大问题或许在于语言模型以语言抽象方式为基础，继续向上发展可能会遇到瓶颈，这样理解对吧？

鲍凡：是这样。很多生物大脑里面就没有语言这一套东西，除了人类其实基本上都没有，但是它们也能够跟这个世界去交互，并且产生智能。

技术还没有收敛，

Scaling Law 仍在生效

张鹏：你们不止做视频，在图片、3D 等方面也推出了产品。想了解生数科技做这些产品是基于怎样的发展战略？又通向什么样的最终目标？

鲍凡： 起初做图像与 3D 工作，其实图像就是作为基础视频模型，是验证统一架构的重要里程碑。架构从 U-ViT 出发，就是 Diffusion 加 Transformer，先做可扩展性验证，再做通用性验证，在图像方面得出了关于 Diffusion 和 Transformer 可扩展性验证的明确结论。

我们也认为 3D 是一个很重要的模态，尝试多种处理方式，比如基于原生 3D 表示方式，如今认为它和视频本质相同，这是认知的发展，发展过程中也有一些里程碑。

张鹏：是不是可以理解为，本质上是在一边推进，一边看模型能力在多个场景能释放什么价值？就是模型本身是核心技术线，同时其他产品是基于模型能力针对具体场景提供有价值的能力，这是完整策略吗？

鲍凡：我觉得这些产品一方面是场景需求所致，另一方面也是我们认知积累过程中探索的产出结果。虽然说不是最终形态，但确实是重要的节点，比如是能助力我们在 Diffusion 和 Transformer 架构上拓展认知的中间节点，或是（拓展）在数据表示认知方面产生的中间节点。

张鹏：以前说语言模型，人分左右脑，语言好像是左脑的能力，感觉你们像是在造一个类似右脑逻辑的东西。

鲍凡：是很类似。其实脑科学也有类似观察，比如电影《自闭历程》里的主人公，一个患自闭症的科学家，她感知世界的方式是通过图像，类似多模态交互的原生感知方式，她认知高度依赖视觉，看书、看自然场景等都统一用图像方式感知和思考。

张鹏：所以从思考和理解世界来看，语言也不是理解世界的唯一方式，你们觉得视觉可能是更高维的方式，能观察和理解，甚至能去表达。这在人脑角度能观察到不同维度，也尤其能体现多模态的重要性。

未来你认为会是右脑覆盖左脑，还是左脑加右脑的模式呢？

鲍凡：我觉得长远来看，我们现在做的「右脑」，是有可能覆盖「左脑」的。因为把文本看成特殊字符号，属于视觉模态。我们能让模型依赖视觉去认知世界。人就是用图像去思考，而且人类感知世界时，视觉是很直观、优先的模态，比如看到交通信号灯能直接让身体做出反应，很多时候会跳过语言模态直接响应。所以视觉作为起点，更有可能真正意义上通往通用模型。

张鹏：去年常有大模型领域的惊喜突破，但今年有人觉得预训练的 scaling law（扩展定律）有点失效，特别是语言模型方面，包括 o1 把强化学习加进来。

你们肯定也在观察大模型领域变化。你觉得 scaling law 是真的撞墙了吗？

鲍凡：现在其实业内还没有标准答案。我认为可以从三个维度看待。一是 OpenAI 推出 o1，可能更多基于早前对推理方面的观察，比如思维链技术靠更多算力输出更多中间结果以获更好效果，和 scaling law 撞墙未必有必然联系，是在另一条道路持续推进的结果。

关于 scaling law 失效，刚才提到的不同维度：

工程层面：大家都基于一些最佳实践去训练大模型，比如此前基于 BF16 精度、分布式技术等最佳实践训练大模型，现在有一种可能是需对这些最佳实践做调整。比如有探索训练精度的工作，表明在某些精度前提下，模型效果会遇瓶颈，（验证）这种假设，需回到工程层面排查之前实践有无疏漏。
数据层面：大家目前有一个基本共识就是文本数据渐趋枯竭，大家开始探索合成数据，虽然理论上有很大空间，但现阶段数据支撑有限。
理论层面（最坏的情况）：存在 scaling law 从数学理论上真撞墙的可能，或许需更高模型复杂度、数据复杂度来支撑更强的 scaling law，但目前人类可能做不到，而且无法完全排除这种情况。

总的来说，现在没法下一个定论。

张鹏：其实这里涉及到 o1 模型引发的「scaling law，到底要 scaling what？」的讨论。从你的角度看，语言模型要提升智能能力还需要创新、实验和摸索新方式，说白了就是还没有完全「收敛」。那对于视频模型，它本身是已经收敛了，还是仍在探索创新呢？

鲍凡：其实我感觉视频领域是一边收敛一边创新。

比如从 2 月 Sora 发布到 Vidu 1.5 发布前，业内一直有自回归和融合的架构之争，实际效果显示 Diffusion 和 Transformer 融合架构更优。我们最早提出这种 Diffusion 和 Transformer 的架构思路。

如今无论是 OpenAI 还是说国内国外的视频模型公司，都在顺延采用这种架构，其实是一种收敛趋势。但另一方面也在创新，比如 Vidu 1.5 推出表明这种 Diffusion 和 Transformer（已经）并非最优架构。比方说 DiT 处理上下文能力就有所欠缺。视频技术路线后续迭代会很快，架构路线也可能进一步调整，有望出现更强、更高效处理上下文能力的架构。

我觉得现在架构迭代非常快，现在我们在做针对视频通用性的问题，后面多模态通用性的架构迭代也会一直持续。

视觉智能会带来交互的变化

张鹏：现在具备了这样的多主体能力，甚至它还有更强的泛化性，它会对视频内容的创作带来什么样的影响？

鲍凡：其实我觉得它对很多行业都会带来很大的影响。

大家很容易想到的是影视行业。之前视频生成模型难以应用的一个原因是视频需要讲故事，但视频生成的片段是独立的，缺乏关联性。我们这种主体一致性、场景一致性可以构建这种关联性，让用户看到一个（完整）故事，而不是碎片的拼接。

另外，比如现在的情感陪伴场景，用户只能通过文字与模型交互。但未来，如果加入视觉，模型不仅能输出文字，还能做出表情让用户看到。甚至，如果将音色作为上下文信息输入，模型不仅能和你哭、笑，还能有声有色地和你交流。

再往后，不需要主动交互，模型能感知我们的反应，比如通过视觉模态看到我们走过来，主动发起互动。甚至可能包括触觉、嗅觉，比如通过呼吸频率感知情绪，让模型更全面地了解我们的状态，给出更贴近心情的反馈。所以，我认为另一个行业，比如陪伴场景，也会带来非常大的变革。

张鹏：这就可以理解为，未来我们的每一个动作和反应都可能成为提示词。这个模型基本上可以在你的所有多模态行为中获得提示词，进而针对某种目标，生成通向那个目标的有意义的东西。这是一个重大的变化。

鲍凡：对，从现在一个可读的状态，再到后面可视听，然后可感知，再到全模态，全都变成提示词。

张鹏：感觉如今视频生成模型的交互方式都差不多，既然模型能力未来会泛化，会不会给交互带来变化呢？

鲍凡：刚提到的陪伴是很好的例子。一方面，随着模型推理性能提升，用户与模型能实时互动，给模型一些信息后可以即刻得到多模态反馈。

第二点，交互的模态丰富性将有较大改变，不再是简单的对话窗口式交互，而是模型仿佛就在面前，能看、能听，彼此还可实时感知。

张鹏：如今，许多人探讨智能眼镜，大家会认为处于第一人称视角的设备，配备多模态传感器，可以获得更多的用户价值交付。比如面对陌生人时可以及时提示我这是谁，上次什么时候见的。但很多人也是基于语言模型加多模态的路线开展工作，那么你们所走的统一多模态模型路线，会在效率等各方面带来什么样的影响呢？

鲍凡：智能眼镜就是个不错的场景，戴在眼前，能实时捕捉细微表情，比如眼神什么的可被立刻感知。大语言模型虽然也有一定感知能力，但没法提供反馈内容，可能还需调用工具，比如看到悲伤表情，要调一些相关工具展示舒缓的内容。现在这种，就是我们提到的多模态模型，以视觉为媒介，在理解到情绪时，反馈内容会更直接，过程也更无损。张鹏：更加的直接和无损，它能够更多模态地跟我交互，甚至更主动地去理解我的需求，个性化地去更好地生成，所以把真正个性化的交付做到更极致，所以这是可能相对本质的区别。

鲍凡：对，中间直接跳过了语言这一层会让信息产生损失的中间态。

张鹏：2025 年你觉得视频生成领域还会有什么样的新变化吗？

鲍凡：2025 年会发展很快，有些事很接近能实现（的地步）。

一是实现更多模态天然融合，比如让音视频作为可被理解的上下文，支持更长的窗口、更复杂的输入，可以理解更抽象的事物。
二是推理速度（提升），我觉得能在 2025 年达到实时，即视频生成所需时间短于视频时长，从而能看到实时生成的视频。

创业公司最重要的是「目标的创新」

张鹏：Sora 曾经惊艳大家，把 Runway、Pika 等新兴创业公司的努力覆盖了，那么在这条路线上大厂是否优势明显？面对竞争且创业公司资源有限，信心来源是什么呢？你有什么看法？

鲍凡： 我感觉我们和大厂团队看到的东西是不一样的。

外界说视频领域火热，所以跟风，我们主要着眼于通用多模态大模型这个愿景，认定其必然成立，视频是多模态的重要部分，所以我们去做。无论 Sora 是否出现，我们都会沿多模态通用路径前行，Vidu 也（都）会应运而生。所以根本上看是目标差异导致执行动作有区别。

比如同样是视频生成，我们与大厂团队路线不同，大家都 follow Diffusion Transformer 的架构，大厂聚焦度有限，虽然也能解决具体问题，但难有进一步突破，而且不易察觉视频模型背后通用愿景，而我们从通用愿景出发，在技术路线选择时就考虑全局，有更早认知与判断。

张鹏：刚才聊到目标创新是根本，生数的目标，像以统一多模态大模型推动通用智能提升，这是让人兴奋的点，做事也能顺利展开。

如今创业公司的一个现实挑战是资源有限，既要「绿色环保」的发展，又要奔着长远目标不动摇，在这种「两头堵」的情况下，确实只能拼技术与创新能力。你们怎么考量当下环境对团队的要求？感觉这挑战确实挺大。

鲍凡：是这样的。困难之下，对技术的认知和判断至关重要，有高效前瞻做事的方式，也有跟从他人的做法，而我们坚持通用多模态大模型路径，然后就有更早的认知和预判，以高效的方式做这件事。

比如，我们 4 月发布 Vidu，早于其他公司；6 月验证了 Diffusion 和 Transformer 融合架构在多模态的可能性，实现音频和视频融合，比外界早 5 个月左右；7 月份针对上下文能力，发布最早的面部一致性，早于大厂；9 月推出主体一致性，10 月大厂才推出昂贵的单点微调方式；11 月中旬的 VIdu1.5 全球首发突破多主体一致性，引领了各家。

所以克服困难本质上在于对技术能否足够早地洞察，实则就是在技术、算法、工程等方面展开竞争。

张鹏：所以对于创业公司而言，follow 肯定是没希望的，只能探寻更好的创新路径，只有这样才能够 lead 变化，否则很容易被卷死。

张鹏：Sora 一经问世便震撼众人，然而直至今日，它都没有真正地推出可供大家使用的产品，我们甚至都没有机会去测试它实际的效果。而且我发现 Sora 这个团队的负责人之一 Tim，已经离职并加入了 deepmind，还有 OpenAI 的 CTO Mira 也离开了。

我不太清楚 Sora 这么早地崭露头角，令人惊艳，为何后续却演变成如今这样的状况。这里面有可能是遇到了什么样的问题呢？又或者说，这在视频生成领域当中会给我们带来什么样的启示我们可能会遇到哪些问题呢？你对此有什么看法呢？

鲍凡： 我认为 Sora 未开放使用是 OpenAI 公司整体的行为决策，因为产品发布需要算法、工程、产品及公司战略等多方面协同，任何一方面有顾虑都可能阻碍发布，所以 Sora 之前没有推出是他们内部综合考量的结果，这种情况下人员流动也正常。而我们在算法、产品、工程与公司战略配合上非常统一，能在推进模型能力开放方面做到更加极致。

这两天 Sora 有内容放出且有提前泄露情况，效果不错但与 2 月份相比不及预期，并没有比当前的 AI 视频工具实现更惊艳的效果，还是很期待它以更完整形态面向全球市场。

张鹏：你也提到了，OpenAI 如今也不是当年孤独探索的小公司，资源增多，事务繁杂，资源与事务匹配时中间的纠结点众多。而你们目标更聚焦，但是「华山一条路」，创业公司虽然资源有限却也能更好的专注一件事。中国上一代技术公司和 AI 公司都遭受过瓶颈，技术爬坡需要资源支持，而且要适时产生价值循环，要有业务与现金流。

之前聊到生数关注重点垂直场景，比如广告、游戏、短剧、影视等，通用泛化模型在这些场景下会面临不同要求。你是怎么面对在技术与产品、市场匹配方面的挑战？

鲍凡：我们对各种场景进行了归纳。现阶段需求虽多，但人群主要分两类：

一是 SaaS 订阅的 C 端用户，包括专业或半专业的，用工具做内容生产（创作或营销等）的用户；还有是把视频生成当娱乐的普通用户，会做一些好玩儿的东西。专业用户付费和使用频率高，普通用户对 AI 视频的接受度也远超想象，两类用户都要求基础模型能力强以探索更多价值，比如更多样的玩法等等。

二是这个 Maas 调用的 B 端用户，又可以分为三类，

第一类追求快速爽感的用户体验，如泛娱乐、特效、图像视频编辑等行业，能全面使用标准化 API 并形成良好收费模式；
第二类追求特定风格和细节，比如动漫和游戏行业，已能用 API 替代部分工作而且替代程度随模型效果提升而提高；
第三类追求更高可控性、美观性、真实性，比如营销、影视和短剧行业，主要与标杆客户共创新的工作流，追求颠覆现有流程。

这三类 B 端用户不一样，但是考量基础维度一致，都是上下文能力、一致性、效率、模型推理速度，在基础模型能满足行业需求时，对微调能力需求较少。所以无论是 C 端、B 端，还是基础模型效果是核心。

张鹏：你们选择垂直场景并非完全依据市场需求，而是要与技术能力主轴线以及前进阶梯相契合，这样才能在垂直场景高效解决问题。所以并不是依据现有技术和市场需求盲目开展，而是依技术能力发展方向确定辐射范围内的场景，这是一个反推过程。

鲍凡：对，就我们希望主轴线变得越来越健壮，然后去覆盖各种各样的行业需求。

科研 vs 创业：

5% 的发散，95% 的收敛

张鹏：你是「U-ViT」论文的第一作者，也是最早将 Diffusion 和 Transformer 结合架构的，感觉你对这个事的洞察非常早。跟你聊的过程中，我似乎感觉到了你说的「语言是有损的压缩，限制了很多东西的真正展开」。

鲍凡：（笑）对，其实我自己本身就是一个挺平静的人，对。（憋笑）

张鹏：来，我们尝试下「多模态」的信息交换，看比如看到 Sora 的 DiT 方式与论文原理有相近处时，当时你有什么心理反应？或者收获什么启发？还有在产业变化中你内心曾有过什么样的的波澜与思考？回忆下那时候的画面？

鲍凡：我个人单纯从语言模态上表达确实会有瓶颈。说回当时 Diffusion 和 Transformer 融合架构，我们把《U-ViT》挂到 arXiv 上，后面三个月出现了类似的工作 DiT，论文的一些探索其实跟我们比较一致。它更加侧重于一些 loss 曲线信息的提供，我们更加侧重于这个架构本身的设计，会有一些侧重点的区别。

所以当时看到他们的工作，嗯，确实会觉得，「唉？怎么这么像？」

不过对于我来说其实也并没有特别大波澜，在学术界上大家都在做同一个事情，也是挺正常的一个现象吧。

能记着的感觉就是，当时觉得了说明这个 idea 很棒，大家都想做。可贵的是我们动手更早，听 DiT 作者说他 10 月才开始做相关架构，而我们 22 年 2 月就着手了，9 月就有了些结论，其实比他们早半年多。

当时做这项工作，基本每天疯狂调参，然后就是收集实验结果，如此循环了半年左右。现在回头看，U-ViT 的架构想象空间很大，不论是后来创业做图像、做视频，还是做 Vidu 1.5 这种上下文，U-ViT 它都是重要基石，其很多设计也一直保留至今。

张鹏：我记得生数是去年 3 月成立的，过去将近两年（18 个多月）的时间，你在这个热门行业里担任 CTO，和在学校做研究，对于这两者的区别有什么特别的感受吗？

鲍凡：从去年 3 月到今年 6 月，我处于一边读博一边创业的状态，其实能很深切感受到两边风格差异明显。一个本质的变化是，在学术界，95% 的时间在做发散，但在公司里，只有 5% 的时间做发散，剩下 95% 的时间要做收敛，从众多发散成果中筛选保留有效部分，也就是寻找最佳实践。

此外，工业界可优化的维度更多，学校科研主要从技术、算法角度优化目标，工业界就没有这个限制，输入变量非常多，包括工程、数据、产品乃至市场动作等都可协同优化以达成目标，即使是模型效果提升也不是仅仅靠算法。

其他维度对于算法的提升效果甚至可能更关键，就比方说如今 AI 强大的原因，除了算法提升外还有两点很重要，一个是互联网，它带来全人类范畴的海量数据；第二是算力芯片，它的发展改变计算范式，它俩都功不可没，这表明工业界可操控变量众多，所以我现在思维也不再局限于算法研究领域，而是会考虑更多方面。

张鹏：你们公司显然对技术人才密度要求很高。在这波大模型创业潮中，关键人才常能带来重大突破。作为 CTO，你得不断吸引人才。那么生数需要什么样的人才？又如何评估哪些人才适合生数和它的目标？

鲍凡： 生数需要的人才要依据公司业务特点划分。回到刚才的结论了，公司 5% 时间做发散，95% 时间做收敛，所以需要一些对于前沿理解深刻的人进行发散工作，他们能开拓创新思路；更需要大量实际工程能力强大的人做收敛，通过各类实验科学确定技术方案。

张鹏：前段时间，国内大模型领域有一些「信心回调」，对预训练的意义、模型核心公司的价值和融资等很多方面产生争议，大多是围绕大语言模型探讨。感觉你虽然是很平静冷静，但对未来还是充满信心，想知道你是否会担心语言模型过去 18 个月在中国狂奔后，对生数创业环境有什么不良影响吗？

鲍凡： 其实我不是很担心。因为基于我们的初始目标，也就是最终的模型是通用与多模态的，这两个目标尚未达成，还有很多事需要做，这个过程中会产生很多「里程碑」，能让人知道这条路径的可行性和天花板。

再者，如果达成这个目标，它的应用边界远超当前大语言模型，大语言模型应用有局限，都需针对性调优，但是通用多模态模型在便捷性、通用性（方面）都会提升一个台阶。一方面技术层面大有可为，另一方面达成比较终局的节点时，能极大拓展行业与应用场景，所以对通用多模态模型充满信心。

*头图来源：生数科技

本文为极客公园原创文章，转载请联系极客君微信 geekparkGO

极客一问

你使用过 Vidu 吗？体验如何？

热点视频

周鸿祎：产品经理不要高高在上，做产品一定要接地气。

点赞关注极客公园视频号，

观看更多精彩视频

更多阅读

文章来源: https://mp.weixin.qq.com/s?__biz=MTMwNDMwODQ0MQ==&mid=2653066772&idx=1&sn=7927452db5fc955c9e8a07a72c32b22f&chksm=7e57eba2492062b42183395fce06ec8b06fa794509f5420e3b968c628ee1cefb72d161c4ac57&scene=58&subscene=0#rd
如有侵权请联系:admin#unsafe.sh