根据发表在《自然》期刊上的一项研究,Google DeepMind 和牛津大学的研究人员发现,用 AI 生成的数据集训练 AI 模型可能导致模型崩溃,即在数代之后产生无意义的输出。举例来说,模型从中世纪建筑文本开始,到第九代输出了毫不相干的长耳大野兔。研究人员发现,AI 难以掌握训练数据集中不常见的文本行,后续在此输出上的训练无法延续这些微妙差异。以这种方式基于早期模型的输出训练新模型最终会陷入递归循环。以生成狗图像的模型为例,AI 模型倾向于重新创造训练数据中最常见的犬种,金毛猎犬相比贝吉格里芬凡丁犬(Petit Basset Griffon Vendeen)更常见,因此金毛猎犬会被过度代表。如果用过度代表金毛猎犬的数据集训练后续模型,问题将会愈发严重,后续模型将会忘记贝吉格里芬凡丁犬不知名犬种的存在,它将只会生成金毛猎犬的图像。最终模型将会崩溃,无法生成有意义的内容。
https://www.nature.com/articles/d41586-024-02420-7
https://tech.slashdot.org/story/24/07/26/0016252/ai-models-face-collapse-if-they-overdose-on-their-own-output