微型语言模型的时代来临

文章
皮肤

Wilson (42865)发表于 2023年10月08日 23时16分星期日
来自金刚

学习英语对人类而言并非易事，但计算机学习英语的方法十分简单：将互联网上收集的海量文本输入到名叫神经网络的数学模型中。这是 OpenAI ChatGPT 等生成式 AI 模型背后的工作原理。但这种方法的缺点也十分明显：训练成本昂贵且耗费大量时间。大语言模型的黑箱也让人难以理解其内部工作以及为什么会失败。面对困难，部分研究人员选择了在小型数据集上训练小型模型，然后研究其行为。微软研究人员最近在预印本平台 arxiv.org 上发表论文，介绍了一种训练微型语言模型的新方法：用儿童故事培养它们。 ChatGPT 使用的 GPT-3.5 模型有近 2000 亿个参数，需要至少 1000 个 GPU 训练数周时间。只有少数公司能获得必要的资源。但微软研究人员的研究表明，规模仅为最先进大语言模型数千分之一的微型语言模型在这种方法训练下能很快学会讲述一致且语法正确的故事。这项研究结果或能为新研究指明方向。

https://www.quantamagazine.org/tiny-language-models-thrive-with-gpt-4-as-a-teacher-20231005/