编者按
和大家一样,春节假期期间,公号君也高度关注DeepSeek的技术表现。作为一名研究法律政策的人员,当然也关注其可能带来的潜在影响。今天是本系列的第二篇。第一篇见:DeepSeek-R1展示了小模型也能成为推理专家
预训练阶段:与其他大型AI模型一样,R1首先通过大规模的网络数据进行预训练,学习各种语言模式和推理规律。在这一阶段,R1积累了广泛的基础知识和语言理解能力,为之后的任务提供了扎实的基础。
SFT阶段:接下来,R1模型通过对高质量的人类示例数据进行监督微调(SFT),进一步提升其推理能力。SFT的核心是通过将人类的推理过程和结果作为训练数据,帮助模型学习如何在给定输入的基础上进行推理和推断。SFT阶段(模型蒸馏发生在这个阶段)为R1注入了大量人类知识,这些知识帮助R1在面对复杂推理任务时,能够展现出更高的准确性和合理性。
RL+TTC阶段:R1的最后一个训练阶段引入了强化学习(RL)和测试时计算(TTC)的技术。在这个阶段,R1通过与环境的互动进行自我调整,从而提高其推理和决策能力。RL通过奖励信号帮助模型优化决策,而TTC则允许R1在推理过程中动态地利用计算资源,进一步提升其在复杂任务中的表现。、
通过上述的训练流程,R1模型能够在基础模型的基础上,通过人类数据的细致微调和强化学习的反馈,不断提高推理能力。
预训练阶段:与R1一样,R1-Zero也通过大规模的网络数据进行预训练,学习语言模式和推理规律。然而,与R1不同的是,R1-Zero在这一阶段并没有接触任何人类生成的示例数据。
RL阶段:R1-Zero的核心创新在于,完全跳过了SFT阶段,直接通过强化学习(RL)进行推理训练。具体来说,R1-Zero通过在没有任何人类数据的情况下,依靠与环境的互动来进行自我学习。这一过程中,模型通过奖励信号来优化推理过程,从而在面对未知任务时,逐步掌握推理技能。
R1-Zero的这种训练方式,虽然减少了对人类数据的依赖,但也意味着模型完全依赖自我探索来发现推理模式。虽然这种方法减少了人工数据的成本,但也可能导致模型在初期的推理准确性和可靠性上不如R1。
在R1与R1-Zero的训练过程中,模型蒸馏发挥了至关重要的作用。蒸馏技术是一种将大模型的知识“提炼”并转移到较小模型中的方法。DeepSeek在R1的训练中,通过蒸馏从DeepSeek-V3这个强大的基础模型中提取知识,从而使得较小模型能够以较少的计算资源达到较好的推理效果。
模型蒸馏的优势在于,它能够通过知识迁移帮助小模型快速掌握复杂任务,而不必从头开始学习所有内容。相比于直接使用强化学习,蒸馏不仅更加高效,还能够节省大量的计算资源。在DeepSeek的实践中,蒸馏技术使得R1能够在保持高性能的同时,避免了需要巨量计算资源的RL训练。
DPO线下沙龙的实录见:
域外数据安全和个人信息保护领域的权威文件,DPO社群的全文翻译:
传染病疫情防控与个人信息保护系列文章
关于数据与竞争政策的翻译和分析:
健康医疗大数据系列文章:
网联汽车数据和自动驾驶的系列文章:
网络空间的国际法适用问题系列文章:
《网络数据安全管理条例(征求意见稿)》系列文章:
关于我国数据跨境流动监管体制变革的系列文章:
通过技术增强对个人信息的保护,本公号曾经发表的文章包括:
关于新加坡数字化(包括个人信息、网络安全、人工智能等)方面的改革,本公号发表的文章:
关于健康医疗数据方面的文章有:
针对美国的人工智能监管政策发展,本公众号发表过如下文章: