DeepSeek-R1
简介¶
DeepSeek团队发布了两种产品, DeepSeek-R1-Zero, 仅通过大规模强化学习进行训练, 跳过了常规的SFT步骤, 虽然展现了自然涌现的强大能力, 但是存在明显的缺陷, 如可读性差和预言混杂. DeepSeek-R1是为了解决Zero版本的问题, 在之前加入了"冷启动数据"和多阶段训练, 在推理任务上的表现已经媲美OpenAI-o1-1217. 他们开源了多种模型, 包括原生模型, 6个蒸馏模型, 参数涵盖多种规格.
DeepSeek团队发布了两种产品, DeepSeek-R1-Zero, 仅通过大规模强化学习进行训练, 跳过了常规的SFT步骤, 虽然展现了自然涌现的强大能力, 但是存在明显的缺陷, 如可读性差和预言混杂. DeepSeek-R1是为了解决Zero版本的问题, 在之前加入了"冷启动数据"和多阶段训练, 在推理任务上的表现已经媲美OpenAI-o1-1217. 他们开源了多种模型, 包括原生模型, 6个蒸馏模型, 参数涵盖多种规格.