就在刚刚,deepseek 正式发布 DeepSeek-R1,并同步开源模型权重。
- 开源 DeepSeek-R1推理大模型,与o1性能相近。
- 开源 DeepSeek-R1-Zero,预训练模型直接 RL,不走 SFT。
- 开源用 R1 数据蒸馏的 Qwen、Llama 系列小模型,蒸馏模型超过 o1-mini 和 QWQ。
性能对齐OpenAI-o1正式版
DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。