https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf
技术报告也一起发了,看起来思路上跟学术界之前尝试复现o1的方法区别不大——首先基于强化学习方法,训练一个Zero模型,然后不断进行拒绝采样,生成更多的训练数据,进而滚雪球越滚越大。在训练的过程中,直接用答案是否正确作为Reward,不训练Reward Model,也不用MCTS。
另外千问团队现在需要加把劲了,R1蒸馏的Qwen-32B性能比QwQ好很大一截。强化学习方法对于Base模型的能力有比较强的要求,32B模型应该是不太够用的——所以Qwen-2.5-110B是不是要重出江湖了?