如何评价deepseek正式发布的deepseek-R1与deepseek-R1-Zero模型？ - https://github.com/d...

技术报告也一起发了，看起来思路上跟学术界之前尝试复现o1的方法区别不大——首先基于强化学习方法，训练一个Zero模型，然后不断进行拒绝采样，生成更多的训练数据，进而滚雪球越滚越大。在训练的过程中，直接用答案是否正确作为Reward，不训练Reward Model，也不用MCTS。

另外千问团队现在需要加把劲了，R1蒸馏的Qwen-32B性能比QwQ好很大一截。强化学习方法对于Base模型的能力有比较强的要求，32B模型应该是不太够用的——所以Qwen-2.5-110B是不是要重出江湖了？