357个回答

如何评价deepseek正式发布的deepseek-R1与deepseek-R1-Zero模型？

2025-01-19 21:51:46

知乎用户

78个点赞 👍

简单看了下Deepseek-R1的技术报告，里面提到失败的尝试经历，其实更有意义，the bitter lesson

一是测试了过程奖励模型PRM（process reward model）；

二是测试了蒙特卡罗树搜索MCTS (Monte Carlo Tree Search）。

这两条都是现在训练推理模型时候很火的两条路子，总结得经验很宝贵：

2025-01-20 15:35:58

董不懂在摸鱼

自由评论 (0)