357个回答

如何评价deepseek正式发布的deepseek-R1与deepseek-R1-Zero模型?

知乎用户
78个点赞 👍

简单看了下Deepseek-R1的技术报告,里面提到失败的尝试经历,其实更有意义,the bitter lesson

一是测试了过程奖励模型PRM(process reward model);

二是测试了蒙特卡罗树搜索MCTS (Monte Carlo Tree Search)。

这两条都是现在训练推理模型时候很火的两条路子,总结得经验很宝贵:

董不懂在摸鱼
自由评论 (0)
分享
Copyright © 2022 GreatFire.org