简单看了下Deepseek-R1的技术报告,里面提到失败的尝试经历,其实更有意义,the bitter lesson
一是测试了过程奖励模型PRM(process reward model);
二是测试了蒙特卡罗树搜索MCTS (Monte Carlo Tree Search)。
这两条都是现在训练推理模型时候很火的两条路子,总结得经验很宝贵:
简单看了下Deepseek-R1的技术报告,里面提到失败的尝试经历,其实更有意义,the bitter lesson
一是测试了过程奖励模型PRM(process reward model);
二是测试了蒙特卡罗树搜索MCTS (Monte Carlo Tree Search)。
这两条都是现在训练推理模型时候很火的两条路子,总结得经验很宝贵: