我以为我理解了bitter lesson的精神,即不要人工注入inductive bias,纯靠模型自己从数据里探索。
但我看到r1-zero的时候,才意识到对这件事的信心不够
r1-zero从base model出发,完全靠RL找到所有的思维过程,而没依赖任何的human prompting
要反思反思,现在的项目是不是搞得太复杂了
我以为我理解了bitter lesson的精神,即不要人工注入inductive bias,纯靠模型自己从数据里探索。
但我看到r1-zero的时候,才意识到对这件事的信心不够
r1-zero从base model出发,完全靠RL找到所有的思维过程,而没依赖任何的human prompting
要反思反思,现在的项目是不是搞得太复杂了