其实我是没太看懂,最近这波对于【非推理模型的推理能力】的卷意义在哪里。
在RL过程中,把think和/think去掉,让模型直接给题解进行RL,模型也能不断RL出解题能力,输出也会和加了think一样不断变长。这种情况下解题能力高于base model但低于加了think可以获得的解题能力。
但我没看懂这么做意义在哪里,谁来给我解释一下……
其实我是没太看懂,最近这波对于【非推理模型的推理能力】的卷意义在哪里。
在RL过程中,把think和/think去掉,让模型直接给题解进行RL,模型也能不断RL出解题能力,输出也会和加了think一样不断变长。这种情况下解题能力高于base model但低于加了think可以获得的解题能力。
但我没看懂这么做意义在哪里,谁来给我解释一下……