5个回答

通义千问更新 Qwen3 升级版，性能超越Kimi K2 和 DeepSeek V3，有哪些技术亮点？

2025-07-21 10:08:23

cqygfxgfst

14个点赞 👍

其实我是没太看懂，最近这波对于【非推理模型的推理能力】的卷意义在哪里。

在RL过程中，把think和/think去掉，让模型直接给题解进行RL，模型也能不断RL出解题能力，输出也会和加了think一样不断变长。这种情况下解题能力高于base model但低于加了think可以获得的解题能力。

但我没看懂这么做意义在哪里，谁来给我解释一下……

2025-07-22 05:44:00

还是不注名好

自由评论 (0)