5个回答

通义千问更新 Qwen3 升级版,性能超越Kimi K2 和 DeepSeek V3,有哪些技术亮点?

cqygfxgfst
14个点赞 👍

其实我是没太看懂,最近这波对于【非推理模型的推理能力】的卷意义在哪里。

在RL过程中,把think和/think去掉,让模型直接给题解进行RL,模型也能不断RL出解题能力,输出也会和加了think一样不断变长。这种情况下解题能力高于base model但低于加了think可以获得的解题能力。

但我没看懂这么做意义在哪里,谁来给我解释一下……

还是不注名好
自由评论 (0)
分享
Copyright © 2022 GreatFire.org