测了几个翻译和写作任务,感觉不如k2和qwen3 2507……
不知道更新了啥……也许是lean能力?
不过有一点,现在的模型已经开始术业各有专攻了。
人们越来越发现【综合性能】本身其实是个伪命题,实际上人们使用的时候会去使用domain SOTA。所以一个模型的价值取决于他SOTA/开源SOTA覆盖的范围,在非SOTA/开源SOTA的领域表现其实无所谓。
qwen3和gpt 5就是例子,GPT之前一直强调海纳百川的AGI,qwen3之前也强调thinking 和non-thinking的融合。
现在这些都不再提了,GPT出了一大堆模型搞起了Router,qwen3也出了instruct,thinking和coder三个版本。
grok告诉我们做题巨强的模型其他可能并不是那么好,而claude则表示即使我数理逻辑能力不好,只要我code能力强,用的人反而会多。
像GLM也开始说general不重要,我前端网页什么的code写得好就会有人用了……
模型性能越来越强,功能却越来越分化。这可能也是AGI从虚无缥缈的概念逐渐落到实处的体现吧……
所以回到原来的问题,这个deepseek v3.1到底更新了什么?