如何评价 DeepSeek 于 2025 年 8 月 19 日更新的 V3.1 版本？ - 测了几个翻译和写作任务，感觉不如k2和q...

测了几个翻译和写作任务，感觉不如k2和qwen3 2507……

不知道更新了啥……也许是lean能力？

不过有一点，现在的模型已经开始术业各有专攻了。

人们越来越发现【综合性能】本身其实是个伪命题，实际上人们使用的时候会去使用domain SOTA。所以一个模型的价值取决于他SOTA/开源SOTA覆盖的范围，在非SOTA/开源SOTA的领域表现其实无所谓。

qwen3和gpt 5就是例子，GPT之前一直强调海纳百川的AGI，qwen3之前也强调thinking 和non-thinking的融合。

现在这些都不再提了，GPT出了一大堆模型搞起了Router，qwen3也出了instruct，thinking和coder三个版本。

grok告诉我们做题巨强的模型其他可能并不是那么好，而claude则表示即使我数理逻辑能力不好，只要我code能力强，用的人反而会多。

像GLM也开始说general不重要，我前端网页什么的code写得好就会有人用了……

模型性能越来越强，功能却越来越分化。这可能也是AGI从虚无缥缈的概念逐渐落到实处的体现吧……

所以回到原来的问题，这个deepseek v3.1到底更新了什么？