共14个回答0条评论

如何评价 DeepSeek 于 2025 年 8 月 19 日更新的 V3.1 版本？

路明

642 个点赞 👍
省流：悲！也许没有 R2 了！V3.1 把 R1 给融了！

重点 1：别被官方微信公告带沟里，128K 不是重点！模型融合推理才是重点！

重点 2：DeepSeek V3-0324 和 DeepSeek V3 用的同一个 base model，但这次的 V3.1 放出了新的 base model，大概率是重新训的新模型。

DeepSeek 的逻辑可能是，只要 base model 没换，就用日期做版本；重新训了 base model，就改版本号。

先在前面更新一下我的主观感受：

DeepSeek V3.1 有进步，但不多。反而以前的老毛病回来不少：幻觉、中英文混杂。

如果只是一次实验性的关于 Chat、Reasoning 模型融合的测试，那 V3.1 是一次合格的增量更新。往好处想，如果 V3.1 成了，那将来不用单独部署两套模型，节约了很多部署运维的精力，提高了算力利用效率。

但如果这是未来一段时间 DeepSeek 的主力模型，而 V4 依旧遥远、R2 再也不见的话，那大家的很多期待也许就落空了。

当然，GPT-5 的社区口碑也是先崩了一波然后回暖的，让子弹再飞一会，听听社区对 V3.1 的真实反馈（欢迎评论区交流分享各种体感和实测 case）。

目前只见到了微信群里的消息，所以还在蹲官方的模型开源以及文档更新，按照惯例会放出新的 Benchmark 成绩和能力说明。

Update 一下，DeepSeek V3.1 Base 的模型地址已经放出来了^[1]（但还没有 model card）：

按照微信群里的说明，这次更新的「重点」是上下文支持到了 128K：

但是，128K 绝对不是这次更新的重点。因为 DeepSeek V3/R1 的 Context Length 其实一直都是 128K，只不过 DeepSeek 官方的 API 之前只支持到 64K。

官方在 V3-0324 的说明里写的很明白了：

模型参数约 660B，开源版本上下文长度为 128K（网页端、App 和 API 提供 64K 上下文）

再比如，DeepSeek V3 HuggingFace 模型页^[2]

SiliconFlow 上的 DeepSeek V3-0324 模型 API 上下文是 128K

火山引擎上的 DeepSeek 模型 API 上下文均是 128K

虽然上下文长度很重要，但这次最多只能说官方愿意消耗更多算力提供更长的上下文，除非有什么新的扩展上下文同时节约算力的黑科技，否则这并不是重点。

那重点是什么？细心的朋友已经发现了最大的变化：现在即便打开深度思考模式，DeepSeek 显示的依然是 V3 模型。

我们分别来问一下官网深度思考、官网 Reasoner API、火山引擎（R1-0528）、硅基流动（R1-0528）：

很明显，老版本的 DeepSeek R1 是不会有模型身份的认知错误的，但更新后的 DeepSeek，不论是网页对话，还是 API 调用 Reasoner 推理模型，都会明确说自己就是 V3。

答案只有一个，那就是 DeepSeek 跟 Qwen3（的第一个版本）一样，被 GPT-5 忽悠进了模型融合、混合推理的沟里，试图把对话模型和推理模型融到了一起。

（有人评论说不要问模型自己是谁，也不要问模型版本，因为模型是不自知的。我当然明白这一点，但当网页版、API 版同时出现这个情况，那就不是巧合。而且写这些内容的时候，模型文件还没开源，开源之后看 token 的变化，就已经是实锤了）

很难说这种做法好还是不好，毕竟 Qwen3 在尝试过融合推理之后，在新版本的更新里又分别放出了 Instruct 和 Thinking 模型。

而第一个提出要融合模型路线的 GPT-5^[3]，反而选择了 Chat 模型 + Reasoning 模型 + Router 路由的做法，从发布公告的文字表述上理解，并没有直接激进地融合模型：

diff 了一下 V3.1-Base 和 V3-Base 的配置文件，基本上没有大的改动，主要变化就是在于增加了推理，这已经实锤 V3.1 = V3+R1 了：

V3.1 通过新增 token ，提供了完整的思维模式支持：

<think> (ID: 128798) - 推理开始标记

</think> (ID: 128799) - 推理结束标记

<｜search▁begin｜> (ID: 128796) - 搜索开始标记

<｜search▁end｜> (ID: 128797) - 搜索结束标记

相应的，在 tokenizer 中，占位符Token被功能性Token替代：

<｜place▁holder▁no▁796｜> → <｜search▁begin｜>

<｜place▁holder▁no▁797｜> → <｜search▁end｜>

<｜place▁holder▁no▁798｜> → <think>

<｜place▁holder▁no▁799｜> → </think>

在 Chat Template 中：

新增 thinking 变量支持: {% if not thinking is defined %}{% set thinking = false %}{% endif %}

新增 is_last_user 状态跟踪: 用于更精确的对话流程控制

优化工具调用处理: 简化了工具调用的格式化逻辑

思维模式集成: 自动在助手回复中添加<think>和</think>标记

新配置文件：

{ "_from_model_config": true, "bos_token_id": 0, "eos_token_id": 1, "do_sample": true, "temperature": 0.6, "top_p": 0.95, "transformers_version": "4.46.3" }

综合配置文件的变更来看，V3.1 主要改进了推理模式、对话轮次控制、工具调用流程。（也许可以期待一下 Agent 能力的提升？）

初步测试：

鹈鹕测试，用的 Chat API，没开深度思考，说实话效果还不错。

相比于其他模型和旧版模型，新版 DeepSeek 特别喜欢写完整的 HTML 网页，而不是单纯的 SVG 代码，甚至执着于给 SVG 里的形象添加动态效果和动作…（还喜欢加标题、写涩话 - 指上价值的话，不是色色的话）

DeepSeek 一贯以来是只 serve 一个模型的，只要模型更新，就会把老模型替换到。

其他厂家虽然也会下线旧模型，但 DeepSeek 是最激进的那个，他们连 API 都会直接替换，不会保留任何过去的版本。

以 OpenAI 来说，虽然激进地在 ChatGPT 中下架了 GPT-4o，但在 API 平台上，几乎所有模型都还在：

比如点进去 gpt-4o，会发现提供了 0513、0806、1120 三个快照版本：

我之前就诟病过 DeepSeek 的这种做法，因为这种做法意味着，他们完全断绝了商用大客户使用自己 API 的可能性——不会有人接受线上生产业务使用一个可能随时被上游覆盖式更新的 API 的。本来已经调试好的业务，上游一更新，结果下游工作流崩了。（哪怕模型能力有提升，只要风格、格式有小调整，都会有很大影响）

当然，DeepSeek 官网从来没承诺他们会提供快照版本，毕竟他们的模型名称一直是deepseek-chat 和 deepseek-reasoner，而不代表任何具体的版本。

当然，这不妨碍（一些）用户有意见。比如，这次 V3.1 出来，HuggingFace 上已经有人开骂了^[4]：

HackerNews 上的评论是「建议继续使用 0324 版本」：

Reddit 上的评论是^[5]：

Qwen：Deepseek 肯定得出了混合模型效果更差的结论。

Deepseek：Qwen 肯定得出了混合模型效果更好的结论。

以及：

chat & coder 合并 → V2.5

chat & reasoner 合并 → V3.1

现在就是让子弹多飞一会，看看 V3.1 的综合测评能力如何。不过对于线上业务有稳定性要求的，还是得找一个能长久提供 0324 快照模型的云服务，而不是用官网的 deepseek-chat。

如果有看完到这里的，关注、点赞、收藏、评论、转发一波呗，最近我数据好差…

参考

^https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base

^https://huggingface.co/deepseek-ai/DeepSeek-V3

^https://openai.com/index/introducing-gpt-5/

^https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base/discussions/9

^https://www.reddit.com/r/LocalLLaMA/comments/1muft1w/deepseek_v31/
所属专栏 · 14 小时前更新

小段同学的杂记

段小草

新知答主

295 篇内容 · 21504 赞同

最热内容 ·

6 大模型决战高考数学新一卷，豆包和元宝并列第一，OpenAI o3 垫底，如何解读它们的表现？

编辑于 2025-08-20 09:56・河南
查看全文>>
段小草
297 个点赞 👍

我艹，知乎里面真的有大神！可惜没想明白，唉，我没上车啊
 发布于 2025-08-21 17:16・四川

查看全文>>
allen123123
150 个点赞 👍

嗯，墙砌得更高，愈发地遥遥领先了…

还没有人送礼物，鼓励一下作者吧

 发布于 2025-08-20 02:13・贵州

查看全文>>
大地
129 个点赞 👍
短的结论：减量不减质
基本情况：
DeepSeek更新模型向来以谨慎著称，不够爆炸的更新统统算“小更新”，而这次官方竟然连“小更新”都没提，只说了增加上下文到128K（之前64K）。可以预见在性能方面恐怕没有太多惊喜。
实测下来有两个好消息和一个坏消息，好消息是V3.1的Token使用量比0324版下降了约13%，这在一众国产基础模型的输出长度竞赛中是一股“逆流”。坏消息是综合推理性能确实没有变化。但还有一个好消息V3.1的输出稳定性提升了，中位分明显提高了12%，用户体感变化应该较为明显。考虑到上下文提升，一增一减，可以期待在Agent类应用中效果的提升。

逻辑成绩：

*表格为了突出对比关系，仅展示部分可对照模型，不是完整排序。
**题目及测试方式，参见：大语言模型-逻辑能力横评 25-07月榜(Grok4/Qwen3 2507系列)
***完整榜单更新在Github
***这次测试基于8月题目，已经增加#45、#46、#47题，所以所有模型的分数相比7月有变动。

下面就V3.1与前一个迭代0324（以下称旧版）做对比分析。

改进：

长度控制：前面已经表述过，V3.1在Token使用上有较大改进。此外，旧版存在小概率死循环输出，以及在一些复杂问题上不受控的反复验算。而V3.1中暂未发现此类问题。即便复杂问题，V3.1也会意识到自己解不出来后选择放弃，不会无脑推理下去。

字符能力：在典型的字符能力考察上，V3.1有可观测的改进，如#9单词缩写，#11岛屿面积，#37三维投影，#46字母组合等题目，V3.1整体得分，稳定性均不低于旧版。不过字符能力的改进并没有反映在编程能力上，从精选的少量编程题测试来看，V3.1的变化不显著。

不足：

幻觉严重：幻觉是V3以及R1的顽疾，V3.1在这方面自然看不到改善迹象，比如#42年报总结问题，V3.1在所有关键信息摘录上全错，甚至不如旧版。在推理过程会产生大量中间数据/信息的题目上，如#4魔方旋转，#40代码推导，同样表现不如旧版。

能省则省：V3.1在很多问题上有较大的“偷懒”倾向，比如#24数字规律，在推导十几次，输出3000多Token时宣布放弃，“由于时间关系，我直接给出常见答案”。#29数学符号重定义，也是在短暂推理后放弃。#39火车票问题因为prompt要求不能写程序，V3.1更是直言不讳，觉得太麻烦，不会做，告辞。类似Case还有很多。或许是DeepSeek为了优化Token时候做的取舍。

中英夹杂：夹杂问题在旧版是不存在的，甚至用英文提问，也会回复中文。而在V3.1里，中英夹杂却随处可见，尤其推理到一定长度后，大概率会开始切换到英文进行思考。并且V3.1的夹杂问题比其他存在类似问题的国产模型要稍微严重一些，他会在单词的粒度上来回换语言，这给阅读输出内容造成了极大的干扰。

赛博史官曰：
人们对DeepSeek的关注热情显著的超过其他国内任何一家大模型团队，以至于要让DeepSeek背起打爆OpenAI+Google+Anthropic+Grok的巨大责任，但这显然不不切实际的，技术发展有其必然规律。
从V3.1的变化中，我们能一窥DeepSeek团队的思考逻辑，推测他们自己发现了什么问题，进行了何种尝试，以及这样的尝试带来了怎样的结果和教训。这样的过程或许是任何一个瞄准AGI的大模型团队绕不过去的。

注：V3.1 疑似auto thinking模型，官方api的reasoner接口跑下来输出也有变化，但稳妥起见，等一下官方公告再公布测试情况。
还没有人送礼物，鼓励一下作者吧

发布于 2025-08-20 00:07・广东
查看全文>>
toyama nao
104 个点赞 👍

模型已经开源，

https://huggingface.co/collections/deepseek-ai/deepseek-v31-68a491bed32bd77e7fca048fhuggingface.co/collections/deepseek-ai/deepseek-v31-68a491bed32bd77e7fca048f

通过模型的chat template已经可以确定，是混合推理模型，昨天的推测是正确的。

PS：每个模型出来，大家测试感觉都有不同，主要业务场景，和日常使用不同。

HF已经开骂了，我觉得骂真不至于。。。。

同时新增search标记"<｜search▁begin｜>"、"<｜search▁end｜>"，不过开启联网搜索还是先搜索在think、回答，并没用边想边搜等等，所以在哪儿用了，怎么用了呢？

今天DeepSeek更新了，上新V3.1模型，一如既往，一声不吱，然后AI圈又沸腾了！！

但我的第一个疑问，就是我到底更没更新，因为我简单测了几个问题，并没有太大的改变，然后我迷惑了。还再群里问了一下。

经过提醒，发现确实更新了，因为之前开深度思考的时候，回复一定是R1，而现在开启深度思考，回复的却是V3。

那么进一步来看，V3.1应该是一个混合推理模型，感觉跟Qwen3将混合推理模型走了相反的方向，但是一切都是猜测，等v3.1开源就知道了。

本着对神的尊重，还是要对比测试一下v3.1的效果，但实话实说，有点失望，这也许是为什么官方发信息的时候，仅说了长度拓展至128K，就没用然后了，也没说具体哪个方向提高了，

也许确实也没提高，大家也都有一样的疑问。

然后我进行了一波对比实测，先说结论，

我觉得没提高，我测了7个方面，我觉得都没有提高，甚至一些推理内容，还没有之前版本好，欢迎大家评论区讨论，说出你的看法！

然后我还发现think过程的中英文混杂变得比R1更明显了，这可能是因为RLVR导致，这里有一篇相关paper，The Impact of Language Mixing on Bilingual LLM Reasoning，结论是语言混杂可以增强推理能力。

附一个中英混杂think的测试，之前这种文本推理一般不会出现，只有数学代码会有，而现在这个版本，经常会出现。

下面附测试结果，老版本模型是用硅基流动接口测试的。

常规测试

Prompt：将“I love DeepSeek-V3.1”这句话的所有内容反过来写

R1-0528结果：正确

V3.1结果：多了个空格

知识理解

Prompt：如何理解“但丁真不会说中国话，但丁真会说中国话”

R1-0528结果：不对

V3.1结果：你看连回答里都带“perception”

角色扮演&创作

Prompt：用知乎风格写一段对比 deepseek-v3 和 deepseek-v3.1 的使用体验，语气轻松、略带吐槽。

R1-0528结果：往下看，我觉得比V3.1强

V3.1结果：

依旧小红，依旧老鹰，依旧色盲

Prompt：小红有2个兄弟，3个姐妹，那么小红的兄弟有几个姐妹

R1-0528结果：回答的很全面

V3.1结果：也对，我认为小红是女生

Prompt：未来的某天，李同学在实验室制作超导磁悬浮材料时，意外发现实验室的老鼠在空中飞，分析发现，是因为老鼠不小心吃了磁悬浮材料。第二天，李同学又发现实验室的蛇也在空中飞，分析发现，是因为蛇吃了老鼠。第三天，李同学又发现实验室的老鹰也在空中飞，你认为其原因是

R1-0528结果：没对

V3.1结果：没对

Prompt：有一天，一个女孩参加数学考试只得了 38 分。她心里对父亲的惩罚充满恐惧，于是偷偷把分数改成了 88 分。她的父亲看到试卷后，怒发冲冠，狠狠地给了她一巴掌，怒吼道：“你这 8 怎么一半是绿的一半是红的，你以为我是傻子吗？”女孩被打后，委屈地哭了起来，什么也没说。过了一会儿，父亲突然崩溃了。请问这位父亲为什么过一会崩溃了？

R1-0528结果：回答出了女儿色盲，但没回答伦理

V3.1结果：回答的是父亲色盲，离谱

数学

Prompt：Sroan 有一个私人的保险箱，密码是 7 个不同的数字。 Guess #1: 9062437 Guess #2: 8593624 Guess #3: 4286915 Guess #4: 3450982 Sroan 说：你们 4 个人每人都猜对了位置不相邻的两个数字。（只有 “位置及其对应的数字” 都对才算对）问：密码是什么？

R1-0528结果：对了

V3.1结果：没对，R1都对了

Prompt：2025年高考全国一卷数学试题

R1-0528结果：前两问对了，最后一问错了

V3.1结果：前两问对了，最后一问错了

代码

Prompt：可爱风格五子棋游戏界面，画面有两个模式按钮“人人对战”和“人机对战”，界面整体采用马卡龙色调，棋盘简洁清晰，棋子设计成卡通小动物（如猫咪和小熊），背景带有轻微渐变和星星点缀，界面边缘圆润，按钮Q萌，整体风格温馨可爱，适合儿童或休闲玩家使用，2D插画风，用html呈现

R1-0528结果：还行，但人机有点呆，不如Qwen3-Coder

00:09

V3.1结果：但人机有点呆，

00:10

Prompt：生成一个通过点击立方体的各个面，逐渐展开为完整平面的交互动画，用html展现

R1-0528结果：

00:13

V3.1结果:

00:09

还测了几个其他的，感觉不如整体Qwen3-Coder。

写在最后

V3.1 仅提高 0.1个版本，是合理的。

V3.1整体感觉没啥提升，甚至我觉得还有些退步，不过虽然例子附的都是V3.1和R1的对比，不开推理，V3.1和V3对比我觉得也相差不大。

不过我依旧期待R2，不知道DeepSeek啥时候放出来！

PS：都看到这里，来个点赞、收藏、关注吧。您的支持是我坚持的最大动力！

还没有人送礼物，鼓励一下作者吧

编辑于 2025-08-20 10:45・江苏

继续追问

由知乎直答提供

V3.1版本的搜索功能如何实现？

更新后模型的回复标识有何变化？

V3.1版本的推理能力是否有所提升？

查看全文>>
刘聪NLP
84 个点赞 👍

更新了啥？加入了更多的敏感词吗？

还没有人送礼物，鼓励一下作者吧

 发布于 2025-08-20 06:45・广东

查看全文>>
吐槽仙人
40 个点赞 👍

不是，现在 gemini和claude都是1M的上下文，GPT5也有400k，你更新了才128k，说实话有点更不上时代了

小道消息gemini3上下文10M
发布于 2025-08-19 23:44・广东

查看全文>>
落花风起
32 个点赞 👍

普遍反馈，拉了坨大的，如果你认为 gpt5算是拉了托大的话，deepseek就是拉了坨很大的结石，目前来看，国产开源模型还是千问，老d已经是路边喽。
发布于 2025-08-22 08:57・江苏

查看全文>>
如无必要
26 个点赞 👍

虽然我看到不少人抱怨创意写作能力变差了，但实际上如果你真的是深度ai rp玩家的话，你会发现，v3.1由于其优秀的指令遵从，改善了的上下文和逻辑能力，优秀的中文语料，实际上就是现阶段可以使用的最优秀的rp模型。2.5pro残血外加疯狂截断，claude疯狂删语料，gpt和grok更是路边一条。
发布于 2025-08-22 16:27・广东

查看全文>>
黄延续
17 个点赞 👍

现在还能用 Deepseek辅助工作的，说明你的工作其实不需要AI辅助。
发布于 2025-08-20 01:29・山东

查看全文>>
定理收藏家
12 个点赞 👍

测了几个翻译和写作任务，感觉不如k2和qwen3 2507……

不知道更新了啥……也许是lean能力？

不过有一点，现在的模型已经开始术业各有专攻了。

人们越来越发现【综合性能】本身其实是个伪命题，实际上人们使用的时候会去使用domain SOTA。所以一个模型的价值取决于他SOTA/开源SOTA覆盖的范围，在非SOTA/开源SOTA的领域表现其实无所谓。

qwen3和gpt 5就是例子，GPT之前一直强调海纳百川的AGI，qwen3之前也强调thinking 和non-thinking的融合。

现在这些都不再提了，GPT出了一大堆模型搞起了Router，qwen3也出了instruct，thinking和coder三个版本。

grok告诉我们做题巨强的模型其他可能并不是那么好，而claude则表示即使我数理逻辑能力不好，只要我code能力强，用的人反而会多。

像GLM也开始说general不重要，我前端网页什么的code写得好就会有人用了……

模型性能越来越强，功能却越来越分化。这可能也是AGI从虚无缥缈的概念逐渐落到实处的体现吧……

所以回到原来的问题，这个deepseek v3.1到底更新了什么？
编辑于 2025-08-19 23:39・北京

查看全文>>
还是不注名好
6 个点赞 👍

现在一个最大的麻烦是英伟达想卖，但上面不让你买，让你用国产的，阿里腾讯已经被点名了，这才是问题的重点。

这种制度想诞生革命性的创新阻力太大，几乎没任何可能
发布于 2025-08-22 21:59・四川

查看全文>>
万世太平
4 个点赞 👍

问了个之前问过的思想试验性质的设计型开放问题，

再和之前问过的答案进行对比，

质量倒退了，而且还退得挺多，

把前后两个答案丢给其他ai评价，

结论完全一致，都是新版答案显著比老答案的水平要差。

这版的感觉回答像糊弄你，

完全没有惊喜亮点，

提出的每个点都很平庸，像在敷衍人一样。
发布于 2025-08-19 23:57・湖北

查看全文>>
成隽
0 个点赞 👍

巧妇难为无米之炊。

中国科技发展不上去，我是很可以理解的。

但中国快消品发展不上去我理解不了。（说明你们不支持国货。）
发布于 2025-08-20 16:46・山西

查看全文>>
深具世界眼光

如何评价 DeepSeek 于 2025 年 8 月 19 日更新的 V3.1 版本？

参考

常规测试

知识理解

角色扮演&创作

依旧小红，依旧老鹰，依旧色盲

数学

代码

写在最后

继续追问