首页/如何评价 DeepSeek 于 2025 年 8 月 19 日更新的 V3.1 版本?/
共14个回答0条评论

如何评价 DeepSeek 于 2025 年 8 月 19 日更新的 V3.1 版本?

路明
排序方式:被封时间
时间排序由新到旧
  • 642 个点赞 👍

    省流:悲!也许没有 R2 了!V3.1 把 R1 给融了!

    重点 1:别被官方微信公告带沟里,128K 不是重点!模型融合推理才是重点!

    重点 2:DeepSeek V3-0324 和 DeepSeek V3 用的同一个 base model,但这次的 V3.1 放出了新的 base model,大概率是重新训的新模型。

    DeepSeek 的逻辑可能是,只要 base model 没换,就用日期做版本;重新训了 base model,就改版本号。

    先在前面更新一下我的主观感受:

    DeepSeek V3.1 有进步,但不多。反而以前的老毛病回来不少:幻觉、中英文混杂。

    如果只是一次实验性的关于 Chat、Reasoning 模型融合的测试,那 V3.1 是一次合格的增量更新。往好处想,如果 V3.1 成了,那将来不用单独部署两套模型,节约了很多部署运维的精力,提高了算力利用效率。

    但如果这是未来一段时间 DeepSeek 的主力模型,而 V4 依旧遥远、R2 再也不见的话,那大家的很多期待也许就落空了。

    当然,GPT-5 的社区口碑也是先崩了一波然后回暖的,让子弹再飞一会,听听社区对 V3.1 的真实反馈(欢迎评论区交流分享各种体感和实测 case)。


    目前只见到了微信群里的消息,所以还在蹲官方的模型开源以及文档更新,按照惯例会放出新的 Benchmark 成绩和能力说明。

    Update 一下,DeepSeek V3.1 Base 的模型地址已经放出来了[1](但还没有 model card):

    按照微信群里的说明,这次更新的「重点」是上下文支持到了 128K:

    但是,128K 绝对不是这次更新的重点。因为 DeepSeek V3/R1 的 Context Length 其实一直都是 128K,只不过 DeepSeek 官方的 API 之前只支持到 64K。

    官方在 V3-0324 的说明里写的很明白了:

    模型参数约 660B,开源版本上下文长度为 128K(网页端、App 和 API 提供 64K 上下文)

    再比如,DeepSeek V3 HuggingFace 模型页[2]

    SiliconFlow 上的 DeepSeek V3-0324 模型 API 上下文是 128K

    火山引擎上的 DeepSeek 模型 API 上下文均是 128K

    虽然上下文长度很重要,但这次最多只能说官方愿意消耗更多算力提供更长的上下文,除非有什么新的扩展上下文同时节约算力的黑科技,否则这并不是重点。

    那重点是什么?细心的朋友已经发现了最大的变化:现在即便打开深度思考模式,DeepSeek 显示的依然是 V3 模型。

    我们分别来问一下官网深度思考、官网 Reasoner API、火山引擎(R1-0528)、硅基流动(R1-0528):

    很明显,老版本的 DeepSeek R1 是不会有模型身份的认知错误的,但更新后的 DeepSeek,不论是网页对话,还是 API 调用 Reasoner 推理模型,都会明确说自己就是 V3。

    答案只有一个,那就是 DeepSeek 跟 Qwen3(的第一个版本) 一样,被 GPT-5 忽悠进了模型融合、混合推理的沟里,试图把对话模型和推理模型融到了一起。

    (有人评论说不要问模型自己是谁,也不要问模型版本,因为模型是不自知的。我当然明白这一点,但当网页版、API 版同时出现这个情况,那就不是巧合。而且写这些内容的时候,模型文件还没开源,开源之后看 token 的变化,就已经是实锤了

    很难说这种做法好还是不好,毕竟 Qwen3 在尝试过融合推理之后,在新版本的更新里又分别放出了 Instruct 和 Thinking 模型。

    而第一个提出要融合模型路线的 GPT-5[3],反而选择了 Chat 模型 + Reasoning 模型 + Router 路由的做法,从发布公告的文字表述上理解,并没有直接激进地融合模型:


    diff 了一下 V3.1-Base 和 V3-Base 的配置文件,基本上没有大的改动,主要变化就是在于增加了推理,这已经实锤 V3.1 = V3+R1 了

    V3.1 通过新增 token ,提供了完整的思维模式支持:

    • <think> (ID: 128798) - 推理开始标记
    • </think> (ID: 128799) - 推理结束标记
    • <|search▁begin|> (ID: 128796) - 搜索开始标记
    • <|search▁end|> (ID: 128797) - 搜索结束标记

    相应的,在 tokenizer 中,占位符Token被功能性Token替代:

    • <|place▁holder▁no▁796|><|search▁begin|>
    • <|place▁holder▁no▁797|><|search▁end|>
    • <|place▁holder▁no▁798|><think>
    • <|place▁holder▁no▁799|></think>

    在 Chat Template 中:

    1. 新增 thinking 变量支持: {% if not thinking is defined %}{% set thinking = false %}{% endif %}
    2. 新增 is_last_user 状态跟踪: 用于更精确的对话流程控制
    3. 优化工具调用处理: 简化了工具调用的格式化逻辑
    4. 思维模式集成: 自动在助手回复中添加<think></think>标记

    新配置文件:

    {
      "_from_model_config": true,
      "bos_token_id": 0,
      "eos_token_id": 1,
      "do_sample": true,
      "temperature": 0.6,
      "top_p": 0.95,
      "transformers_version": "4.46.3"
    } 

    综合配置文件的变更来看,V3.1 主要改进了推理模式、对话轮次控制、工具调用流程。(也许可以期待一下 Agent 能力的提升?)


    初步测试:

    鹈鹕测试,用的 Chat API,没开深度思考,说实话效果还不错。

    相比于其他模型和旧版模型,新版 DeepSeek 特别喜欢写完整的 HTML 网页,而不是单纯的 SVG 代码,甚至执着于给 SVG 里的形象添加动态效果和动作…(还喜欢加标题、写涩话 - 指上价值的话,不是色色的话)


    DeepSeek 一贯以来是只 serve 一个模型的,只要模型更新,就会把老模型替换到。

    其他厂家虽然也会下线旧模型,但 DeepSeek 是最激进的那个,他们连 API 都会直接替换,不会保留任何过去的版本。

    以 OpenAI 来说,虽然激进地在 ChatGPT 中下架了 GPT-4o,但在 API 平台上,几乎所有模型都还在:

    比如点进去 gpt-4o,会发现提供了 0513、0806、1120 三个快照版本:

    我之前就诟病过 DeepSeek 的这种做法,因为这种做法意味着,他们完全断绝了商用大客户使用自己 API 的可能性——不会有人接受线上生产业务使用一个可能随时被上游覆盖式更新的 API 的。本来已经调试好的业务,上游一更新,结果下游工作流崩了。(哪怕模型能力有提升,只要风格、格式有小调整,都会有很大影响)

    当然,DeepSeek 官网从来没承诺他们会提供快照版本,毕竟他们的模型名称一直是deepseek-chatdeepseek-reasoner,而不代表任何具体的版本。

    当然,这不妨碍(一些)用户有意见。比如,这次 V3.1 出来,HuggingFace 上已经有人开骂了[4]

    HackerNews 上的评论是「建议继续使用 0324 版本」:

    Reddit 上的评论是[5]

    • Qwen:Deepseek 肯定得出了混合模型效果更差的结论。
    • Deepseek:Qwen 肯定得出了混合模型效果更好的结论。

    以及:

    • chat & coder 合并 → V2.5
    • chat & reasoner 合并 → V3.1

    现在就是让子弹多飞一会,看看 V3.1 的综合测评能力如何。不过对于线上业务有稳定性要求的,还是得找一个能长久提供 0324 快照模型的云服务,而不是用官网的 deepseek-chat


    如果有看完到这里的,关注、点赞、收藏、评论、转发一波呗,最近我数据好差…

    参考

    1. ^https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base
    2. ^https://huggingface.co/deepseek-ai/DeepSeek-V3
    3. ^https://openai.com/index/introducing-gpt-5/
    4. ^https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base/discussions/9
    5. ^https://www.reddit.com/r/LocalLLaMA/comments/1muft1w/deepseek_v31/

    查看全文>>

    段小草
  • 297 个点赞 👍

    我艹,知乎里面真的有大神!可惜没想明白,唉,我没上车啊

    查看全文>>

    allen123123
  • 150 个点赞 👍

    查看全文>>

    大地
  • 129 个点赞 👍

    短的结论:减量不减质
    基本情况:
    DeepSeek更新模型向来以谨慎著称,不够爆炸的更新统统算“小更新”,而这次官方竟然连“小更新”都没提,只说了增加上下文到128K(之前64K)。可以预见在性能方面恐怕没有太多惊喜。
    实测下来有两个好消息和一个坏消息,好消息是V3.1Token使用量比0324版下降了约13%,这在一众国产基础模型的输出长度竞赛中是一股“逆流”。坏消息是综合推理性能确实没有变化。但还有一个好消息V3.1的输出稳定性提升了,中位分明显提高了12%,用户体感变化应该较为明显。考虑到上下文提升,一增一减,可以期待在Agent类应用中效果的提升。


    逻辑成绩:


    *表格为了突出对比关系,仅展示部分可对照模型,不是完整排序。
    **题目及测试方式,参见:大语言模型-逻辑能力横评 25-07月榜(Grok4/Qwen3 2507系列)
    ***完整榜单更新在Github
    ***这次测试基于8月题目,已经增加#45、#46、#47题,所以所有模型的分数相比7月有变动。


    下面就V3.1与前一个迭代0324(以下称旧版)做对比分析。


    改进:

    • 长度控制:前面已经表述过,V3.1在Token使用上有较大改进。此外,旧版存在小概率死循环输出,以及在一些复杂问题上不受控的反复验算。而V3.1中暂未发现此类问题。即便复杂问题,V3.1也会意识到自己解不出来后选择放弃,不会无脑推理下去。
    • 字符能力:在典型的字符能力考察上,V3.1有可观测的改进,如#9单词缩写,#11岛屿面积,#37三维投影,#46字母组合等题目,V3.1整体得分,稳定性均不低于旧版。不过字符能力的改进并没有反映在编程能力上,从精选的少量编程题测试来看,V3.1的变化不显著。



    不足:

    • 幻觉严重:幻觉是V3以及R1的顽疾,V3.1在这方面自然看不到改善迹象,比如#42年报总结问题,V3.1在所有关键信息摘录上全错,甚至不如旧版。在推理过程会产生大量中间数据/信息的题目上,如#4魔方旋转,#40代码推导,同样表现不如旧版。
    • 能省则省:V3.1在很多问题上有较大的“偷懒”倾向,比如#24数字规律,在推导十几次,输出3000多Token时宣布放弃,“由于时间关系,我直接给出常见答案”。#29数学符号重定义,也是在短暂推理后放弃。#39火车票问题因为prompt要求不能写程序,V3.1更是直言不讳,觉得太麻烦,不会做,告辞。类似Case还有很多。或许是DeepSeek为了优化Token时候做的取舍。
    • 中英夹杂:夹杂问题在旧版是不存在的,甚至用英文提问,也会回复中文。而在V3.1里,中英夹杂却随处可见,尤其推理到一定长度后,大概率会开始切换到英文进行思考。并且V3.1的夹杂问题比其他存在类似问题的国产模型要稍微严重一些,他会在单词的粒度上来回换语言,这给阅读输出内容造成了极大的干扰。



    赛博史官曰:
    人们对DeepSeek的关注热情显著的超过其他国内任何一家大模型团队,以至于要让DeepSeek背起打爆OpenAI+Google+Anthropic+Grok的巨大责任,但这显然不不切实际的,技术发展有其必然规律。
    从V3.1的变化中,我们能一窥DeepSeek团队的思考逻辑,推测他们自己发现了什么问题,进行了何种尝试,以及这样的尝试带来了怎样的结果和教训。这样的过程或许是任何一个瞄准AGI的大模型团队绕不过去的。


    注:V3.1 疑似auto thinking模型,官方api的reasoner接口跑下来输出也有变化,但稳妥起见,等一下官方公告再公布测试情况。

    还没有人送礼物,鼓励一下作者吧

    查看全文>>

    toyama nao
  • 104 个点赞 👍

    模型已经开源,

    通过模型的chat template已经可以确定,是混合推理模型,昨天的推测是正确的。

    PS:每个模型出来,大家测试感觉都有不同,主要业务场景,和日常使用不同。

    HF已经开骂了,我觉得骂真不至于。。。。


    同时新增search标记"<|search▁begin|>"、"<|search▁end|>",不过开启联网搜索还是先搜索在think、回答,并没用边想边搜等等,所以在哪儿用了,怎么用了呢?


    今天DeepSeek更新了,上新V3.1模型,一如既往,一声不吱,然后AI圈又沸腾了!!

    但我的第一个疑问,就是我到底更没更新,因为我简单测了几个问题,并没有太大的改变,然后我迷惑了。还再群里问了一下。

    经过提醒,发现确实更新了,因为之前开深度思考的时候,回复一定是R1,而现在开启深度思考,回复的却是V3。

    那么进一步来看,V3.1应该是一个混合推理模型,感觉跟Qwen3将混合推理模型走了相反的方向,但是一切都是猜测,等v3.1开源就知道了。

    本着对神的尊重,还是要对比测试一下v3.1的效果,但实话实说,有点失望,这也许是为什么官方发信息的时候,仅说了长度拓展至128K,就没用然后了,也没说具体哪个方向提高了,

    也许确实也没提高,大家也都有一样的疑问。

    然后我进行了一波对比实测,先说结论,

    我觉得没提高,我测了7个方面,我觉得都没有提高,甚至一些推理内容,还没有之前版本好,欢迎大家评论区讨论,说出你的看法!

    然后我还发现think过程的中英文混杂变得比R1更明显了,这可能是因为RLVR导致,这里有一篇相关paper,The Impact of Language Mixing on Bilingual LLM Reasoning,结论是语言混杂可以增强推理能力。

    附一个中英混杂think的测试,之前这种文本推理一般不会出现,只有数学代码会有,而现在这个版本,经常会出现。

    下面附测试结果,老版本模型是用硅基流动接口测试的。

    常规测试

    Prompt:将“I love DeepSeek-V3.1”这句话的所有内容反过来写

    R1-0528结果:正确

    V3.1结果:多了个空格

    知识理解

    Prompt:如何理解“但丁真不会说中国话,但丁真会说中国话”

    R1-0528结果:不对

    V3.1结果:你看连回答里都带“perception”

    角色扮演&创作

    Prompt:用知乎风格写一段对比 deepseek-v3 和 deepseek-v3.1 的使用体验,语气轻松、略带吐槽。

    R1-0528结果:往下看,我觉得比V3.1强

    V3.1结果:

    依旧小红,依旧老鹰,依旧色盲

    Prompt:小红有2个兄弟,3个姐妹,那么小红的兄弟有几个姐妹

    R1-0528结果:回答的很全面

    V3.1结果:也对,我认为小红是女生

    Prompt:未来的某天,李同学在实验室制作超导磁悬浮材料时,意外发现实验室的老鼠在空中飞,分析发现,是因为老鼠不小心吃了磁悬浮材料。第二天,李同学又发现实验室的蛇也在空中飞,分析发现,是因为蛇吃了老鼠。第三天,李同学又发现实验室的老鹰也在空中飞,你认为其原因是

    R1-0528结果:没对

    V3.1结果:没对

    Prompt:有一天,一个女孩参加数学考试只得了 38 分。她心里对父亲的惩罚充满恐惧,于是偷偷把分数改成了 88 分。她的父亲看到试卷后,怒发冲冠,狠狠地给了她一巴掌,怒吼道:“你这 8 怎么一半是绿的一半是红的,你以为我是傻子吗?”女孩被打后,委屈地哭了起来,什么也没说。过了一会儿,父亲突然崩溃了。请问这位父亲为什么过一会崩溃了?

    R1-0528结果:回答出了女儿色盲,但没回答伦理

    V3.1结果:回答的是父亲色盲,离谱

    数学

    Prompt:Sroan 有一个私人的保险箱,密码是 7 个 不同的数字。 Guess #1: 9062437 Guess #2: 8593624 Guess #3: 4286915 Guess #4: 3450982 Sroan 说: 你们 4 个人每人都猜对了位置不相邻的两个数字。 (只有 “位置及其对应的数字” 都对才算对) 问:密码是什么?

    R1-0528结果:对了

    V3.1结果:没对,R1都对了

    Prompt:2025年高考全国一卷数学试题

    R1-0528结果:前两问对了,最后一问错了

    V3.1结果:前两问对了,最后一问错了

    代码

    Prompt:可爱风格五子棋游戏界面,画面有两个模式按钮“人人对战”和“人机对战”,界面整体采用马卡龙色调,棋盘简洁清晰,棋子设计成卡通小动物(如猫咪和小熊),背景带有轻微渐变和星星点缀,界面边缘圆润,按钮Q萌,整体风格温馨可爱,适合儿童或休闲玩家使用,2D插画风,用html呈现

    R1-0528结果:还行,但人机有点呆,不如Qwen3-Coder

    00:09

    V3.1结果:但人机有点呆,

    00:10

    Prompt:生成一个通过点击立方体的各个面,逐渐展开为完整平面的交互动画,用html展现

    R1-0528结果:

    00:13

    V3.1结果:

    00:09

    还测了几个其他的,感觉不如整体Qwen3-Coder。

    写在最后

    V3.1 仅提高 0.1个版本,是合理的。

    V3.1整体感觉没啥提升,甚至我觉得还有些退步,不过虽然例子附的都是V3.1和R1的对比,不开推理,V3.1和V3对比我觉得也相差不大。

    不过我依旧期待R2,不知道DeepSeek啥时候放出来!

    PS:都看到这里,来个点赞、收藏、关注吧。 您的支持是我坚持的最大动力!

    查看全文>>

    刘聪NLP
  • 84 个点赞 👍

    查看全文>>

    吐槽仙人
  • 40 个点赞 👍

    不是,现在geminiclaude都是1M的上下文,GPT5也有400k,你更新了才128k,说实话有点更不上时代了

    小道消息gemini3上下文10M

    查看全文>>

    落花风起
  • 32 个点赞 👍

    普遍反馈,拉了坨大的,如果你认为gpt5算是拉了托大的话,deepseek就是拉了坨很大的结石,目前来看,国产开源模型还是千问,老d已经是路边喽。

    查看全文>>

    如无必要
  • 26 个点赞 👍

    虽然我看到不少人抱怨创意写作能力变差了,但实际上如果你真的是深度ai rp玩家的话,你会发现,v3.1由于其优秀的指令遵从,改善了的上下文和逻辑能力,优秀的中文语料,实际上就是现阶段可以使用的最优秀的rp模型。2.5pro残血外加疯狂截断,claude疯狂删语料,gpt和grok更是路边一条。

    查看全文>>

    黄延续
  • 17 个点赞 👍

    现在还能用Deepseek辅助工作的,说明你的工作其实不需要AI辅助。

    查看全文>>

    定理收藏家
  • 12 个点赞 👍

    查看全文>>

    还是不注名好
  • 6 个点赞 👍

    现在一个最大的麻烦是英伟达想卖,但上面不让你买,让你用国产的,阿里腾讯已经被点名了,这才是问题的重点。

    这种制度想诞生革命性的创新阻力太大,几乎没任何可能

    查看全文>>

    万世太平
  • 4 个点赞 👍

    查看全文>>

    成隽
  • 0 个点赞 👍

    查看全文>>

    深具世界眼光

1

  • 1
  • 跳至
Copyright © 2022 GreatFire.org