11个回答

5 月 28 日 DeepSeek R1 模型完成小版本试升级,具体有哪些提升?使用体验如何?

wyatt
131个点赞 👍

有传言,DeepSeek喜欢选中国传统节日前发布,春节,清明节,端午节…

展开想象,七月初七发V4,中秋国庆,发R2。(不是没有可能)——R2核弹,献礼国庆,想象这氛围感,这不是国模,是国武。

新R1的性能看起来,可以苟很久。三个月是苟得住的。可以视为R1.7。

总体评价:

远超预期,重回第一梯队,实战性极强。

国产的强心针,为挑战下一代国际级模型奠定了信心基础。

应该得到足够的媒体关注。

平均表现与ClaudeGemini有一定差距,但偶尔会爆起反杀。

Qwen豆包这样第二梯队又甩在了身后。

主要提升是: 写作和写代码。 (评测已经发过了,不赘述了)zhihu.com/answer/191123

他们导入了大量且精准的后训练,很大部分提升都不是来自RL Reasoning,是直接的高质量数据灌输,RL主要提升了R1的思维链品质和长度,不管用的啥方法,反正方向对了。

压力给到Qwen和Seed豆包。

Qwen Max,豆包2.0出不出牌?


___这个三国斗牌游戏,我在持续测试,

DeepSeek 新R1 已经齐平Claude Opus 4,甚至略超,大大超过了Gemini、豆包Coding这些模型。

还没有人送礼物,鼓励一下作者吧
Trisimo崔思莫
自由评论 (0)
分享
Copyright © 2022 GreatFire.org