有传言,DeepSeek喜欢选中国传统节日前发布,春节,清明节,端午节…
展开想象,七月初七发V4,中秋国庆,发R2。(不是没有可能)——R2核弹,献礼国庆,想象这氛围感,这不是国模,是国武。
新R1的性能看起来,可以苟很久。三个月是苟得住的。可以视为R1.7。
总体评价:
远超预期,重回第一梯队,实战性极强。
国产的强心针,为挑战下一代国际级模型奠定了信心基础。
应该得到足够的媒体关注。
平均表现与Claude、Gemini有一定差距,但偶尔会爆起反杀。
主要提升是: 写作和写代码。 (评测已经发过了,不赘述了)https://www.zhihu.com/answer/1911235576583160661
他们导入了大量且精准的后训练,很大部分提升都不是来自RL Reasoning,是直接的高质量数据灌输,RL主要提升了R1的思维链品质和长度,不管用的啥方法,反正方向对了。
压力给到Qwen和Seed豆包。
Qwen Max,豆包2.0出不出牌?
___这个三国斗牌游戏,我在持续测试,
DeepSeek 新R1 已经齐平Claude Opus 4,甚至略超,大大超过了Gemini、豆包Coding这些模型。

还没有人送礼物,鼓励一下作者吧