5个回答

通义千问更新 Qwen3 升级版,性能超越Kimi K2 和 DeepSeek V3,有哪些技术亮点?

cqygfxgfst
6个点赞 👍

前言:

五月份的时候,第一版千问3发布,我快速测试了一下,发现“高分低能”的现象非常明显,于是实名怒喷了一下:

“刷榜”太过,Qwen3没有新意,指令跟随都没做好 - 强化学徒的文章 - 知乎 zhuanlan.zhihu.com/p/19

今天早上千问3发布了一个最新版,将推理能力去除了,重新训练了一个no-thinking版本的旗舰模型。

大家可以在他们官网免费测试,不用开“深度思考”:chat.qwen.ai

今天晚上比较巧的是,群里朋友对千问是否刷榜,刷榜是否有意义,争论十分激烈,所以,我想着来体验一下,看看效果到底如何。

首先,我们看他们自己公布的榜单:

2507这个数值相对确实比较高

但早上看到的时候,我还是很怕又一次的“高分低能”。

中午的时候,看到toyama的评测,效果还可以:

通义千问更新 Qwen3 升级版,性能超越Kimi K2DeepSeek V3,有哪些技术亮点? - toyama nao的回答 - 知乎 zhihu.com/question/1930

然后晚上,我自己也简单问了一下,整体来看,智力是有的,闲聊会有惊喜的回答

我主要的评测问题,是我的知乎提问: zhihu.com/people/heda-h

我贴一下其中的一些问题:

如何抓住“低垂的果实”:这个的见解比较普通:chat.qwen.ai/s/6797111e

背诵滕王阁序全文: 正确背出。chat.qwen.ai/s/ca2816c0

学术抄袭与维权指南:著作权法第24条回答正确。chat.qwen.ai/s/f97caba0

AI脑内助手的非金融应用设想:一些常见的回答。chat.qwen.ai/s/288dc517

技术人如何与AI共舞:常见回答。chat.qwen.ai/s/288dc517 2025

知乎值得关注AI博主:没学习我的帖子,所以回答的不太好!chat.qwen.ai/s/3df0f441

人脑与AI的进化类比:有个比喻有点意思:训练方式 :进化是“预训练”,学习是“上下文学习 + 微调”。chat.qwen.ai/s/4801ff0a

强化学习机制与负奖励作用:我的两次追问比较有趣。chat.qwen.ai/s/07d2d644

盛世难全历史哲思:假设案例:一个生于“开元元年”(713年)、卒于“天宝初年”(745年)的长安城中产市民,享年约32岁,一生经历开元盛世,未遇安史之乱。哈哈哈,确实盛世,但似的也太早了~~。chat.qwen.ai/s/351a4907

没来得及测试更多的代码功能,群友有测试过一个比较复杂的数学题,能答对,不过我觉得常见数学题,对它来说,应该是舒适区了。

强化学徒
自由评论 (0)
分享
Copyright © 2022 GreatFire.org