通义千问更新 Qwen3 升级版，性能超越Kimi K2 和 DeepSeek V3，有哪些技术亮点？ - 前言：五月份的时候，第一版千问3发布，我...

前言：

五月份的时候，第一版千问3发布，我快速测试了一下，发现“高分低能”的现象非常明显，于是实名怒喷了一下：

“刷榜”太过，Qwen3没有新意，指令跟随都没做好 - 强化学徒的文章 - 知乎 https://zhuanlan.zhihu.com/p/1905924936410825509

今天早上千问3发布了一个最新版，将推理能力去除了，重新训练了一个no-thinking版本的旗舰模型。

大家可以在他们官网免费测试，不用开“深度思考”：https://chat.qwen.ai

今天晚上比较巧的是，群里朋友对千问是否刷榜，刷榜是否有意义，争论十分激烈，所以，我想着来体验一下，看看效果到底如何。

首先，我们看他们自己公布的榜单：

但早上看到的时候，我还是很怕又一次的“高分低能”。

中午的时候，看到toyama的评测，效果还可以：

通义千问更新 Qwen3 升级版，性能超越Kimi K2 和 DeepSeek V3，有哪些技术亮点？ - toyama nao的回答 - 知乎 https://www.zhihu.com/question/1930932168365925991/answer/1930972327442646873

然后晚上，我自己也简单问了一下，整体来看，智力是有的，闲聊会有惊喜的回答。

我主要的评测问题，是我的知乎提问： https://www.zhihu.com/people/heda-he-28/asks

我贴一下其中的一些问题：

如何抓住“低垂的果实”：这个的见解比较普通：https://chat.qwen.ai/s/6797111e-2289-451c-be01-553318d9e783?fev=0.0.153

背诵滕王阁序全文：正确背出。https://chat.qwen.ai/s/ca2816c0-8fc2-4e97-a403-fd91332efe7a?fev=0.0.153

学术抄袭与维权指南：著作权法第24条回答正确。https://chat.qwen.ai/s/f97caba0-be89-4ce0-9b9f-ce615626d9c1?fev=0.0.153

AI脑内助手的非金融应用设想：一些常见的回答。https://chat.qwen.ai/s/288dc517-3837-4a36-ac85-d9c6ba8a8d8f?fev=0.0.153

技术人如何与AI共舞：常见回答。https://chat.qwen.ai/s/288dc517-3837-4a36-ac85-d9c6ba8a8d8f?fev=0.0.153 2025

知乎值得关注AI博主：没学习我的帖子，所以回答的不太好！https://chat.qwen.ai/s/3df0f441-40f8-466c-bbb7-25ec198d19b4?fev=0.0.153

人脑与AI的进化类比：有个比喻有点意思：训练方式：进化是“预训练”，学习是“上下文学习 + 微调”。https://chat.qwen.ai/s/4801ff0a-64d2-4035-aaf1-323b18d1b427?fev=0.0.153

强化学习机制与负奖励作用：我的两次追问比较有趣。https://chat.qwen.ai/s/07d2d644-dc30-4e19-a3a9-7e0198d6709a?fev=0.0.153

盛世难全历史哲思：假设案例：一个生于“开元元年”（713年）、卒于“天宝初年”（745年）的长安城中产市民，享年约32岁，一生经历开元盛世，未遇安史之乱。哈哈哈，确实盛世，但似的也太早了~~。https://chat.qwen.ai/s/351a4907-1dd9-4dac-b540-3a95f0344111?fev=0.0.153

没来得及测试更多的代码功能，群友有测试过一个比较复杂的数学题，能答对，不过我觉得常见数学题，对它来说，应该是舒适区了。

发布于 2025-07-23 00:38・广东