前言:
五月份的时候,第一版千问3发布,我快速测试了一下,发现“高分低能”的现象非常明显,于是实名怒喷了一下:
“刷榜”太过,Qwen3没有新意,指令跟随都没做好 - 强化学徒的文章 - 知乎 https://zhuanlan.zhihu.com/p/1905924936410825509
今天早上千问3发布了一个最新版,将推理能力去除了,重新训练了一个no-thinking版本的旗舰模型。
大家可以在他们官网免费测试,不用开“深度思考”:https://chat.qwen.ai
今天晚上比较巧的是,群里朋友对千问是否刷榜,刷榜是否有意义,争论十分激烈,所以,我想着来体验一下,看看效果到底如何。
首先,我们看他们自己公布的榜单:

但早上看到的时候,我还是很怕又一次的“高分低能”。
中午的时候,看到toyama的评测,效果还可以:
通义千问更新 Qwen3 升级版,性能超越Kimi K2 和 DeepSeek V3,有哪些技术亮点? - toyama nao的回答 - 知乎 https://www.zhihu.com/question/1930932168365925991/answer/1930972327442646873
然后晚上,我自己也简单问了一下,整体来看,智力是有的,闲聊会有惊喜的回答。
我主要的评测问题,是我的知乎提问: https://www.zhihu.com/people/heda-he-28/asks
我贴一下其中的一些问题:
如何抓住“低垂的果实”:这个的见解比较普通:https://chat.qwen.ai/s/6797111e-2289-451c-be01-553318d9e783?fev=0.0.153
背诵滕王阁序全文: 正确背出。https://chat.qwen.ai/s/ca2816c0-8fc2-4e97-a403-fd91332efe7a?fev=0.0.153
学术抄袭与维权指南:著作权法第24条回答正确。https://chat.qwen.ai/s/f97caba0-be89-4ce0-9b9f-ce615626d9c1?fev=0.0.153
AI脑内助手的非金融应用设想:一些常见的回答。https://chat.qwen.ai/s/288dc517-3837-4a36-ac85-d9c6ba8a8d8f?fev=0.0.153
技术人如何与AI共舞:常见回答。https://chat.qwen.ai/s/288dc517-3837-4a36-ac85-d9c6ba8a8d8f?fev=0.0.153 2025
知乎值得关注AI博主:没学习我的帖子,所以回答的不太好!https://chat.qwen.ai/s/3df0f441-40f8-466c-bbb7-25ec198d19b4?fev=0.0.153
人脑与AI的进化类比:有个比喻有点意思:训练方式 :进化是“预训练”,学习是“上下文学习 + 微调”。https://chat.qwen.ai/s/4801ff0a-64d2-4035-aaf1-323b18d1b427?fev=0.0.153
强化学习机制与负奖励作用:我的两次追问比较有趣。https://chat.qwen.ai/s/07d2d644-dc30-4e19-a3a9-7e0198d6709a?fev=0.0.153
盛世难全历史哲思:假设案例:一个生于“开元元年”(713年)、卒于“天宝初年”(745年)的长安城中产市民,享年约32岁,一生经历开元盛世,未遇安史之乱。哈哈哈,确实盛世,但似的也太早了~~。https://chat.qwen.ai/s/351a4907-1dd9-4dac-b540-3a95f0344111?fev=0.0.153
没来得及测试更多的代码功能,群友有测试过一个比较复杂的数学题,能答对,不过我觉得常见数学题,对它来说,应该是舒适区了。