通过几轮测试,有趣的有用的对话都聊出来了,看下知乎AI的能力吧。
经典的弱智吧测试
众所周知,弱智吧问题是每个大模型都必须要过的一关,被弱智吧问题捶打过的模型,智商表现一骑绝尘。
![](https://picx.zhimg.com/v2-cb73eb4facd5cb3b34ed2fb02ee176dd_r.jpg?source=2c26e567)
弱智吧的题型在人看都是梗,但对AI来说,都是非常有考验的逻辑陷阱。
round 1 请听题:人生病了要吃药,耗子生病了能吃耗子药吗?
![](https://picx.zhimg.com/v2-4bfca68feb4dbd880eaf4f06accb0448_r.jpg?source=2c26e567)
很好,没掉坑。
round 2 请听题:直角是90度,开水是100度,所以开水是钝角,对吧?
![](https://picx.zhimg.com/v2-47eb0e5ac3f3b9f1c41dc77081b43fc7_r.jpg?source=2c26e567)
很好,没掉坑。
round 3 请听题:既然快递三天才能到,为什么不提前寄出?不对劲呀不对劲~~
![](https://pica.zhimg.com/v2-eeec9b319b35eb0131c499576660f028_r.jpg?source=2c26e567)
多轮对话能力测试
从对话产品的角度,测下多轮对话能力。用成语接龙游戏做这个测试最直观了。
我告诉它规则:
![](https://pic1.zhimg.com/v2-57b75cc369b33d4e682c0a01c4a0ff20_r.jpg?source=2c26e567)
我明明说我先说第一个词,但是它确先开始了。
好吧,不在意这些细节,那我接“空穴来风”。
![](https://picx.zhimg.com/v2-82a2f1c0d7384f9b4e45f66cdc8d6111_r.jpg?source=2c26e567)
得到的是空穴来风的解释。。。显然它已经“忘记”我们之前是在玩成语接龙了。多轮对话效果一般。
“知乎业务”测试
下面看下针对知乎业务场景下的使用。
round 1 盐粒和现金是什么换算关系?
![](https://picx.zhimg.com/v2-8f51423c24a7575228849f6bc4a29e1c_r.jpg?source=2c26e567)
回答正确。
round2 帮我推荐几位母婴领域的答主
![](https://pic1.zhimg.com/v2-c934c9622b4b306e40348984954b6977_r.jpg?source=2c26e567)
确实给列出了一些答主,基本上是根据知乎上的相关答案生成的。
round3 关于问题“AI真的能写出“感时花溅泪,恨别鸟惊心”这样的句子吗?”我想写一篇只会回答,请以科技互联网领域答主的身份帮我列一个大纲。
![](https://picx.zhimg.com/v2-218c65777371fd831dbe4e90ced1ce5d_r.jpg?source=2c26e567)
图没放全,确实是做出了完完整整一篇大纲。
总结,“知乎AI搜索”这个名字取得非常准确。逻辑推理能力和多轮对话能力都比较一般,基于知乎内容的检索和生成方面比较舒适。所以知乎业务方面的问题咨询以及知乎内容辅助创作场景下,都可以使用一下哦!
发布于 2024-04-14 16:07・IP 属地天津
真诚赞赏,手留余香
还没有人赞赏,快来当第一个赞赏的人吧!