18个回答含有被封锁的答案1个

kimi chat大模型的200万长度无损上下文可能是如何做到的?

知乎用户
108个点赞 👍

考虑到苏剑林去了kimichat

最大可能就是用了他贝叶斯的那套

简单说先分块,例如一万长度一个块

变成batch size=200,context length 10000的输入

然后针对prompt都进行一段生成

但生成过程中会考虑输出概率的熵

熵越小 说明模型确定性越高 说明模型找到有用的信息了

就会对熵最小的那一个分块的输出给很高的权重

发布于 2024-03-21 13:30・IP 属地广东
momo
自由评论 (0)
分享
Copyright © 2022 GreatFire.org