考虑到苏剑林去了kimichat
最大可能就是用了他贝叶斯的那套
简单说先分块,例如一万长度一个块
变成batch size=200,context length 10000的输入
然后针对prompt都进行一段生成
但生成过程中会考虑输出概率的熵
熵越小 说明模型确定性越高 说明模型找到有用的信息了
就会对熵最小的那一个分块的输出给很高的权重
发布于 2024-03-21 13:30・IP 属地广东
考虑到苏剑林去了kimichat
最大可能就是用了他贝叶斯的那套
简单说先分块,例如一万长度一个块
变成batch size=200,context length 10000的输入
然后针对prompt都进行一段生成
但生成过程中会考虑输出概率的熵
熵越小 说明模型确定性越高 说明模型找到有用的信息了
就会对熵最小的那一个分块的输出给很高的权重