kimi chat大模型的200万长度无损上下文可能是如何做到的？ - 添加一个非软文的回答: 1，如何实现长文...

添加一个非软文的回答:

1，如何实现长文本

如果对于十万token，prefilling速度（第一个词开始decoding）容忍度在30秒，大模型长文本能力是一个纯工程问题。

如果不牺牲精度，即不做任何滑动窗口和降采样的变种。长文本是一个纯工程问题。训练上硬训，continue train 一个极小的token数目即可（Yi的技术报告是5B 200k长文本）。推理测对于专业系统工程团队，把十万词prefilling时间做到半分钟这个级别，以及1M的文本做到两分钟左右都不是难题。

优化的东西也是系统领域老生常谈的问题：kv cache吞吐在大模型里面一直是瓶颈，也激发了例如vLLM这种影响力极大的开源项目，和MQA、GQA的文艺复兴。另外，文本长了以后 softmax 所占时间会从1k上下文的的微乎其微，到1M上下文的50%左右。(我不是系统出身，专业答主可以补充原因)

由于full attention本身的速度瓶颈，如果不降采样，10万tokenprefilling10秒+躲不过去。这个prefilling速度，除了Kimi，其他大部分LLM供应商也是这个体验

如果对于十万token，prefilling速度容忍度在3秒以内，大模型长文本能力是一个研究问题。

这个领域的研究十分割裂，容易出现NLP领域的paper一顿优化，kv cache一点没变，去优化那个attention的计算量，找错了瓶颈。。。

总之，大模型长文本更像是一个成本问题

2，如何评价Kimi Chat

一句话总结: Kimi Chat 是一家通稿全在说AGI，但却是LLM公司里面产品雕花最多也最好的公司。

或者说：Kimi给我的感觉像是一个产品经理非常强的公司，然而他的创始人团队却都是技术出身。

如果我们从foundation model角度讲，Kimi是唯一一家非但没有技术报告，连发个通稿报道技术指标都没有的公司。按照我自己经常测的推理数据结果，Kimi模型所展现的推理能力是一个做的好点的60B或者token训练少些的130B dense所拥有的技术水平。并没有产生像文心4.0测试中给我的，这个模型一定比一般模型大的体验。同时，我也不确定Kimi处理文件和处理普通消息背后用同量级的模型。

然而，当赛场来到文件处理和联网搜索增强的时候，一切都不一样了。

Kimi所展现的产品力 + feature的先发优势 + 创始团队自身所带的技术光环 + 用户本身对于一些大厂偏见 + 各个渠道砸在广告的营销 = 一个出圈且用户能用的大模型产品。

3，如何看待未来大模型公司们的发展

GPT4 = 10T高质量token + 200B dense(或者1T+ MoE)

现在各家普遍拥有一个100B+ dense + 3~4T token的模型。下一个目标很明确。

数据层面：比拼对于数据信息密度的认知、对于数据行业专有知识/人类自然语言理解的剥离、但归根到底拼的还是做数据的人才
模型层面:：算力，算力，还是算力。无论通过国产化，还是其他手段。

Scaling laws are decided by god; the constants are determined by members of the technical staff
Sam Altman

最后，非软文，不代表公司观点，还是想给社区贡献点优质内容。

编辑于 2024-03-21 08:00・IP 属地北京