18个回答含有被封锁的答案1个

kimi chat大模型的200万长度无损上下文可能是如何做到的?

知乎用户
601个点赞 👍

添加一个非软文的回答:

1,如何实现长文本

  • 如果对于十万token,prefilling速度(第一个词开始decoding)容忍度在30秒,大模型长文本能力是一个纯工程问题

如果不牺牲精度,即不做任何滑动窗口和降采样的变种。长文本是一个纯工程问题。训练上硬训,continue train 一个极小的token数目即可(Yi的技术报告是5B 200k长文本)。推理测对于专业系统工程团队,把十万词prefilling时间做到半分钟这个级别,以及1M的文本做到两分钟左右都不是难题。

优化的东西也是系统领域老生常谈的问题:kv cache吞吐在大模型里面一直是瓶颈,也激发了例如vLLM这种影响力极大的开源项目,和MQA、GQA的文艺复兴。另外,文本长了以后 softmax 所占时间会从1k上下文的的微乎其微,到1M上下文的50%左右。(我不是系统出身,专业答主可以补充原因)

由于full attention本身的速度瓶颈,如果不降采样,10万tokenprefilling10秒+躲不过去。这个prefilling速度,除了Kimi,其他大部分LLM供应商也是这个体验

  • 如果对于十万token,prefilling速度容忍度在3秒以内,大模型长文本能力是一个研究问题

这个领域的研究十分割裂,容易出现NLP领域的paper一顿优化,kv cache一点没变,去优化那个attention的计算量,找错了瓶颈。。。

总之,大模型长文本更像是一个成本问题

2,如何评价Kimi Chat

一句话总结: Kimi Chat 是一家通稿全在说AGI,但却是LLM公司里面产品雕花最多也最好的公司。

或者说:Kimi给我的感觉像是一个产品经理非常强的公司,然而他的创始人团队却都是技术出身。

如果我们从foundation model角度讲,Kimi是唯一一家非但没有技术报告,连发个通稿报道技术指标都没有的公司。按照我自己经常测的推理数据结果,Kimi模型所展现的推理能力是一个做的好点的60B或者token训练少些的130B dense所拥有的技术水平。并没有产生像文心4.0测试中给我的,这个模型一定比一般模型大的体验。同时,我也不确定Kimi处理文件和处理普通消息背后用同量级的模型。

然而,当赛场来到文件处理和联网搜索增强的时候,一切都不一样了。

Kimi所展现的产品力 + feature的先发优势 + 创始团队自身所带的技术光环 + 用户本身对于一些大厂偏见 + 各个渠道砸在广告的营销 = 一个出圈且用户能用的大模型产品。


3,如何看待未来大模型公司们的发展

GPT4 = 10T高质量token + 200B dense(或者1T+ MoE)

现在各家普遍拥有一个100B+ dense + 3~4T token的模型。下一个目标很明确。

  • 数据层面:比拼对于数据信息密度的认知、对于数据 行业专有知识/人类自然语言理解 的剥离、但归根到底拼的还是做数据的人才
  • 模型层面::算力,算力,还是算力。无论通过国产化,还是其他手段。
Scaling laws are decided by god; the constants are determined by members of the technical staff
Sam Altman

最后,非软文,不代表公司观点,还是想给社区贡献点优质内容。

编辑于 2024-03-21 08:00・IP 属地北京
知乎用户
自由评论 (0)
分享
Copyright © 2022 GreatFire.org