国内大模型正处于什么阶段，有关键的技术壁垒吗？ - 大众以为的大模型，高深的算法；实际上数据...

大众以为的大模型，高深的算法；实际上数据+算力

在大模型出来之前，各大厂也在用算法，为啥这次会有这么大的市场热度？

以前大众感知是抖音推好玩的内容，淘宝推喜欢商品，百度能搜到内容等等

这次大模型主要在多模态生成式AI上，普通用户更直观的感受，我问一个问题，他不是从原有的纯文本/商品/视频给我找出来，而是基于问题混合打包且创造（生成式AI无中生有）回答问题

但不管怎么搞，算法模型上并不是竞争壁垒，很多开源、论文都可以研究，但是数据是非常私有，比如抖音天然内容、用户标签，淘宝想做内容，哪怕算法模型一致，但是从数据积累上就不在一个维度。

同理做生成式AI的前提，是算法能理解用户问的是啥，每个语料是个啥，细分到每个垂类行业经验是啥，这些都依赖人工数据经验的梳理和标注，告诉算法什么是对什么是错。且按照大模型的置信度，很难做到百分百，目前市场爆发点是写小说、写市场营销文案、绘画等这些数据集相对简单容易学习的方向，但再垂类一些市场，比如语音对话、母婴经验、心理咨询师各类虚拟专家，需要更垂的语料。所以短期市场的壁垒是数据

另外，因为大模型数十亿参数，每一次迭代模型都是几千万的费用，哪怕是大公司也没办法高频迭代模型，所以算力提升也是当前非常非常重要优化方向，以目前全球范围来看，谁先突破算力，多迭代几次模型，谁知道会产出个啥

说不定我们都在黑客帝国

编辑于 2023-07-18 04:00・IP 属地浙江