国内大模型正处于什么阶段，有关键的技术壁垒吗？ - 所有的AI，壁垒都不是算法，而是体力工作...

所有的AI，壁垒都不是算法，而是体力工作——整理和标注训练素材。

当然了，很多领域的壁垒更靠前，获得训练素材就是壁垒。

所以这事跟锗和镓的生产难点是接近的。

要么你可以不惜代价，用100块钱干别人1毛钱就能做好的事。

要么你必须有完整的周边产业链，能够低成本地获得某些海量的训练数据。

要么你有海量廉价劳动力，能用较低成本去人肉标定、清洗训练数据。

AI画图的发展，来自于pixiv等网站上画手免费公开的图。

AI对话的发展，来自于搜索引擎抓取的大量知识性网站的信息积累。

大模型翻译，很可能依赖于之前像新东方等教育机构整理的翻译训练的素材，以及大量的网友纠错。（这块我有几年没接触了，不太清楚最新的玩法是啥）

这些体力劳动，才是壁垒。人力、资金、法律都会形成阻碍。

中国目前进展最领先的领域之一，肯定是推荐系统。

另一个是类似于无人机等智能硬件上用得到的技术。

像画图、聊天等纯娱乐领域，进展肯定会非常慢。因为这块明摆着没啥商业收入。

无人驾驶，现在也遇到了训练素材阻碍的问题。

简单讲，这事是需要低人权优势的。

哪国的法律、伦理比较没下限，敢像特斯拉那样让大家敞开用、敞开死，哪国的进展就会更快。

中国在这方面，其实是吃亏的，估计只有军用才有可能带来场景上的突破。