所有的AI,壁垒都不是算法,而是体力工作——整理和标注训练素材。
当然了,很多领域的壁垒更靠前,获得训练素材就是壁垒。
所以这事跟锗和镓的生产难点是接近的。
要么你可以不惜代价,用100块钱干别人1毛钱就能做好的事。
要么你必须有完整的周边产业链,能够低成本地获得某些海量的训练数据。
要么你有海量廉价劳动力,能用较低成本去人肉标定、清洗训练数据。
AI画图的发展,来自于pixiv等网站上画手免费公开的图。
AI对话的发展,来自于搜索引擎抓取的大量知识性网站的信息积累。
大模型翻译,很可能依赖于之前像新东方等教育机构整理的翻译训练的素材,以及大量的网友纠错。(这块我有几年没接触了,不太清楚最新的玩法是啥)
这些体力劳动,才是壁垒。人力、资金、法律都会形成阻碍。
中国目前进展最领先的领域之一,肯定是推荐系统。
另一个是类似于无人机等智能硬件上用得到的技术。
像画图、聊天等纯娱乐领域,进展肯定会非常慢。因为这块明摆着没啥商业收入。
无人驾驶,现在也遇到了训练素材阻碍的问题。
简单讲,这事是需要低人权优势的。
哪国的法律、伦理比较没下限,敢像特斯拉那样让大家敞开用、敞开死,哪国的进展就会更快。
中国在这方面,其实是吃亏的,估计只有军用才有可能带来场景上的突破。
发布于 2023-07-18 12:53・IP 属地湖南