国内大模型正处于什么阶段，有关键的技术壁垒吗？ - 做大模型的，奉劝大家爬数据要趁早。之前搜...

做大模型的，奉劝大家爬数据要趁早。

之前搜索引擎爬数据，全球大的搜索引擎也没有几家，而且爬数据都是增量的慢慢爬，很少有需要全站重新索引的情况。更重要的是，搜索引擎可是给网站引流的，大多数网站都求着搜索引擎来收录自己的内容。

可训练大模型就不一样了。号称在训练大模型的公司就已经超过了做搜索引擎公司的数量，而且大模型的训练都是争分夺秒，想着一个月就爬遍全网，那产生的请求数量真是非常大。更重要的是，大模型拿走了网站的数据，可不会给网站带来任何流量，反而会把网站的流量吸走。比如一个大模型知道了知乎里面的所有回答，比知乎自己的搜索功能还好用，那原来上知乎的一部分人是不是就跑到那个大模型那里去了？

所以大概没有哪家做内容的网站喜欢把自己的数据送给大模型。

在大模型火之前，网络爬虫的流量就已经占到网站流量的一半左右。如果未来网络爬虫的流量又翻了好几倍，大模型再吸走一些本来属于网站的流量，大型网站一定会想方设法限制爬虫的。

比如搞个内容仅登录可见，就能赶走大多数的爬虫。要想注册大量手机号，每个手机号每天又看不了多少篇文章，这整站爬取的难度就完全不一样了。到时候再想搞到大量优质语料，说不定就只能从数据贩子那里买，这要价不知道要多高。有可能到时候高质量语料直接成为大模型的技术壁垒，新来的玩家除非有钞能力，连训练数据都搞不到。

目前，很多数据中心的 IP 地址段因为爬虫太多，都已经被大型网站风控了。

而且数据中心的 IP 是要钱的，不是想要多少就有多少。假如我想在一个月内爬完知乎，知乎上一共上亿个问题，上十亿个答案，那一天至少要爬几千万个网页，哪怕我有 1000 个固定 IP，一个 IP 一天爬几万个网页也足够被知乎风控了。

所以大家都在用住宅代理，IP 是动态的，大的代理池有上百万个住宅 IP，分散在很多 AS 和 IP 段里面，根本封不完。如果真的走到大多数网站内容注册可见这一步，住宅 IP 就也不管用了。

发布于 2023-09-20 06:52・IP 属地美国