做大模型的,奉劝大家爬数据要趁早。
之前搜索引擎爬数据,全球大的搜索引擎也没有几家,而且爬数据都是增量的慢慢爬,很少有需要全站重新索引的情况。更重要的是,搜索引擎可是给网站引流的,大多数网站都求着搜索引擎来收录自己的内容。
可训练大模型就不一样了。号称在训练大模型的公司就已经超过了做搜索引擎公司的数量,而且大模型的训练都是争分夺秒,想着一个月就爬遍全网,那产生的请求数量真是非常大。更重要的是,大模型拿走了网站的数据,可不会给网站带来任何流量,反而会把网站的流量吸走。比如一个大模型知道了知乎里面的所有回答,比知乎自己的搜索功能还好用,那原来上知乎的一部分人是不是就跑到那个大模型那里去了?
所以大概没有哪家做内容的网站喜欢把自己的数据送给大模型。
在大模型火之前,网络爬虫的流量就已经占到网站流量的一半左右。如果未来网络爬虫的流量又翻了好几倍,大模型再吸走一些本来属于网站的流量,大型网站一定会想方设法限制爬虫的。
比如搞个内容仅登录可见,就能赶走大多数的爬虫。要想注册大量手机号,每个手机号每天又看不了多少篇文章,这整站爬取的难度就完全不一样了。到时候再想搞到大量优质语料,说不定就只能从数据贩子那里买,这要价不知道要多高。有可能到时候高质量语料直接成为大模型的技术壁垒,新来的玩家除非有钞能力,连训练数据都搞不到。
目前,很多数据中心的 IP 地址段因为爬虫太多,都已经被大型网站风控了。
而且数据中心的 IP 是要钱的,不是想要多少就有多少。假如我想在一个月内爬完知乎,知乎上一共上亿个问题,上十亿个答案,那一天至少要爬几千万个网页,哪怕我有 1000 个固定 IP,一个 IP 一天爬几万个网页也足够被知乎风控了。
所以大家都在用住宅代理,IP 是动态的,大的代理池有上百万个住宅 IP,分散在很多 AS 和 IP 段里面,根本封不完。如果真的走到大多数网站内容注册可见这一步,住宅 IP 就也不管用了。