先说观点,我不认同“大模型让隐私保护难上加难”这种言论。
给何院士准备稿子和材料的这位应该扣大分,实在是不严谨。
我没找到何院士演讲的完整视频,所以先用新闻问中短视频的素材,何院士这部分的表述是:
我们现在很擅长于在各种社交媒体里面发帖子,我们有自己的个人网页,然后我们这个大模型呢,它在你不知不觉中间,收集了大量的数据。我们很高兴有大模型去做我们的助手,提升我们的工作安排,我们的爱好,包括我们各类的习惯,都被我们大模型学过去了。
ChatGPT屏幕上有个键,叫做数据控制键,要么继续跟我对话,要么允许我,把你对话中间用到的数据用在我以后训练过程中间。
当大模型收集到你个人足够多的数据,如果有个黑客提示大模型为你个人画像的话,它可以帮你写出本小说。
在某些西方投资公司里面,他们开始采取这种技术来评估他要投资的单位的人的所有信息。其实这个情况的发展呢是比我们想象的可怕得多。
如果我们把人工智能这种能力看成像孙悟空,那么对齐这个技术呢,就是唐僧口中的紧箍咒,我们的对齐技术控制人工智能不会任意的使用它的能力闯祸、胡作非为。
首先,个人隐私保护越来越难这口锅完全不是大模型应该背的。在我国,个人信息有无数个环节可以被轻易的泄露出去,学校、公司要求填的各种统计个人信息的表格随意在公共群里传播,人脸、指纹等数据的采集,以及许多手机应用肆意读取用户私人数据和行为,这类现象很多人应该都见怪不怪了。要说泄露,我们的个人隐私数据早都满天飞了,到大模型那都不知道被转了几手了。总之,一些人(公司)要想拿到你的个人数据,有很多种手段,有没有大模型都一样。这是其一。
其二,何院士演讲中提到“我们现在很擅长于在各种社交媒体里面发帖子,我们有自己的个人网页,然后我们这个大模型呢,它在你不知不觉中间,收集了大量的数据。”
这句话的表达出来的意思是大模型会主动收集网络数据,从而可以获取到个人信息(比如提到的通过个人在社交平台发的贴子)。这就是我上面说稿子不严谨的地方,因为大模型自己并不会主动在网络上爬取信息,而是人类在爬取了或收集了数据之后再喂给大模型,在这样的训练过程中,大模型学习到了个人信息,具备了基于私人信息生成内容的能力,进而导致个人信息被进一步泄露或被不当使用。
对于像 ChatGPT 之类的聊天机器人产品也是同样的道理。收集和使用你的个人数据的是人类,而非大模型。
所以,与其关心大模型是不是让隐私保护更难,不如关心在生成式 AI 时代到来的情况下,泄露的个人数据会被拿去干什么(坏事),以及如何防范。个人觉得,最大的潜在危险是 AI 大模型根据个人信息生成的定制化内容会让人更加难以辨别,而这些生成内容一旦被传播或被用来诈骗,其危害和给人带来的困扰要比信息泄露本身大得多。比如前段时间有通过 AI 生成朋友的照片/视频对熟人进行诈骗的新闻。
我在很多回答中都表达过一个看法,就是不要神化人工智能,尽管现在像ChatGPT这样的AI能力很强大,但是也远没达到有自主意识和自主行为的程度。AI 说到底还只是一个工具,关键在于什么人掌握了它。
所以,我的观点还是在想尽办法约束 AI 之前,先管好那些肆意采集和滥用个人隐私的公司和人类吧,难道还有比人更会坑人的吗?
