一个显然的事实是,智能手机在硬件上已经进入了平稳迭代期,包括屏幕、电池、影像等等,都很难再像以前那样每年都大跨步发展了。
厂商们对这一点基本都达成了共识,所以我们会看到,手机的影像现在进入了计算摄影时代,性能和功耗控制也都在拼调度算法,可以说「注重系统软件的体验」已经是目前智能手机发展的主旋律的了。
而手机结合大模型所带来的碾压「语音助手」的智能化、便捷度,极有可能会颠覆我们今后使用智能手机的方式。
vivo大模型的前世今生
vivo手机一直以来对系统软件都是非常重视的,OriginOS发展到今天流畅度、可靠度都在第一梯队,并且在做好了基础的使用体验之后,它还有极高的自由度,可以充分的进行个性化定制,这是我非常喜欢的点。
而这一次在OriginOS4中加入大模型,看似有些突然,但并不是突然做的决定。
从2017年建立人工智能全球研究院开始,vivo对大模型的投入已经足足有五年之久了,并且第一轮vivo就投入了1000人,随后三年每年增加350人,整个团队的数量是非常巨大的,可以看出vivo是把这个当作未来的重点发展方向去做。
目前的一个阶段性成果,是最新的vivoLM在C-Eval排行榜中以82.3的平均成绩排名第一。

讲到这里,有必要跟大家解释一下C-Eval是什么?
简单来说,它是一个由清华大学、爱丁堡大学等高校联合设计的大模型评估测试。测试项目包含历史、地理、文学、计算机、电气等在内的52个学科,题库都针对大模型进行了专门的设计,是目前业内公认的权威榜单。
vivoLM在这么一个榜单里能拿到第一名的成绩,可以说实力展露无疑。
看到这可能有朋友要问,这么强的一个大模型,真能部署在手机本地端吗?
当然是不能的。
vivoLM的参数量达到了1750亿量级,这么庞大的规模,显然不是一台手机所能承担的。
对于手机而言,其在本地部署超大模型有三个核心问题,一是成本,几百亿到千亿级别的大模型,如果放开给用户使用,每年的成本可能会将近百亿;
二是速度,手机的性能不足以支撑超大模型的运行,问一个问题,响应时间数秒钟甚至更久,那体验就太差了;
三是功耗,几百亿级别的大模型会有很大的功耗,手机的电池就那么四五千毫安时,根本经不起用。
所以,针对这几个问题,vivo也做了很多的思考和设计。
一是为了更好的应对不同场景,vivo直接做了个大模型矩阵,包括10亿、70亿、660亿、1300亿、1750亿,共计五个不同级别的大模型。
对于一些简单问题的解答,就用手机本地的10亿、70亿级大模型,而对于更高难度的AI绘图等场景,则采用云端的百亿、千亿级大模型来完成。
如此搭配使用,既能满足用户需求,保护隐私,又能保证反应速度、功耗等都处在最舒服的区间。
二是硬件方面,目前整个产业也都在往AI方向发力,今年各家的芯片平台都会进一步强化本地AI算力的部分,未来也肯定会有针对大模型的专属优化。
以苹果最新的A17 Pro处理器为例,它的晶体管数量达到了恐怖的190亿,其中增幅最大的就是NPU部分,相比A16的NPU算力近乎翻倍,这显然是在为手机本地AI的发展铺路。
总之我们可以预见,未来手机处理器的AI性能会更强,功耗会更低,这也有助于进一步提升本地大模型的规模和体验。
说了这么多,大模型到底能做些什么?
我就以我自己的经历来讲吧。熟悉我的朋友可能记得,我以前做过网剧编剧,大家想知道编剧每天的主要工作是什么吗?
其实就是看剧。
没错,那段时间我每天坐到工位上,打开电脑,戴上耳机,一看就是一天,真正写剧本的时间并不多。
为什么是这样呢?
因为作为一个新手编剧,在入门阶段是必须要大量刷剧,积攒阅片量的,不然和同事开剧本会,他们提到的电视剧情我都没听说过,那还怎么聊下去。
所以我那段时间,每天至少看完两部电影+几集电视剧(我甚至能两倍速播放),而且不是单纯看,还边看边记录故事线、起承转折点、人物性格等等。

总之,我用了大量的时间来刷剧+记录总结,才总算跟上了公司前辈的节奏,工作才真正步入正轨。
而如果有大模型呢?
那事情就变得简单太多了,比如我想知道某部电影的剧情,只需要一句话,它就能帮我列出详细的故事情节,人物性格从前期到后期的转变,甚至还能帮我总结出中心思想。
包括那些烧脑的悬疑片,我也不再需要自己一点一点梳理错综复杂的人物关系了,只需要一句话,大模型直接帮我梳理好。
以及,如果开剧本会聊到某部片子我没看过,可以让大模型现场总结,我迅速读完梗概和人物介绍,马上就能get到同事想表达的点,如此一来,沟通效率高了何止一个次元。
可能编剧这个职业大部分人还是比较陌生,那么我再讲个每个人工作中都会遇到的场景。比如说做PPT时,如果涉及到一些你不太懂的行业或者事物,那肯定就需要查资料吧。
而查资料实际上是很麻烦的——首先你要找对关键词,有时候差了一个词,搜索出来的内容就有很大差别;其次你要在几十万上百万的网站链接里,找到其中比较靠谱的信息;最后你还要把这些信息提取、整理出来,才能真正在PPT里用上。
那么有了大模型之后呢?
这些步骤统统不用了,你只需要描述你的需求,比如你说「新能源汽车的碳酸铁锂电池和三元锂电池各有哪些优缺点?」,大模型立即就能给出它整理好的答案——而且截至目前,vivoLM的准确率就已经相当高了,达到了普通人平时难以接触的专家级别,未来还会变得更强。
这样的信息获取效率,比传统的「关键词搜索、语音助手」强了太多。
而除了有具体目标的问题,对于一些比较抽象/玄学的问题,大模型也可以给到创意性的答案。
比如我有个在做游戏策划的朋友,他的主要工作是负责游戏的世界观、人物剧情等。他目前就已经开始让大模型辅助创作一些细节了,像是某些小NPC的人物故事(如果想营造出真实的游戏体验,最好做细致点),在以前,这种只能靠人力堆。
而现在,只要给出世界观背景、角色性别和一些其他要素,大模型就能批量输出一堆故事出来,筛选出自己想要的,经过简单修改和优化就能用了。
甚至,连世界观/主线剧情的创作,他有时候脑子不够用了,也会和大模型对话来找寻灵感,效果据说也蛮不错。
除了工作学习,在生活娱乐方面,大模型的应用场景也非常丰富。
还是以我自己为例。
前几天我去青岛玩,定了五四广场的一个酒店,但车票却买的是青岛西站——到了之后我才知道,这两者之间的距离有五十多公里,而且青岛西站是没有地铁的,我在出站打车处等了好久才打到车,花了一百多块。
晚上和青岛本地的朋友吃饭,聊到这个事情,他说「哎呀,你问我一下就好了,你应该坐青岛站的,离你的酒店最近。」
所以你看,出门旅行想要玩的开心,最好就是找一个本地人带你,他们在本地生活多年,知道很多外地人所不了解的事情。
而大模型,就是那个本地人。
在任何一个地方,它都可以是本地人。
你去北京玩,它就是地道老北京;你去东北玩,它就是正宗东北银;你去西安玩,它就是纯正老陕。
它可以帮你解答哪里有好吃的,哪条街是最佳打卡点……甚至如果未来能打通天气、地图、订酒店/买票软件的话,它能直接帮你做出一整个旅行规划,你连票都不用自己买,就像有一个秘书团队一样,完全不需要思考行程上的问题,跟着它的规划吃喝玩乐就行了。
这简直是科幻般的场景。
再举个例子吧,大家平时爱玩游戏吗?
我最近就很沉迷单机游戏,买了两台游戏主机和一台掌机,但我偏偏又是一个游戏废,玩剧情复杂地图庞大的3A游戏时,很容易找不到路、错过关键道具。
比如在《荒野大镖客:救赎2》里,有几把特殊武器是只有前期能收集到的,一旦剧情过去,就再也拿不到了——这个信息我是偶然看了一个攻略才知道的,如果我没看到这个攻略,大概率就错过了。
对于这种没有剧透也不影响主线剧情的攻略,或者叫小tips,我觉得是很利于增加游戏乐趣的。
那么以后有了大模型,我在玩任何游戏时都可以跟它说「XX里有没有特殊道具?如果有的话如何获得?记住不要涉及剧透」,这样我就能得到很多自己难以发现的东西,游戏体验感提升了而且也不会剧透,就非常舒适。
而如果你无所谓剧透那就更简单了,大模型可以直接给到你极为全面的攻略信息,从角色属性到技能分配,从什么故事线最好到如何快速击败某个BOSS……应有尽有。
写在最后:
小时候看科幻电影和小说,每次看到里面的智能AI都非常喜欢,比如《钢铁侠》里的贾维斯,不仅可以完美理解人说的话,还能给予各种帮助和指导。
再回头看看自己的智能手机,说是智能,但没感觉智能在哪了,至少跟电影里的智能差远了——这种情况一直延续到近两年,当我看到大模型令人惊叹的自然语言能力时,我感觉就是它了。
作为每个现代人都必备的设备,智能手机可以说是最佳的大模型载体,它不仅足够即时,足够便捷,而且本身就有用户的各种信息,是最了解用户的设备(隐私问题不难解决,把大模型部署在本地就好了)。
当这两者结合起来,结果就是:大模型可能会比你爸爸妈妈都了解你。
你看过的电影,你点过的外卖,你搜索过的旅行目的地,它全都知道,所以只要你一句话,它立即就能知道你想干嘛,并且凭借自己的庞大知识库,瞬间给你准备好最佳行动方案。
科幻吗?很科幻。
但我相信这一天会来的。