行业大模型是通用大模型能力不足时的阶段性产物吗?

- 1 个点赞 👍
这种表述有一定道理,但并不准确,详细阐述如下:
首先,行业大模型可理解为大模型在特定垂直应用场景下的分支。随着技术的发展,一种趋势是利用更大的模型来处理更复杂的问题。大模型虽然具有强大的处理和学习能力,但在某些具体的、垂直的行业应用场景中,通用大模型可能并不是最优选择。在这种情况下,行业大模型应运而生。它们专门针对特定的业务场景和应用进行优化和调整,以提高在特定情境下的性能。
其次,大模型的能力不足往往并不是根本问题。大模型在广泛通用的数据和任务上表现出色,但在特定的、高度个性化的场景下,可能效果并不理想。我们常说“大模型能力不足”其实更多的是指在特定领域或任务中的性能表现。在实际中,经过海量数据预训练的大模型,其理论上的潜力或能力其实是巨大的,而这种潜力的释放或应用往往需要更多的技术手段来实现。现阶段,常用的主流策略有两种:
1) 设计好的上下文和提示,可以帮助引导模型生成更符合预期、反映领域知识和特色的响应。在特定的任务或场景中,有效的上下文和提示可以显著提升模型的性能。这种方法也被称为"提示工程",即通过精心设计的提示来激发模型潜力、引导模型生成我们希望的输出。
2) 进行模型微调(精调)。通过在特定领域的数据上进行进一步的训练,模型可以在这个领域中学习到更多的细节和特性。这样的模型,即使在简单的上下文和提示下,也能生成出合理且符合领域特色的响应。这就是所谓的行业大模型,它是基于通用大模型,并在特定行业的数据上进行了微调和优化。某种意义上的,是用模型的调整减轻了提示工程的压力。
两种方法都有其优点和适用场景,而且可以结合使用,以更好地解决实际问题。通过这两种方式,可以发掘和挖掘大模型的潜能,使其在特定的领域或任务中展现出更好的性能。
从另外一个角度,我们可以看到一个趋势,那就是大模型的多粒度专家能力分化和优化路由调度,也就是“优化分工,竞争上岗”,不仅仅依赖于一个庞大的模型来完成所有任务,可以将任务划分并路由到更擅长处理这些任务的中小规模模型上。这种做法可以使模型在处理任务时更具针对性,从而提高效果。同时,由于这些中小规模模型通常比大模型更高效,因此在实际应用中,这种方式也有可能带来效能上的提升。
总的来说,行业大模型和通用大模型在解决问题时各有优点,行业大模型是整个大模型应用“分久必合,合久必分”发展之路上的必经节点,而不是大模型能力不足的权宜之计。将两者相结合,针对特定的任务或场景使用专门优化过的行业大模型,同时将任务路由到更适合处理这些任务的中小规模模型上,可能是未来AI发展的一个重要方向。
发布于 2023-07-21 10:44・IP 属地北京真诚赞赏,手留余香还没有人赞赏,快来当第一个赞赏的人吧!查看全文>>
爱可可-爱生活 - 0 个点赞 👍
查看全文>>
StevenJokes - 0 个点赞 👍
个人并不这么认为
大模型,归根结底是数据,通用大模型能力再强也很难收集到一些行业特有的数据,特别是一些涉密的数据,这就是为什么会有行业大模型这个概念存在,行业大模型的目标就是为了解决数据无法开源,但是又想要借助大模型的能力解决当前行业的问题,因此应运而生,通过自己的数据壁垒,finetune通用大模型,在行业场景中产生价值和作用。
发布于 2023-07-21 17:11・IP 属地浙江查看全文>>
白冰 - 0 个点赞 👍
个人认为行业模型是中间阶段,最终都会汇集到几个通用大模型,但是这个时间会很长,即便当前的通用大模型,实际上也是多个行业模型的组合,所以当前发展行业模型才是关键,也是未来通用大模型的基础。如果行业模型不能把行业数据抽取并训练出来,通用模型如何才能学会理解这些行业知识呢?总不能都是聊天机器人吧。
发布于 2023-07-20 21:44・IP 属地北京查看全文>>
陈孝良 - 0 个点赞 👍
行业大模型:比如金融、智能驾驶、医疗、代码助手、工业方面等;
通用大模型那既能做事也能写诗,所以我认为嘲讽不会写诗,只会做事恰恰说明模型通用能力不足的体现,相当于只训练在垂直域能力。
现在国内发布的大模型一般为一个模型系列,而非真正意义上的一个大模型,强如gpt4都被爆出来多个基模型采用MOE架构,路由层分发输入,实际测试运行的是其中2-3个基模型。大模型通用能力在chatgpt就被证实,在某些物理化学或计算领域存在缺陷,但行业方方面面,最重要的还是模型的通用能力尽可能强,例如chatgpt我认为还是很强,国内的大模型依旧存在差距,还是将chatgpt作为竞争对象。
编辑于 2023-07-20 13:41・IP 属地上海查看全文>>
xiansheng