多模态大模型的时代真的来了吗?

- 2 个点赞 👍
出品人:Towhee 技术团队
作者:张晨
在探索通用人工智能的多种可能发展方向中,多模态大模型(MLLM)已成为当前备受关注的重要方向。随着 GPT-4 对图文理解的冲击,更多模态的理解成为了学术界的热点话题,这个时代真的来临了吗?
香港中文大学多媒体实验室联合上海人工智能实验室的研究团队提出一个统一多模态学习框架 —— Meta-Transformer,通过统一学习多种模态信息,模型可学会理解 12 种模态,共享网络参数,无需额外训练。
|Meta-Transformer支持的模态,和它与ImageBind的对比
本文探索了 transformer 架构处理 12 种模态的潜力,包括图像、自然语言、点云、音频频谱图、视频、红外、高光谱、X 射线、IMU、表格、图形和时间序列数据,如图所示。
本文讨论了每种模态的 transformer 学习过程,并解决了将它们统一到单个框架中所面临的挑战,并提出了一个名为 Meta-Transformer 的新颖的多模态学习统一框架。 Meta-Transformer 是第一个使用同一组参数同时对来自十几种模态的数据进行编码的框架,从而允许采用更具凝聚力的方法进行多模态学习。 Meta-Transformer 包含三个简单而有效的组件:用于数据到序列 token 化的模态专家 、用于跨模态提取表示的模态共享编码器以及用于下游任务的特定于任务的头。
具体来说,Meta-Transformer 首先将多模态数据转换为共享公共流形空间的 token 序列。然后,具有冻结参数的模态共享编码器提取表示,通过仅更新下游任务头和轻量级 tokenizer 的参数来进一步适应各个任务。最后,可以通过这个简单的框架有效地学习特定任务和通用模态表示。Meta-Transformer 预示着利用 transformer 开发统一多模态智能的广阔前景。
本文对 12 种模式的各种基准进行了广泛的实验。通过专门利用 LAION-2B 数据集的图像进行预训练,Meta-Transformer 在处理来自多种模式的数据方面表现出了卓越的性能,在不同的多模式学习任务中始终取得优于最先进方法的结果。
|对于不同模态的数据,基于不同模态的信息特性设计了相应的特征序列构造方式,接着将得到的特征序列输入到预训练后参数冻结的编码器中,由此提取的表征能够在多个模态上解决下游多个任务。
文章也说了Meta-Transformer的一些局限性:
- 复杂性:元Transformer需要大量计算量。高内存成本和繁重的计算负担使其难以扩展模型规模和数据数据规模。
- 方法上:与TimeSformer和Graphormer中的轴向注意力机制相比,Meta-Transformer缺乏时间和结构意识。这种限制可能会影响 Meta-Transformer 在时间和结构建模发挥关键作用的任务中的整体性能,例如视频理解、视觉跟踪或社交网络预测。
- 应用上:Meta-Transformer主要发挥其在多模态感知方面的优势。其跨模态生成的能力仍然未知。
总的来说,本文中探讨了普通 transformer 在统一多模态学习中的潜力,强调了使用 transformer backbone 开发统一多模态智能的良好趋势。在某种程度上,本文支持了transformer在下一代网络中的主导地位。重要的是,CNN 和 MLP 也没有落后。它们在数据 token 化和表示投影中发挥着重要作用。这个过程体现了神经网络的继承法则和人工智能的持续进化。
- 相关链接:
发布于 2023-07-26 16:40・IP 属地北京查看全文>>
Zilliz - 0 个点赞 👍
#底薪6k的外贸笔试题-外贸行业已经这么卷了吗?
创贸AICC
为中国企业提供全方位AI解决方案前段时间,微博热搜“#底薪6k的外贸笔试题”引起了广泛关注。这一话题涉及到了外贸行业的待遇问题,也反映出了人们对外贸行业的关注和疑虑。
到底是什么样的试题,让网友炸了锅?
PS:网友看到后,内心独白:底薪6K还有笔试题?一看卷子,人都蒙圈!仿佛感觉自己“重返20岁”了?
对此话题,你有何看法,有没有内行人出来说说。
首先让我们看看网友们的评论。
“站在应聘网友角度- 一类外贸人表示,自己做过类似的题目,工资比6K还低。
- 另一类外贸人则表示这些考题是外贸人的基础知识,应该掌握。
“站在双方当事人角度- 公司觉得6K还找不到一个经验丰富、外贸知识过硬、还会外语的外贸业务员。
- 求职者觉得才6K?还要做题,我上大学考试都没这么认真。
“小编的想法- 其实在小编来看,我十分理解企业的用心良苦啊!
“底薪6k的外贸笔试题”折射出了外贸行业的竞争激烈程度。
随着全球化的不断推进,外贸行业的竞争日益激烈,企业对于拥有专业外贸知识和技能的人才需求不断增加。因此,底薪6k的面试题也是对应聘者实力和价值的一种考量。
但是!我想问问这些公司,这考题非做不可吗?如果有这样一位员工,它掌握了最全面的外贸知识库、精通109种语言、24小时工作、你说东它不敢往西、最重要的是0元雇!!!
你还会出题吗?
接下来我带你看看这位员工的业务水平。
“这是我出的考题“这是AICC的答卷
不到一分钟,就做完了试题。一查准确率,高达99%?它有这么厉害吗?
有,还不止如此。
01 满分文案创作能力
它能创作各种优质文案,还能保证原创度。
例如:
独立站板块原创博客、SEO文章、产品介绍;
电商平台板块关键词分析、用户评价分析、产品SEO;
社交媒体板块短视频脚本、社交发帖文案、社媒#Tag推荐;
以及主动开发开发信、开发信润色等等。
作为一个外贸业务员应聘者,这文案写作能力打个99分(多一分怕它骄傲)没问题吧?
02 一手的数据爬取能力
它拥有着强大的数据爬取能力,能够在短时间内迅速收集你想要的数据。
例如:
实时新闻的采集,你可以将实时新闻的采集和自己公司的内容结合,让它为你生成一篇具有实时热点的文章,更具有爆款性质;
电商评论和社媒评论的采集,大量地筛选采集同类企业的评论信息,精准获取用户信息。
它的速度快到只需要你输入指令即可,是人类无法比拟的高效率。
03 海量的企业信息收集能力
它能一键搜寻你想要的企业信息,帮你节省更多的客户开发时间,并且能够精准筛选优质客户,帮助你企业产品快速出海。
04 创意的图片创造能力
它能快速为你创作出各种图案、尺寸、类型的创意图片。只要输入指令,他就会不厌其烦地为你提供持续的图片产出。如果你企业不仅缺外贸业务员,还缺图片设计师,那么它将是最合适的人员!
05 超全面的外贸业务能力
如果你认为以上的文案创作、数据爬取、实时新闻收集都只是一个外贸业务员所必备的基础能力,那么接下来它强大的AI功能,将大大地提高你对它的兴趣。
它能够查询实时汇率、109种语言智能翻译、文案去AI痕迹、邮箱验证、电话验证、VAT查询、SEO测评、谷歌排名、网站测速......
可以称它为“外贸工具叮叮猫”,有了它,你的外贸工具都可以放在一旁吃灰了。
现在我来正式为您介绍它。
它叫AICC,是一款基于AI大模型的全方位AI解决方案。AICC企业定制版,采用了AI大模型结合行业数据和企业数据,为企业打造私有化的AI助理。对外可做企业客服,对内可做企业助理。
高效且专业是它的代名词,能够代替多个岗位同时工作,且24小时无休,为企业提高效率的同时减少人力成本。
试想一下,如果它成为你企业的员工,会给你的公司带来怎样的变化?
点击下方链接体验发布于 2023-07-31 10:59・IP 属地四川查看全文>>
创贸AICC