共6个回答0条评论

多模态大模型的时代真的来了吗？

香港中文大学多媒体实验室联合上海人工智能实验室的研究团队提出一个统一多模态学习框架 —— Meta-Transformer，通过统一学习多种模态信息，模型可学会...

显示全部

Zilliz

1 个点赞 👍
来了啊，近几年，多模态的开发，应用，都是飞速发展。详情可以参考这篇多模态大模型的综述：“Understanding Multimodal LLMs”。为了方便阅读，我把它翻译成中文，并进行了一些优化，内容如下：
以下为译文：

在本文中，我旨在解释多模态 LLM 的工作原理。此外，我将回顾和总结最近几周发表的大约十几篇其他多模态论文和模型（包括 Llama 3.2）以比较它们的方法。
（要查看目录菜单，请单击左侧的行堆栈。
查看全文>>
北方的郎
1 个点赞 👍
一、简介
MiniCPM是一系列端侧语言大模型，主体语言模型MiniCPM-2B具有2.4B的非词嵌入参数量。在综合性榜单上与Mistral-7B相近（中文、数学、代码能力更优），整体性能超越Llama2-13B、MPT-30B、Falcon-40B等模型。在当前最接近用户体感的榜单MTBench上，MiniCPM-2B也超越了Llama2-70B-Chat、Vicuna-33B、Mistral-7B-Instruct-v0.1、Zephyr-7B-alpha等众多代表性开源大模型。
我们将完全开源MiniCPM-2B的模型参数供学术研究和有限商用，以及训练过程中的所有Checkpoint和大部分非专有数据(需要一定时间准备）给模型机理研究。
具体而言，目前我们已开源以下模型：
- 基于MiniCPM-2B的指令微调与人类偏好对齐的MiniCPM-2B-SFT/DPO。
- 基于MiniCPM-2B的多模态模型MiniCPM-V，能力超越基于Phi-2的同参数级别多模态模型**。**
- MiniCP
查看全文>>
transformer
0 个点赞 👍
写在前面 & 笔者的个人理解
近年来，视觉-语言数据和模型在自动驾驶领域引起了广泛关注。许多精心设计和标注的数据集用于微调多模态大模型，使模型不仅能理解视觉输入并生成文本回答，更能适用于自动驾驶多种应用场景。由于驾驶场景的复杂多变以及驾驶行为的多样性，现有的自动驾驶模型和数据往往专注于单一场景和任务。虽然这些方法表现出了显著的性能，但模型的适用性局限于特定场景和任务，比如特定的输入类型和数据集特定的任务。一方面，我们注意到不同数据集的收集方法是由其特定任务决定的。
原文链接：六大数据集全部SOTA！最新DriveMM：自动驾驶一体化多模态大模型（美团&中山大学）
例如，专注于极端情况和特殊物体感知的数据集只需要前视图图像，而与车辆行为预测和自车决策相关的任务则需要多视角甚至视频的输入。另一方面，每个数据集都聚焦于特定子任务。因此，在单一数据集上训练的专有模型缺乏处理现实世界中复杂多样任务所需的通用能力和迁移至新场景新任务的泛化能力。为了解决这些问题，本文提出了DriveMM，一种通用
查看全文>>
自动驾驶之心
31 个点赞 👍
1.多模态希望解决什么问题

1.1.什么是模态？

根据美国哈佛商学院有关研究人员的分析资料表明，人的大脑每天通过五种感官在接受外部信息的比例分别为：味觉1%、触觉1.5%、嗅觉3.5%、听觉11%以及视觉83%。

人类通过多种感觉器官接触世界——我们看到物体，听到声音，感受纹理，闻到气味等等。一般而言，模态指的是某事发生或被体验的方式。大多数人将模态与感官模态联系在一起，这些模态代表了我们的主要交流和感知渠道，如视觉或触觉。因此，当一个研究问题或数据集包含多个这样的模态时，可以将其描述为多模态的。一般主要关注三种模态：自然语言（既可以是书面的也可以是口头的）；视觉信号（通常用图像或视频表示）；以及声音信号（编码声音和类声音信息，如韵律和语音表达）。

1.2.多模态算法为什么比较难？

多模态机器学习(Multimodal Machine Learning)研究包含不同模态数据的机器学习问题。由于不同模态往往来自不同的传感器，数据的形成方式和内部结构有很大的区别，例如，图像是自然界存在的连续空间，而文本是依赖人类知识、语法规则组织的离散空间。多模态数据的异质性(heterogeneity)对如何学习多模态间关联性和互补性提出挑战。
为了使人工智能算法在理解我们周围的世界方面取得进展，它需要能够解释和推理多模态信息。多模态机器学习旨在构建能够处理和关联多个模态信息的模型。从早期对音频-视觉语音识别的研究到最近对语言和视觉模型的兴趣激增，多模态机器学习是一个充满活力的跨学科领域，具有日益重要和非凡潜力。

2.多模态场景的主要应用

2.1.从历史演进角度看
表1 多模态主要应用领域及核心技术挑战

应用1：语音识别和合成

多模态早期应用之一视听语音识别（audio-visual speech recognition-AVSR ）。这类研究受到了McGurk Effect的影响。视觉与声音会相互影响，这个心理学发现启发了研究者去探索如何使用视觉辅助声音识别。

McGurk效应是一种视听错觉现象，最早由研究人员Harry McGurk和John MacDonald在1976年描述。这个效应涉及到一个人同时看着一个人的嘴唇在说一个音节，同时听到另一个音节的声音。结果是观察者会产生一个第三个音节的错觉，该音节既不是实际看到的，也不是实际听到的。
例如，当一个人看到一个人的嘴唇在说"ga"（/ga/）的同时，听到的声音是"ba"（/ba/）时，观察者可能会产生一个错误的听觉体验，感觉到了"da"（/da/）。

应用2：多模态内容的索引和检索

随着多媒体技术发展，多媒体内容索引和检索的需要变得越来越重要。而早期，对这些多媒体视频进行索引和搜索的方法是基于关键词的，但在尝试直接搜索视觉和多模态内容时，出现了新的研究问题。这导致了多媒体内容分析领域的新研究课题，如自动镜头边界检测和视频摘要。这些研究项目得到了美国国家标准与技术研究所（NIST）的TrecVid计划的支持，该计划推出了许多高质量的数据集，包括从2011年开始的多媒体事件检测（MED）任务。

TrecVid计划是由美国国家标准与技术研究所（NIST）发起的一个国际性研究评估活动，旨在推动视频信息检索技术的发展。TrecVid代表“Text REtrieval Conference Video”, 即“文本检索会议视频”。该计划提供了一个平台，让研究人员和实验室可以参与多媒体信息检索、视频分析和相关领域的评估任务。
TrecVid计划每年都会发布一系列任务，要求参与者开展相关的研究工作，例如视频内容分类、目标检测、事件检测等。参与者需要提交他们的算法和系统，并通过一系列评估指标来评估性能。

应用3：社交活动中的多模态行为理解-事件检测和情感识别

通过自动面部检测、面部关键点检测和面部表情识别等技术的强大进展，完成情感识别和情感计算任务。AVEC挑战随后每年举办一次，后期的实例包括自动评估抑郁症和焦虑症等医疗应用。D’Mello等人发表了一篇关于多模态情感识别最近进展的优秀综述[2]。

数据集：

在这个领域收集的第一个重要数据集之一是AMI会议语料库，其中包含了100多小时的会议视频录音，全部进行了全面的转录和注释。

另一个重要的数据集是SEMAINE语料库，它允许研究发言者和听众之间的人际动态关系。该数据集成为了2011年举办的第一个音频-视觉情感挑战（AVEC）的基础。

应用4：多媒体内容生成

语言和视觉为重点的新型多模态应用类别：多媒体内容描述。其中一个最具代表性的应用是图像描述，其任务是生成输入图像的文本描述。这受到了这类系统能够帮助视障人士在日常任务中的能力的启发。媒体描述面临的主要挑战之一是评估：如何评估所预测描述的质量。最近提出了视觉问答（VQA）任务来解决一些评估挑战[3]，其目标是回答关于图像的具体问题。

2.2.从模态视角进行分类

2.2.1. 跨模态定位和关系识别任务

Visual Grounding：给定一个图像与一段文本，定位到文本所描述的物体。

Temporal Language Localization: 给定一个视频与一段文本，定位到文本所描述的动作(预测起止时间)。

Video Summarization from Text Query：给定一段话(query)与一个视频，根据这段话的内容进行视频摘要，预测视频关键帧(或关键片段)组合为一个短的摘要视频。

Video Segmentation from Natural Language Query: 给定一段话(query)与一个视频，分割得到query所指示的物体。

Video-Language Inference: 给定视频(包括视频的一些字幕信息)，还有一段文本假设(hypothesis)，判断二者是否存在语义蕴含(二分类)，即判断视频内容是否包含这段文本的语义。

Object Tracking from Natural Language Query: 给定一段视频和一些文本，追踪视频中文本所描述的对象。

Language-guided Image/Video Editing: 一句话自动修图。给定一段指令(文本)，自动进行图像/视频的编辑。

2.2.2. 跨模态生成任务

Language-Audio

Text-to-Speech Synthesis: 给定文本，生成一段对应的声音。

Audio Captioning：给定一段语音，生成一句话总结并描述主要内容。(不是语音识别)

Vision-Audio

Audio-Visual Speech Recognition(视听语音识别)：给定某人的视频及语音进行语音识别。

Video Sound Separation(视频声源分离)：给定视频和声音信号(包含多个声源)，进行声源定位与分离。

Image Generation from Audio: 给定声音，生成与其相关的图像。

Speech-conditioned Face generation：给定一段话，生成说话人的视频。

Audio-Driven 3D Facial Animation：给定一段话与3D人脸模版，生成说话的人脸3D动画。

Vision-Language

Image/Video-Text Retrieval (图(视频)文检索): 图像/视频<-->文本的相互检索。

Image/Video Captioning(图像/视频描述)：给定一个图像/视频，生成文本描述其主要内容。

Visual Question Answering(视觉问答)：给定一个图像/视频与一个问题，预测答案。

Image/Video Generation from Text：给定文本，生成相应的图像或视频。

Multimodal Machine Translation：给定一种语言的文本与该文本对应的图像，翻译为另外一种语言。

Vision-and-Language Navigation(视觉-语言导航)：给定自然语言进行指导，使得智能体根据视觉传感器导航到特定的目标。

Multimodal Dialog(多模态对话)：给定图像，历史对话，以及与图像相关的问题，预测该问题的回答。

3.多模态主要技术难点[1]

3.1.表征

如何挖掘模态间的互补性或独立性以表征多模态数据。
表征学习是多模态任务的基础，其中包含了一些开放性问题，例如：如何结合来源不同的异质数据，如何处理不同模态的不同噪声等级，测试样本的某种模态缺失怎么办。

3.1.1. 原理介绍
现有多模态表征学习可分为两类：Joint(联合，也称为单塔结构)和Coordinated(协作，双塔结构)。

Joint结构注重捕捉多模态的互补性，融合多个输入模态 $x_1, x_2$ x_1, x_2 ，获得多模态表征 $x_m = f(x_1, x_2)$ x_m = f(x_1, x_2) ,进而使用 $x_m$ x_m 完成某种预测任务。网络优化目标是某种预测任务的性能。

Coordinated结构并不寻求融合而是建模多种模态数据间的相关性，它将多个(通常是两个)模态映射到协作空间，表示为： $f(x_1)～g(x_2)$ f(x_1)～g(x_2) ，其中～表示一种协作关系。网络的优化目标是这种协作关系(通常是相似性，即最小化cosine距离等度量)。

图1. Joint representation(单塔)与Coordinated representation(双塔)

在测试阶段，由于Coordinated结构保留了两个模态的表示空间，它适合仅有一个模态作为输入的应用，如跨模态检索，翻译，grounding和zero-shot learning。但是Joint结构学习到的 $x_m$ x_m 只适用于多模态作为输入，例如视听语音识别，VQA，情感识别等。

3.1.2.讨论
相较于多模态，基于单模态的表征学习已被广泛且深入地研究。在Transformer出现之前，不同模态所适用的最佳表征学习模型不同，例如，CNN广泛适用CV领域，LSTM占领NLP领域。较多的多模态工作仍旧局限在使用N个异质网络单独提取N个模态的特征，之后采用Joint或Coordinated结构进行训练。不过这种思路在很快改变，随着越来越多工作证实Transformer在CV和NLP以及Speech领域都可以获得极佳的性能，仅使用Transformer统一多个模态、甚至多个跨模态任务成为可能。基于Transformer的多模态预训练模型在2019年后喷涌而出，如LXMERT[5], Oscar[6], UNITER[7]属于Joint结构，CLIP[8], BriVL[9] 属于Coordinated结构。

3.1.3. 相关算法及参考文献

注：上述表格中的参考文献为本参考文献[1]的附属参考文献编号
3.2.翻译

3.2.1. 原理介绍

跨模态翻译的目的是学习如何将源模态映射(map)到目标模态。例如：输入一张图像，我们希望生成一句话描述它，或者输入一句话，我们生成与之匹配的一张图。主流方法分为两类：

举例法(example-based)。模版法的特征是借助于词典（dictionary）进行翻译，词典一般指训练集中的数据对 $\{（x_1,y_1），..., (x_N,y_N)\}$ \{（x_1,y_1），..., (x_N,y_N)\} 。给定测试样本 $\hat{x}$ \hat{x} ，模版法直接检索在词典中找到最匹配的翻译结果 $y_i$ y_i ，并将其作为最终输出。此处的检索可分为单模态检索或跨模态检索。单模态检索首先找到与 $\hat{x}$ \hat{x} 最相似的 $x_i$ x_i ,然后获得 $x_i$ x_i 对应的 $y_i$ y_i 。而多模态检索直接在 $\{y_1,...,y_N\}$ \{y_1,...,y_N\} 集合中检索到与 $\hat{x}$ \hat{x} 最相似的 $y_i$ y_i ，性能通常优于单模态检索。为进一步增强检索结果的准确性，可选择top-K的检索结果 $\{y_{i_1},...,y_{i_k}$ \{y_{i_1},...,y_{i_k} ，再融合K个结果作为最终输出。

生成式模型(generative)。抛弃词典，直接生成目标模态的数据。分为三个子类别：

基于语法模版，即人为设定多个针对目标模态的语法模版，将模型的预测结果插入模版中作为翻译结果。以图像描述为例，模版定义为 who did what to whom in a place ，其中有四个待替换的插槽。通过不同类型的目标/属性/场景检测器可以获得who, what, whom, place等具体单词，进而完成翻译。

编码-解码器(encoder-decoder)。首先将源模态的数据编码为隐特征 $z$ z ，后续被解码器用于生成目标模态。以图像描述为例，编码器(一般为CNN+spatial pooling)将图像编码为一个或多个特征向量，进而输入到RNN中以自回归的方式生成单词序列。

连续性生成(continuous generation)。它针对源模态与目标模态都为流数据且在时间上严格对齐的任务。以文本合成语音为例，它与图像描述不同，语音数据与文本数据在时间上严格对齐。WaveNet采用了CNN并行预测+CTC loss解决该类问题。当然，编码-解码器理论上也可完成该任务，但需处理数据对齐问题。

图2 用于跨模态翻译的举例法(左)与生成式模式(右)

3.2.2. 多类方法优缺点分析 举例法面临两个问题：

一是需要维护一个大词典，且每次翻译都需要进行全局检索，使得模型巨大且推理速度慢(hashing可缓解此问题)。

二是此类方法较机械，仅仅是复制(或简单修改)训练集的数据，无法生成准确且新奇的翻译结果。

生成式方法可以生成更为灵活、相关性更强、性能更优的翻译结果。其中，基于语法模版的方式受限于模版的多样性，生成的语句多样性有限，且不是端到端训练。现今，编码-解码器与连续性生成是主流方案，它们一般基于深度网络且端到端训练。

3.2.3. 跨模态翻译的评估困境

评估语音识别模型的性能是容易的，因为正确的输出有且只有一种。但对于大多数翻译任务来说(视觉<-->文本、文本-->语音等)，模态间的映射是一对多的，输出存在多个正确结果。例如图像描述，不同的人会使用不同的语句对同一幅图像进行描述，因此模型的评估常常是主观的。人工评价是最理想的评估，但是耗时耗钱，且需要多样化打分人群的背景以避免偏见。自动化指标是视觉描述领域常用的替代方法，包括BLEU，Meteor，CIDEr，ROUGE等，但它们被证实与人的评价相关性较弱。基于检索的评估和弱化任务(例如：将图像描述中一对多映射简化为VQA中一对一的映射)也是解决评估困境的手段。

3.2.4.相关算法及参考文献

注：上述表格中的参考文献为本参考文献[1]的附属参考文献编号
3.3.对齐

跨模态对齐目的是挖掘多模态数据的子元素之间的关联性，例如visual grounding任务。在学习表征或翻译时也可能隐式地学习对齐。

3.3.1. 原理介绍

对齐广泛应用于多模态任务中，具体的应用方式包括显式对齐和隐式对齐。

显式对齐。如果一个模型的优化目标是最大化多模态数据的子元素的对齐程度，则称为显示对齐。包括无监督和有监督方法。无监督对齐：给定两个模态的数据作为输入，希望模型实现子元素的对齐，但是训练数据没有“对齐结果”的标注，模型需要同时学习相似度度量和对齐方式。而有监督方法存在标注，可训练模型学习相似度度量。Visual grounding便是有监督对齐的任务。

隐式对齐。如果模型的最终优化目标不是对齐任务，对齐过程仅仅是某个中间(或隐式)步骤，则称为隐式对齐。早期基于概率图模型(如HMM)的方法被应用于文本翻译和音素识别中，通过对齐源语言和目的语言的单词或声音信号与音素。但是他们都需要手动构建模态间的映射。最受欢迎的方式是基于注意力机制的对齐，我们对两种模态的子元素间求取注意力权重矩阵，可视为隐式地衡量跨模态子元素间的关联程度。在图像描述，这种注意力被用来判断生成某个单词时需要关注图像中的哪些区域。在视觉问答中，注意力权重被用来定位问题所指的图像区域。很多基于深度学习的跨模态任务都可以找到跨模态注意力的影子。

3.3.2.讨论

对齐可以作为一个单独的任务，也可以作为其他任务的隐式特征增强手段。多模态对齐可挖掘子元素间的细粒度交互，同时有可解释性，被广泛应用。

但多模态对齐面临如下挑战：

仅有少量数据集包含显式的对齐标注；

跨模态度量难以设计；

可能存在多种对齐，可能存在某些元素无法在其他模态中找到。

3.3.3.相关算法及参考文献

注：上述表格中的参考文献为本参考文献[1]的附属参考文献编号
3.4.融合

融合两个模态的数据，用来进行某种预测。例如：Visual Question Answering需融合图像和问题来预测答案；Audio-visual speech recognition需融合声音和视频信息用以识别说话内容。若测试场景下的输入数据包含多个模态，那么必须面对多模态特征融合。

3.4.1. 原理介绍

多模态融合策略，主要分为两类：模型无关和基于模型的融合

模型无关的融合策略

前融合：指在模型的浅层(或输入层)将多个模态的特征拼接起来。
后融合：独立训练多个模型，在预测层(最后一层)进行融合。
混合融合：同时结合前融合和后融合，以及在模型中间层进行特征交互。

基于模型的融合策略：

多核学习(Multiple Kernel Learning)是SVM的扩展。SVM通过核函数将输入特征映射到高维空间，使线性不可分问题在高维空间可分。在处理多个输入时，多核处理多个模态特征，使得每个模态都找到其最佳核函数；

基于概率图模型利用隐马尔可夫模型或贝叶斯网络建模数据的联合概率分布(生成式)或条件概率(判别式)。基于神经网络的融合。使用LSTM、卷积层、注意力层、门机制、双线性融合等设计序列数据或图像数据的复杂交互。

3.4.2. 讨论

多模态融合是依赖于任务和数据的，现有工作中常常是多种融合手段的堆积，并未真正统一的理论支撑。最近，神经网络已成为处理多模态融合的一种非常流行的方式，然而图形模型和多核学习仍然被使用，特别是在训练数据有限或模型可解释性很重要的任务中。

当然，多模态融合仍存在的挑战：

不同模态的序列信息可能没有对齐；

信号间的关联可能只是补充(仅提高鲁棒性而无法增大信息量)而不是互补；

不同数据可能存在不同程度的噪声。

3.4.3.相关算法及参考文献

注：上述表格中的参考文献为本参考文献[1]的附属参考文献编号
3.5.协同学习(co-learning)

模态间的知识迁移。使用辅助模态训练的网络可以帮助该模态的学习，尤其是该模态数据量较小的情况下。

3.5.1.原理介绍

之所以称为"协同学习"，是因为，辅助模态仅在模型训练期间使用，而在测试时不使用。
我们根据它们的训练资源，将协同学习方法分为三类：并行、非并行和混合。

图3 协同学习中数据并行类型
并行学习

并行数据方法需要训练数据集，其中来自一个模态的观察直接与来自其他模态的观察相关联。换句话说，当多模态观察来自相同的实例时，比如在一个音视频语音数据集中，视频和语音样本来自同一说话者。

非并行协同学习

非并行数据方法不需要不同模态观察之间的直接链接。这些方法通常通过在类别方面的重叠来实现协同学习。例如，在零样本学习中，常规的视觉对象识别数据集可以通过扩展为包括来自维基百科的第二个纯文本数据集，以提高视觉对象识别的泛化性能。

混合协同方法

在混合数据设置中，通过共享模态或数据集来连接模态。

3.5.2.讨论

多模态协同学习允许一种模态影响另一种模态的训练，利用跨模态的互补信息。值得注意的是，协同学习是与任务无关的，可以用于创建更好的融合、翻译和对齐模型。这一挑战可以通过诸如协同训练、多模态表示学习、概念接地和零样本学习（ZSL）等算法来解决，并已在视觉分类、动作识别、视听语音识别和语义相似度估计等领域得到广泛应用。

3.5.3.相关算法及参考文献

注：上述表格中的参考文献为本参考文献[1]的附属参考文献编号
4.大模型下的多模态算法

4.1. Image-to-Text生成模型

4.1.1.GPT-4多模态算法(GPT-4 Technical Report-2023/03/27)

目前GPT-4及GPT-4V(ersion)的多模态实现细节没有公布，但根据微软研究人员Chunyuan Li在2023年6月的CVPR会议的Tutorial(PPT：Large Multimodal Models Towards Building and Surpassing Multimodal GPT-4，整理论文：Large Multimodal Models: Notes on CVPR 2023 Tutorial)，透露出一些GPT-4可能的实现思路(vision与language两模态任务)

GPT-4V(ision) System Card（官方发布文档）

2023年9月25日，多模态GPT-4V（Vision）发布！GPT-4V允许用户输入图像并结合文本prompt进行输出。

微软对GPT-4v的案例测试效果

2023年10月11号，微软就公布了一份长达166页的报告，定性地探讨了GPT-4V的功能和使用情况。

GPT-4V 支持哪些输入和工作模式？

多模态模型的通用性必然要求系统能够处理不同输入模态的任意组合。GPT-4V 在理解和处理任意混合的输入图像、文本、场景文本和视觉指针方面表现出了前所未有的能力。他们还证明，GPT-4V 能够很好地支持在 LLM 中观察到的指令跟随、思维链、上下文小样本学习等技术。

GPT-4V 在不同领域和任务中表现出的质量和通用性如何？

为了了解 GPT-4V 的能力，作者对涵盖广泛领域和任务的查询进行了采样，包括开放世界视觉理解、视觉描述、多模态知识、常识、场景文本理解、文档推理、编码、时间推理、抽象推理、情感理解等。GPT-4V 在许多实验领域都表现出了令人印象深刻的人类水平的能力。

使用和提示 GPT-4V 的有效方法是什么？

GPT-4V 能够很好地理解像素空间编辑，例如在输入图像上绘制的视觉指针和场景文本。受这种能力的启发，研究者讨论了“visual referring prompting”(视觉参考提示)，它可以直接编辑输入图像以指示感兴趣的任务。视觉参考提示可与其他图像和文本提示无缝结合使用，为教学和示例演示提供了一个细致入微的界面。

4.2.Text-to-Image生成模型

第1个模块：Text Encoder

任一文本表示模型，例如GPT、Bert等。

第3个模块：Decoder

第2个模块：Generation Model

4.2.1.Stable Diffusion

Stable Diffusion是stability.ai开源的图像生成模型，可以说Stable Diffusion的发布将AI图像生成提高到了全新高度，其效果和影响不亚于Open AI发布ChatGPT

4.2.2.DALL-E

DALL-E 1的工作原理

DALL-E 2的工作原理

DALL-E 3主要改进

4.2.3.MidJourney

Midjourney也是一款由人工智能驱动的工具，其能够根据用户的提示生成图像。MidJourney善于适应实际的艺术风格，创造出用户想要的任何效果组合的图像。它擅长环境效果，特别是幻想和科幻场景，看起来就像游戏的艺术效果。

4.2.4.DALL·E， Stable Diffusion 和 Midjourney之间的比较

DALL-E 使用数以百万计的图片数据进行训练，其输出结果更加成熟，非常适合企业使用。当有两个以上的人物出现时，DALL-E 2产生的图像要比Midjourney或Stable Diffusion好得多。

Midjourney则是一个以其艺术风格闻名的工具。Midjourney使用其Discord机器人来发送以及接收对AI服务器的请求，几乎所有的事情都发生在Discord上。由此产生的图像很少看起来像照片，它似乎更像一幅画。

Stable Diffusion 是一个开源的模型，人人都可以使用。它对当代艺术图像有比较好的理解，可以产生充满细节的艺术作品。然而它需要对复杂的prompt进行解释。Stable Diffusion比较适合生成复杂的、有创意的插图。但在创作一般的图像时就显得存在些许不足。

5.多模态开源工具

5.1. Image-to-Text开源工具

LLaVA[10]

miniGPT-4[11]

5.2.Text-to-Image开源工具

Stable Diffusion XL

6.参考文献

[1] Tadas Baltrušaitis, Chaitanya Ahuja, Louis-Philippe Morency, Multimodal Machine Learning: A Survey and Taxonomy, 2017

[2] S. K. D’mello and J. Kory, “A Review and Meta-Analysis of Multimodal Affect Detection Systems,” ACM Computing Surveys, 2015.

[3]S. Antol, A. Agrawal, J. Lu, M. Mitchell, D. Batra, C. Lawrence Zitnick, and D. Parikh, “VQA: Visual question answering,” in ICCV, 2015

[4]"TRECVID Multimedia Event Detection 2011 Evaluation," https://www.nist.gov/multimodal-information-group/ trecvid-multimedia-event-detection-2011-evaluation, accessed: 2017-01-21.

[5] LXMERT: Learning Cross-Modality Encoder Representations from Transformers, EMNLP 2019.

[6] Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks, ECCV 2020.

[7] UNITER: UNiversal Image-TExt Representation Learning, ECCV 2020. [8] Learning Transferable Visual Models From Natural Language Supervision, Arxiv 2021.

[9] WenLan: Bridging Vision and Language by Large-Scale Multi-Modal Pre-Training, Arxiv 2021.

[10]Haotian Liu, Chunyuan Li, Qingyang Wu, and Yong Jae Lee. Visual instruction tuning. arXiv preprint arXiv:2304.08485, 2023.

[11]Deyao Zhu, Jun Chen, Xiaoqian Shen, Xiang Li, and Mohamed Elhoseiny. Minigpt-4: Enhancing vision-language understanding with advanced large language models, 2023.

[12]DiffusionModel _PDDM_1.pdf

[13]DiffusionModel _PDDM_2.pdf

[14]DiffusionModel _数学原理.pdf

[15]Understanding Diffusion Models A Unified Perspective.pdf

[16]OpenAI第一届DevDay主题演讲-SamAltman

[17]https://www.zhihu.com/people/jjyue-jd
发布于 2023-11-26 20:16・IP 属地北京

真诚赞赏，手留余香

还没有人赞赏，快来当第一个赞赏的人吧！
查看全文>>
jjyue
2 个点赞 👍
出品人：Towhee 技术团队

作者：张晨

在探索通用人工智能的多种可能发展方向中，多模态大模型（MLLM）已成为当前备受关注的重要方向。随着 GPT-4 对图文理解的冲击，更多模态的理解成为了学术界的热点话题，这个时代真的来临了吗？

香港中文大学多媒体实验室联合上海人工智能实验室的研究团队提出一个统一多模态学习框架 —— Meta-Transformer，通过统一学习多种模态信息，模型可学会理解 12 种模态，共享网络参数，无需额外训练。

｜Meta-Transformer支持的模态，和它与ImageBind的对比

本文探索了 transformer 架构处理 12 种模态的潜力，包括图像、自然语言、点云、音频频谱图、视频、红外、高光谱、X 射线、IMU、表格、图形和时间序列数据，如图所示。

本文讨论了每种模态的 transformer 学习过程，并解决了将它们统一到单个框架中所面临的挑战，并提出了一个名为 Meta-Transformer 的新颖的多模态学习统一框架。 Meta-Transformer 是第一个使用同一组参数同时对来自十几种模态的数据进行编码的框架，从而允许采用更具凝聚力的方法进行多模态学习。 Meta-Transformer 包含三个简单而有效的组件：用于数据到序列 token 化的模态专家、用于跨模态提取表示的模态共享编码器以及用于下游任务的特定于任务的头。

具体来说，Meta-Transformer 首先将多模态数据转换为共享公共流形空间的 token 序列。然后，具有冻结参数的模态共享编码器提取表示，通过仅更新下游任务头和轻量级 tokenizer 的参数来进一步适应各个任务。最后，可以通过这个简单的框架有效地学习特定任务和通用模态表示。Meta-Transformer 预示着利用 transformer 开发统一多模态智能的广阔前景。

本文对 12 种模式的各种基准进行了广泛的实验。通过专门利用 LAION-2B 数据集的图像进行预训练，Meta-Transformer 在处理来自多种模式的数据方面表现出了卓越的性能，在不同的多模式学习任务中始终取得优于最先进方法的结果。

｜对于不同模态的数据，基于不同模态的信息特性设计了相应的特征序列构造方式，接着将得到的特征序列输入到预训练后参数冻结的编码器中，由此提取的表征能够在多个模态上解决下游多个任务。

文章也说了Meta-Transformer的一些局限性：

复杂性：元Transformer需要大量计算量。高内存成本和繁重的计算负担使其难以扩展模型规模和数据数据规模。

方法上：与TimeSformer和Graphormer中的轴向注意力机制相比，Meta-Transformer缺乏时间和结构意识。这种限制可能会影响 Meta-Transformer 在时间和结构建模发挥关键作用的任务中的整体性能，例如视频理解、视觉跟踪或社交网络预测。

应用上：Meta-Transformer主要发挥其在多模态感知方面的优势。其跨模态生成的能力仍然未知。

总的来说，本文中探讨了普通 transformer 在统一多模态学习中的潜力，强调了使用 transformer backbone 开发统一多模态智能的良好趋势。在某种程度上，本文支持了transformer在下一代网络中的主导地位。重要的是，CNN 和 MLP 也没有落后。它们在数据 token 化和表示投影中发挥着重要作用。这个过程体现了神经网络的继承法则和人工智能的持续进化。

相关链接：

代码地址：https://github.com/invictus717/MetaTransformer

论文地址：https://arxiv.org/pdf/2307.10802v1.pdf
发布于 2023-07-26 16:40・IP 属地北京
查看全文>>
Zilliz
0 个点赞 👍
#底薪6k的外贸笔试题-外贸行业已经这么卷了吗？

创贸AICC
为中国企业提供全方位AI解决方案

前段时间，微博热搜“#底薪6k的外贸笔试题”引起了广泛关注。这一话题涉及到了外贸行业的待遇问题，也反映出了人们对外贸行业的关注和疑虑。

到底是什么样的试题，让网友炸了锅？

PS:网友看到后，内心独白：底薪6K还有笔试题？一看卷子，人都蒙圈！仿佛感觉自己“重返20岁”了？
对此话题，你有何看法，有没有内行人出来说说。
首先让我们看看网友们的评论。

“站在应聘网友角度

一类外贸人表示，自己做过类似的题目，工资比6K还低。

另一类外贸人则表示这些考题是外贸人的基础知识，应该掌握。

“站在双方当事人角度

公司觉得6K还找不到一个经验丰富、外贸知识过硬、还会外语的外贸业务员。

求职者觉得才6K？还要做题，我上大学考试都没这么认真。

“小编的想法

其实在小编来看，我十分理解企业的用心良苦啊！

“底薪6k的外贸笔试题”折射出了外贸行业的竞争激烈程度。
随着全球化的不断推进，外贸行业的竞争日益激烈，企业对于拥有专业外贸知识和技能的人才需求不断增加。因此，底薪6k的面试题也是对应聘者实力和价值的一种考量。

但是！我想问问这些公司，这考题非做不可吗？

如果有这样一位员工，它掌握了最全面的外贸知识库、精通109种语言、24小时工作、你说东它不敢往西、最重要的是0元雇！！！
你还会出题吗？
接下来我带你看看这位员工的业务水平。

“这是我出的考题

“这是AICC的答卷

不到一分钟，就做完了试题。一查准确率，高达99%？它有这么厉害吗？
有，还不止如此。

01 满分文案创作能力
它能创作各种优质文案，还能保证原创度。
例如：
独立站板块原创博客、SEO文章、产品介绍；
电商平台板块关键词分析、用户评价分析、产品SEO；
社交媒体板块短视频脚本、社交发帖文案、社媒#Tag推荐；
以及主动开发开发信、开发信润色等等。

作为一个外贸业务员应聘者，这文案写作能力打个99分（多一分怕它骄傲）没问题吧？

02 一手的数据爬取能力
它拥有着强大的数据爬取能力，能够在短时间内迅速收集你想要的数据。
例如：
实时新闻的采集，你可以将实时新闻的采集和自己公司的内容结合，让它为你生成一篇具有实时热点的文章，更具有爆款性质；
电商评论和社媒评论的采集，大量地筛选采集同类企业的评论信息，精准获取用户信息。

它的速度快到只需要你输入指令即可，是人类无法比拟的高效率。

03 海量的企业信息收集能力
它能一键搜寻你想要的企业信息，帮你节省更多的客户开发时间，并且能够精准筛选优质客户，帮助你企业产品快速出海。

04 创意的图片创造能力
它能快速为你创作出各种图案、尺寸、类型的创意图片。只要输入指令，他就会不厌其烦地为你提供持续的图片产出。

如果你企业不仅缺外贸业务员，还缺图片设计师，那么它将是最合适的人员！

05 超全面的外贸业务能力
如果你认为以上的文案创作、数据爬取、实时新闻收集都只是一个外贸业务员所必备的基础能力，那么接下来它强大的AI功能，将大大地提高你对它的兴趣。
它能够查询实时汇率、109种语言智能翻译、文案去AI痕迹、邮箱验证、电话验证、VAT查询、SEO测评、谷歌排名、网站测速......

可以称它为“外贸工具叮叮猫”，有了它，你的外贸工具都可以放在一旁吃灰了。

现在我来正式为您介绍它。
它叫AICC，是一款基于AI大模型的全方位AI解决方案。AICC企业定制版，采用了AI大模型结合行业数据和企业数据，为企业打造私有化的AI助理。对外可做企业客服，对内可做企业助理。
高效且专业是它的代名词，能够代替多个岗位同时工作，且24小时无休，为企业提高效率的同时减少人力成本。
试想一下，如果它成为你企业的员工，会给你的公司带来怎样的变化？

点击下方链接体验
发布于 2023-07-31 10:59・IP 属地四川
查看全文>>
创贸AICC