多模态大模型的时代真的来了吗？ - 写在前面 & 笔者的个人理解近年...

写在前面 & 笔者的个人理解

近年来，视觉-语言数据和模型在自动驾驶领域引起了广泛关注。许多精心设计和标注的数据集用于微调多模态大模型，使模型不仅能理解视觉输入并生成文本回答，更能适用于自动驾驶多种应用场景。由于驾驶场景的复杂多变以及驾驶行为的多样性，现有的自动驾驶模型和数据往往专注于单一场景和任务。虽然这些方法表现出了显著的性能，但模型的适用性局限于特定场景和任务，比如特定的输入类型和数据集特定的任务。一方面，我们注意到不同数据集的收集方法是由其特定任务决定的。

原文链接：六大数据集全部SOTA！最新DriveMM：自动驾驶一体化多模态大模型（美团&中山大学）

例如，专注于极端情况和特殊物体感知的数据集只需要前视图图像，而与车辆行为预测和自车决策相关的任务则需要多视角甚至视频的输入。另一方面，每个数据集都聚焦于特定子任务。因此，在单一数据集上训练的专有模型缺乏处理现实世界中复杂多样任务所需的通用能力和迁移至新场景新任务的泛化能力。为了解决这些问题，本文提出了DriveMM，一种通用