位置 : 首页 > 新闻动态

成果速览 | CVPR2024细粒度视觉感知多模态大模型Pink、LocLLM

视频与视觉技术国家工程研究中心

本文分享了来自北京大学张史梁长聘副教授课题组的工作《Pink: Unveiling the Power of Referential Comprehension for Multi-modal LLMs》与《LocLLM: Exploiting Generalizable Human Keypoint Localization via Large Language Model》。上述工作构建的多模态大模型Pink、LocLLM分别通过为大语言模型添加图像细粒度指代分析能力实现了对图像中特定物体和人体的细粒度感知。实验证明了所提出框架和方法在各类多模态任务、指代感知任务以及人体感知任务上的优秀性能和泛化能力。上述两个工作已被CVPR2024接收。

1.Pink:图像细粒度指代理解多模态大模型


图1 指代感知大模型Pink框架示意图与测评结果对比

引言

多模态大语言模型是一类以大语言模型为基础集成多种信息模态处理能力的人工智能模型,与传统的多模态模型相比,其利用大语言模型的强大推理能力,在各类视觉任务和多模态理解任务中表现出强大的潜力和涌现的能力,例如根据图像的故事生成,OCR-Free的推理问答,文档分析等,这些能力使其迅速成为新兴的研究热点。现有的多模态大语言模型一般专注于图像级别的内容理解,无法对图像中的特定目标进行细粒度分析,并且模型构建过程中需要大量的指令微调数据和训练资源,严重限制了其在各类视觉任务和多模态任务中的应用。

方法简介

如图1所示,方法由视觉编码器(Visual Encoder),桥接层(Projection)和大语言模型(LLM)组成。给定一张图像和指令文本,视觉编码器将图像编码为视觉词符序列,桥接层将视觉词符映射到大语言模型的输入空间。视觉词符和文本词符经过拼接后会送入大语言模型进行文本生成。

为了实现对图像中特定物体的指代,方法将坐标框转化为具有特定格式的文本。具体而言,对于一个坐标框[xmin, ymin, xmax, ymax],方法将坐标根据图像尺寸归一化到[0,1]并保留小数点后三位。这种设计使坐标可以直接当作常规文本进行处理并且可以作为模型的输入和输出。

在指令微调数据集构建方面,现有工作依赖GPT-4 API构建指令微调数据集,其API不可控且价格昂贵。所提出方法利用现有数据集的标注,通过人工设计指代感知基础任务,构建了高质量的指令微调数据集。为了进一步增加数据量,工作提出了自洽自举数据生成方法,该方法可以将任意密集目标标注数据集转化为坐标框-描述多模态数据。得益于上述方法,所构建数据集不依赖GPT-4 API并且具有任务多样,标注精准等特点,使模型可以降低对指令微调数据量的需求。

在模型微调方面,与其它工作在指令微调过程中冻结视觉编码器不同,该工作指出仅经过图像-文本全局对齐的视觉编码器的细粒度图像理解能力有限。因此,该工作使用适配器模块同时对视觉编码器和大语言模型进行微调。该微调方式不仅加强了视觉编码器的细粒度图像理解能力,并且大幅减少模型的微调参数量,使模型可以在消费级GPU上进行训练。

实验

本文在多个常规的多模态理解数据集和指代感知数据集上对所提出方法进行了验证。仅使用6.7M的可微调参数量和477K的指令微调数据,Pink在常规多模态理解任务GQA上超过使用50M数据的Qwen-VL方法5.2%。在视觉定位等指代感知任务上,Pink使用更低的图像分辨率取得了最好的性能。在针对多模态大模型的评测基准MMBench上,Pink超过第二名mPlug-Owl 5.6%。下面对每类实验进行详细介绍。

表1中统计了不同多模态大模型在5个常用多模态理解数据集的表现。可以看出所提出方法使用了最少的预训练数据(#PT Data),最少的指令微调数据(#IT Data),和最少的微调参数量(#Trainable Param.)实现了最好的性能。

表1 指代感知大模型Pink与其它方法在常规多模态理解数据集对比

表2中统计了不同多模态大模型在指代感知任务视觉定位和PointQA的表现,本文所提出方法使用了更小的输入分辨率取得了最好的性能。

表2 指代感知大模型Pink与其它方法在指代感知数据集对比

undefined

表3 指代感知大模型Pink与其它方法在MMBench对比

表3中统计了不同多模态大模型方法在多模态大模型评测基准MMBench表现,所提出方法在专门针对多模态大模型的评测基准上取得了明显优势。

上述结果证明了所提出方法利用人工设计任务进行指代感知指令微调的有效性,得益于高效的设计,模型使用公开数据集训练,完全可复现。

2.LocLLM:人体姿态感知多模态大模型

图1 定位大模型LocLLM框架示意图与新类型人体骨架关键点检测结果对比

引言

多模态大语言模型在各类视觉任务上表现出强大的潜力,然而还未有工作探索这类模型在细粒度人体感知任务上的有效性。为此课题组进一步将多模态大语言模型推展到人体形态感知领域。已有人体姿态感知方法从训练数据中学习人体结构先验,进而用于推理未知人体图像输入。这种学习范式的泛化能力受到训练数据的限制,即有限的数据集难以提供通用的人体结构先验,这使得现有方法难以泛化到估计未知数据集人体姿态以及检测新类型的人体结构。为了缓解这一限制并提高人体形态感知方法的泛化能力,课题组从另一角度形式化人体姿态感知问题,通过推理人体骨架关键点的文本描述来定位其位置。基于这一思路,课题组提出了首个基于多模态大语言模型的人体姿态感知方法——定位大模型LocLLM。

方法简介

课题组所提出的定位大模型如图1所示。定位大模型将人体关键点定位任务形式化为一个问答任务,通过输入图像、对应的关键点描述以及问题来回答对应的关键点坐标。该方法包括一个视觉编码器、一个映射器以及一个预训练的大语言模型。其中视觉编码器负责学习图像特征表征,映射器将图像特征映射到与文本词符类似的图像词符,并一起送入到大模型中。为了高效地训练定位大模型,本工作在已有定位数据集上构造了基于定位的大规模指令微调对话数据集来连接关键点文本描述与对应的坐标。此外还提出了一个高效参数微调方法来利用指令对话数据集训练整个模型。

基于定位的指令微调对话:在输入指令层面,不同于传统人体姿态感知方法,LocLLM引入文本来显式表达人体结构信息,即人体关键点的名称、在身体上的位置描述以及与其他关键点的联系。这种显式表达可以引入外部知识,使得定位大模型能检测训练数据之外所定义的人体关键点,具有更好的灵活性。在输出指令层面,该工作探索了两种不同的人体关键点坐标表示,即量化为位置词符表示与小数字符串表示,并对两种表示的优缺点进行了细致分析与实验比较。

高效参数微调:为了降低多模态大语言模型的训练代价,该工作引入低秩适配(LoRA)来对模型进行少量参数微调。与Pink类似,LocLLM在视觉编码器与大语言模型中都引入了LoRA模块,这种微调方式能有效对齐视觉与文本模态,使得大语言模型能理解骨架关键点定位任务并输出准确的本文坐标表示。同时这种微调方式也能大幅减少模型的微调参数量,使模型可以在消费级GPU上进行训练。

实验

本工作在多个人体姿态感知数据集上取得了优异的性能。LocLLM在标准的二维与三维人体姿态估计数据集上取得了77.6%准确率与46.6mm定位误差,超越了传统纯视觉感知方法。在跨数据集泛化测试实验中,LocLLM在Human-Art数据集上取得了64.8%的性能,领先之前最佳方法ViTPose11.0%的准确率。在新类型关键点检测实验中,LocLLM也领先基线方法24.1%的准确率,展现出优异的泛化能力。下面对每类实验进行详细介绍。

本工作首先在多个人体姿态感知数据集上对所提出的方法进行了验证。表1展示了不同人体姿态感知方法在标准二维人体姿态估计与三维人体姿态估计任务上的性能对比。从表1中可以发现所提出的定位大模型在两个任务上都取得了优异性能,验证了多模态大模型能进行细粒度人体关键点定位任务,也说明多模态大语言模型具有三维深度理解能力。

undefined

表1 定位大模型LocLLM与其它方法在二维人体姿态估计(上)与三维人体姿态估计(下)任务的性能对比

定位大模型的优势还体现在泛化能力上。得益于引入的文本先验与大语言模型,LocLLM也展示出超强的泛化能力,表2展现了LocLLM在跨数据集泛化测试上的实验结果。其中所有方法均在COCO数据集上训练,并在Human-Art与MPII两个数据集上进行测试。可以发现,所提出的方法在两个数据集上均取得领先的性能,相比于之前最佳方法ViTPose提升了11.0%与7.6%的准确率。

undefined

表2 定位大模型LocLLM与其它方法在跨数据集泛化测试实验的性能对比

undefined

表3 定位大模型LocLLM与其它方法在新类型人体关键点检测实验的性能对比

表3展示了定位大模型在新类型关键点检测任务的实验结果。其中表3左表设定是将COCO数据集17种关键点中的4种在训练时去掉,测试时加入去掉的关键点。可以发现定位大模型取得了优异的性能,领先基线方法24.1%的准确率。表3右表设定是将COCO数据集训练的模型在MPII数据集上测试,这两个数据集有不同的人体关键点集合,因而可以用于新类型关键点检测。所提出的方法在新类型关键点如Pelvis与Neck上取得合理的定位性能,但是基线方法表现很差,几乎没有新类型关键点定位能力。

上述结果证明了所提出的定位大模型在细粒度人体姿态感知任务上的有效性,以及优异的泛化能力,例如在跨数据集泛化实验以及新类型关键点检测实验中均取得了优异的性能。我们希望该工作能为后续可泛化的人体姿态估计方法提供参考与启发。

更多的方法及实验分析与讨论的细节请参考原文:

论文链接:https://arxiv.org/abs/2310.00582

代码链接:https://github.com/SY-Xuan/Pink https://github.com/kennethwdk/LocLLM