
新闻动态
尽管多模态大谈话模子(MLLMs)取得了显赫的进展,但现存的先进模子仍然缺少与东谈主类偏好的充分对皆。这一差距的存在主若是因为现存的对皆洽商多蚁集于某些特定领域(举例减少幻觉问题),是否与东谈主类偏好对皆可以全面莳植 MLLM 的种种才智依然一个未知数。
快手,中科院,南大衔尾从三个层面脱手鼓舞 MLLM alignment 的发展,包括数据集,奖励模子以及磨练算法,最终的 alignment pipeline 使得不同基础模子在 10 个评估维度,27 个 benchmark 上都取得了一致的性能增益,比较杰出的是,基于本文提议的数据集和对皆算法对 LLaVA-ov-7B 模子进行微调后, conversational 才智平均莳植了 19.5%,安全性平均莳植了 60%。
偏好数据,磨练算法,模子以及评估 pipeline 均已全面开源。
该设施在 twitter 上也引起了热议,被评为多模态 alignment 的 game-changers。
主要孝顺:
新数据集:本文引入了一个包含120k精细标注的偏好比较对的数据集,包含三个维度的打分,排序,文本刻画的具体原因以及平局等标注,通盘标注由东谈主类群众完成,一共50名标注东谈主员,8名群众,耗时两个月。与现存资源比较,这一数据集在范畴、样本种种性、标注粒度和质料等方面都有显赫莳植。
革命的奖励模子:提议了基于品评的奖励模子(Critique-Based Reward Model),该模子领先对模子输出进行品评,然后再进行评分。这一设施比较传统的标量奖励机制,提供了更好的可说明性和更有信息量的反馈,基于该设施的模子只需要 7B size,在 reward model benchmark 就彰着优于现存公开的 72B-size 的 MLLM。
动态奖励缩放:提议了动态奖励缩放(Dynamic Reward Scaling)设施,通过把柄奖励信号移动每个样本的蚀本权重,优化了高质料比较对的使用,进一步提高了数据的使用效用。
全面评估:本文在10个维度和27个基准上对提议的决议进行了严格评估,同期构造了一个 reward model 的 benchmark 以及 safety 关联的 benchmark来弥补现存 benchmark 的不及,完了裸露,在各个方面均取得了显赫且一致的性能莳植。
MM-RLHF 东谈主类偏好数据
数据开头: 图像数据开头包括 LLaVA-OV、VLfeedback、LLaVA-RLHF、lrv-instruction 和 Unimm-Chat 等,所有 10M,视频数据开头主若是 SharedGPT-4-video,安全性关联的数据开头主要包括 VLGuard 和自构造实质。
数据过滤与模子反馈生成, 通过预界说的多选题,长文本等类别均匀采样,确保少数类也有饱胀的样本。同期采用了 knn 聚类并采样的政策,保证数据的 diversity。反馈生成使用到了 Qwen2-VL-72B、LLaVA-OV-72B、GPT-4o 和 Claude 3.5-sonnet 等最先进的 MLLM。
数据标注: 主要包含三个维度,有用性,真确性,伦感性,同期标注东谈主员需要提供打分的依据,最终排行以及排行的依据,标注粒度细,通过群众如期进行质料检查和互动评审保证标注质料。
MM-RLHF 奖励模子
按序奖励模子通常通过预磨练的 LLM,并用线性奖励头替换原有头部,以输出一个标量奖励值。可是,这些模子难以充分期骗东谈主类注目中的丰富信息,也不具备饱胀的透明性。
为了措置按序奖励模子的局限性,本文提议了一种基于品评的磨练框架。在这个框架中,模子领先生成品评(对反馈的分析和评估),然后基于品评来打分。品评生成部分与打分部分共同作用,确保了更细巧的评价。
增强注目以提高品评质料:由于东谈主工注目通常纯粹且精粹,径直使用它们四肢磨练操办恶果有限。因此,本文通过 GPT-4o 增强东谈主工注目,使其更为注重和畅通,从而提高品评的质料。
在磨练经过中,品评的生成与奖励头的磨练同期进行,在磨练奖励头时采用了 teacher-forcing 的政策,即采用了 ground truth 的品评四肢输入,默许蚀本权重都为 1。测试阶段先生成品评,然后基于品评得出最终得分。
性能评估
该模子框架通俗,且在多个基准测试中的施展与 GPT-4o 相失色,以致寥落了好多开源模子,施展出色,尤其在自界说基准测试中,其施展远超 GPT-4o,这考据了其四肢磨练算法奖励信号的灵验性。
表 4 中也展示了,当奖励头径直使用偏好数据集进行磨练时,模子的 ACC+ 雄厚在 50% 掌握。可是,当引入东谈主工注目四肢学习操办时,ACC+ 雄厚莳植了 5%。进一步通过 GPT-4o 推广东谈主工注目,生成愈加剧视和畅通的品评,最终提高了 ACC+ 达 17%。当评估时径直使用东谈主工品评时,ACC 和 ACC+ 均接近 90%,标明评估质料对奖励模子恶果的至关病笃性。
MM-DPO:灵验期骗高质料偏好数据
要灵验期骗 MM-RLHF 中的高质料数据,有以下的实际发现和手段:
MM-DPO 不再只是柔顺"最难的比较对"(即排行互异最大的一双),而是将一个查询下通盘可能的响草率都纳入磨练。具体来说,关于一个查询 ,如果有多个反馈,每一双具有不同排行的反馈都被视为一个灵验的比较对。这种全面的处理阵势可以捕捉更细粒度的排序信息,让模子从更等闲的偏好数据中学习。可是,这种政策也带来了新的挑战:当响草率的排行互异较小时(举例排行 3 和排行 4 的比较),其奖励差距(reward margin)通常较小,而排行互异较大的响草率(举例排行 1 和排行 4 的比较)包含的信息质料更高。如果对通盘样本对一视同仁,会导致高置信度的信息被低效期骗。
为了措置这个问题,MM-DPO 引入了动态奖励缩放(Dynamic Reward Scaling)机制,把柄奖励差距动态移动更新强度,优先期骗高置信度的样本对。
具体而言,奖励模子可以天然地为样本对提供奖励差距(reward margin),这为动态禁止样本的更新权重提供了一个径直的信号。
本文华取 MM-RLHF-Reward-7B 模子来操办奖励差距 其中 和 诀别是正样本和负样本的奖励分数。
DPO 中,动态缩放因子 的操办公式如下:
其中: 是运转默许缩放因子 ; 是一个参数,用于均衡动态部分的孝顺; 是一个可调超参数,禁止 跟着的变化速率。
接下来只需要将 DPO 算法中的部分替换为动态的即可。
MM-DPO 在种种 benchmark 上都施展出了可以的性能增益,而且其关于超参数并不口角常明锐,大多数情况下都能使得高质料 pair 的期骗效用得到彰着莳植。
27 个评估按序,10 种评估维度的笼统评估
主要领域包括图表与文档理解、OCR、幻觉检测、数学推理、通用知识、多模态对话、高分辨率与真确寰球应用、视频理解、多图像处理以及多模态安全性。其中,多模态安全性基准 MM-RLHF-SafeBench 是自构建的,涵盖回击报复、逃狱报复、心事保护和无益实质生成等场景,要点评估模子的安全性与鲁棒性。这些数据集为模子的多方面性能提供了注重的测试环境。
上头两图展示了使用本文提议的数据集和对皆算法,LLaVA-OV-7B、LLaVA-OV-0.5B 和 InternVL-1B 在不同维度上的对皆施展,其中每个评估维度的得分在相应的基准上进行了平均。
会话才智和安全性的显赫莳植:实际完了标明,通过对皆经过,这两个方面的施展得到了显赫变嫌,无需移动超参数。在会话基准中,平均提高高出 10%,而不安全行径减少了至少 50%。此外,在 WildsVision 任务中,胜率至少提高了 50%。
在幻觉、数学推理、多图像和视频理解方面的等闲莳植:对皆后的模子在这些领域施展出显赫的莳植。意旨的是,尽管数据蚁集缺少专诚的多图像数据,模子在多图像任务中的施展依然显赫莳植。这标明数据集的种种性有助于模子在多个维度上进行更好的泛化。
模子对数据和超参数的偏好互异:不同模子在对皆经过中施展出不同的性能趋势,而况在不同基准上对超参数拓荒的偏好也各不同样。举例,在对 InternVL-1B 的磨练中,发现摈斥 SFT 蚀本函数反而带来了更好的完了。此外,天然 InternVL-1B 在学问知识任务中施展出显赫变嫌,但在 OCR 任务中的相对莳植不如 LLaVA-OV 系列。这些互异主要源自模子预磨练数据集和政策的不同,因此需要把柄具体模子对超参数进行定制化移动以赢得最好对皆恶果。
小范畴的 MLLMs 很难自我莳植
尽管比年来有洽商探索了 MLLM 的自我莳植见解,但这些勇猛主要蚁集在特定领域,比如对话系统。在这一部分,团队提议了与 LLM 领域不同的不雅点,觉得小范畴的 MLLM(参数少于 7B)当今在通过自我莳植兑现全面性能莳植方面面对首要挑战。实际完了,如上所示,可能有两个主要原因:
模子容量的戒指: 关于触及长文本或对话数据的任务,采样多个反馈通常会生成至少一个相对较好的谜底,从而进行 DPO 有可能导致性能彰着提高。可是,关于更具挑战性的任务,如多项聘请题或科学推理任务,小模子即使经过多数采样,也难以生成正确谜底。在实际中,当最大采样数目达到八时,不雅察到在某些具有挑战性的多项聘请题中,模子生成了同样的差错谜底,莽撞在通盘样本中一致地产生差错输出。
奖励信号质料的局限性: 当今大多数现存的多模态奖励模子是在有限种种性的磨练数据集上磨练的,如 VLFeedback 和 LLaVA-RLHF。这些数据集主要柔顺天然图像、东谈主类对话或关联场景,容易激发过拟合问题。当偏好数据集包含更等闲的领域(如数学推理、图表理解或其他专科领域)时,在现存数据集上磨练的奖励模子无法提供灵验的奖励信号。因此,识别和聘请更好的样本变得贫困。
这两个局限性使得当今的 MLLMs 很难在种种化的数据集上生成反馈、使用奖励模子对其进行注目并通过自我莳植轮回进行迭代变嫌,尽管在 LLM 对皆中取得了肖似的进展。实际阐发,更好的奖励模子可以带来边缘变嫌,但这些完了仍远不如使用高质料东谈主工注目对比样本进行磨练的恶果。
曩昔可能的洽商标的
本洽商提议了 MM-RLHF,一个高质料、细粒度的数据集,专诚用于鼓舞多模态大谈话模子(MLLMs)的对皆责任。与以往专注于特定任务的洽商不同,提议的数据集和对皆设施旨在全面莳植多个维度的性能。即使在奖励建模和优化算法方面仅进行了初步变嫌,在险些通盘评估基准上都不雅察到了显赫且捏续的莳植,强调了笼统性对皆政策的后劲。
推测曩昔,可以看到进一步挖掘本数据集价值的广漠契机。数据集的丰富注目粒度,如每个维度的分数和排行原理,在面前的对皆算法中仍未得到充分期骗。曩昔的责任将要点柔顺期骗这些粒度信息与先进的优化本事,结合高分辨率数据来措置特定基准的局限性,并使用半自动化政策高效地推广数据集。
团队确信,这些勇猛不仅将鼓舞 MLLM 对皆到新的高度,还将为更等闲、更具普适性的多模态学习框架奠定基础。
arXiv Paper: https://arxiv.org/abs/2502.10391
Training Code: https://github.com/Kwai-YuanQi/MM-RLHF
Homepage: https://mm-rlhf.github.io/
Reward Model: https://huggingface.co/yifanzhang114/MM-RLHF-Reward-7B-llava-ov-qwen
MM-RewardBench: https://huggingface.co/datasets/yifanzhang114/MM-RLHF-RewardBench
MM-SafetyBench: https://github.com/yfzhang114/mmrlhf-eval
Evaluation Suite: https://github.com/yfzhang114/mmrlhf-eval
— 完 —
投稿请责任日发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿实质
附上论文 / 神气主页集中,以及干系阵势哦
咱们会(尽量)实时陈说你
一键柔顺 � � 点亮星标
科技前沿进展逐日见
一键三连「点赞」「转发」「防御心」
接待在挑剔区留住你的念念法!亚博体育(中国)官方网站
Powered by 亚博买球app「中国」yabo官方网站-登录入口 @2013-2022 RSS地图 HTML地图