热点资讯
正品迷水商城 你的位置:KKK3李宗瑞同款 > 正品迷水商城 > 开源即屠榜!UniME多模态框架登顶MMEB内行教导榜,刷新多项SOTA记录
开源即屠榜!UniME多模态框架登顶MMEB内行教导榜,刷新多项SOTA记录发布日期:2025-05-10 19:54    点击次数:137

告别 CLIP 痛点,更懂语义关联的跨模态意会新 SOTA 来了!

格灵深瞳、阿里 ModelScope 团队,以及通义实验室机器智能团队长入发布通用多模态镶嵌新框架 UniME,仍是推出就刷新 MMEB 教导榜记录。

△图片于 2025 年 5 月 6 日 08:00 UTC+8 截取

UniME 行为一个翻新性的两阶段框架,所展现的迥殊的组合意会力,匡助 MLLMs 具备学习适用于各式卑劣任务的判别性表征的智商,并在多个任务中达到了新的 SOTA。

当今,该步地已开源,可点击文末贯穿一键获取~

以下是 UniME 的更多关系细节。

UniME 教导框架拆解第一阶段:文本判别学问蒸馏

教导

受 E5V 等之前究诘的启发,究诘团队第一阶段聘请使用纯文本数据来增强了 MLLM 中 LLM 说话组件的镶嵌智商。

由于 LLM 继承自回顾解码器架构,因果掩码机制会从内容上截止了它们的判别智商。

为了处分这一截止,团队引入了如图所示的文本判别学问蒸馏。

△文本判别学问蒸馏阶段的框架

从最先进的基于 LLM 的镶嵌模子 NV-Embed V2(该模子在对比教导中移除了因果属主张掩码并使用多个各样化的数据集进行教导)中滚动学问。

迷水商城

具体来说,团队起初将 LLM 组件从 MLLM 架构等分离出来,并使用镶嵌指示处理仅文本输入:"   Summary the above sentences in one word: n "。

然后,从最终令牌的避讳情状赢得表率化的学生文本镶嵌和离踪影取的教师文本镶嵌,其中是批量大小,是镶嵌的维度。

随后,通过最小化教师模子和学生模子镶嵌之间的 Kullback-Leibler(KL)散度来履行判别性溜达对王人 :

其中是用来软化溜达默示的温度超参数。

通过在一个批次内不相似本之间的关系蒸馏,该方法在交流数据和教导条目下相较于告成使用对比学习鄙人游任务中展示出显耀的性能耕作。

推理

在教导阶段,此方法仅使用纯文本输入,并单独优化多模态说话模子架构中的说话模子组件,同期保抓其他参数不变。

在推理时,恢回话始的视觉编码器和投影层,以启用多模态处理。

迷水商城

关于单模态输入(文本或图像),使用特定于模态的程序化指示。

关于图文交错的输入,零丁处理每种模态过头相应的指示,并通过元素级乞降团员镶嵌从而得到最终的多模态默示。

第二阶段:贫困负样本增强指示微调

迷水商城

在完成文本判别学问蒸馏截断的教导后,UniME 已经具备了初步的判别智商但阐扬出较弱的视觉明锐性,这种不解锐导致图文对王人出现偏差,并截止了判别性能。

此外,第一阶段使用的通用指示指示截止了 UniME 在复杂检索任务中的后果。

为了处分这些截止,究诘东说念主员引入了一个额外的贫困负例增强指示转机阶段,该阶段主张在于:

1. 进一步增强模子判别智商。

2. 改善模子跨模态对王人。

3. 加强卑劣任务中的指示奴婢智商。

△贫困负样本增强指示微调阶段的框架

乖张负样本浑浊

教导批次中乖张负样本的存在妨碍了在程序 InfoNCE 亏本下灵验分裂贫困负样本。

为了缓解这一问题,团队引入了一个基于 Query 和正样本相似度阈值的过滤机制,界说为:,其中是用来轨则阈值限度的超参数。

在教导期间,扼杀通盘与 Query 相似度起初的负样底本过滤乖张负样本同期保留具有挑战性的贫困负样本。

贫困负样本采样

贫困负样本在标签上与正样本不同但在向量空间中相等接近,这类具有挑战性的样本不详在对比学习经由中显耀增强模子的判别智商。

比较之下,浮浅负样本产生的梯度微不及说念,对学习经由的孝顺极小。

因此团队建议一种贫困负样本采样计策,旨在优化教导效用和判别性能。

迷水商城

由于文本判别学问蒸馏阶段之后 UniME 已经具备了初步的判别智商,在此智商基础上,究诘东说念主员在每个教导批次中抽样个对应的贫困负样本,如下所示:

迷水商城

其中庸分别默示经过筛选的乖张负样本候选和正样本候选,是查询镶嵌,默示通盘候选镶嵌,函数瞎想成对相似度得分,聘请得分最高的前个候选行为贫困负例。

教导标的

迷水商城

在获取了查询的镶嵌()、正样本候选()和贫困负样本候选()后,咱们使用噪声对比推断(InfoNCE)亏本对批次内采样的贫困负样本进行如下处理:

其中默示通盘贫困负例的蚁合,是一个温度超参数。

91暗网迷水商城

教导食谱

第一阶段:文本判别学问蒸馏

团队继承 QLoRA 对大型说话模子组件进行参数高效的微调。

这一阶段仅使用纯文本输入并仅教导少许的参数(频繁不起初总额的 5%),齐全教导 Phi3.5-V 和 LLaVA-1.6 分别需要大致 1 小时和 2 小时。

第二阶段:贫困负样本增强指示微调

为了克服较无数目 MLLM 教导时的 GPU 内存截止,究诘东说念主员继承了两种计策:

参照 VLM2Vec,使用了 GradCache 梯度缓存本领将对比亏本瞎想和编码器更新的反向传播分离;

继承 QLoRA 对 MLLM 内通盘参数进行参数高效的微调。

将这两种计策进行组合灵验地促进了教导效用同期显耀裁减教导时的内存支出。

实战性能全考据教导数据

究诘东说念主员在第一阶段的文本判别学问蒸馏中使用了 Natural Language Inference ( NLI ) 数据集,该数据集包含约 273k 个句子对。

365站群VIP

关于贫困负例增强指示调优阶段,使用了 MMEB 基准提供的教导数据集,涵盖了四个中枢多模态任务:分类、视觉问答、多模态检索和视觉定位。

这一全面的教导语料库,联结了单模态和多模态输入数据,算计 662k 经过用心辩论的教导对,确保了模子在各样化的多模态任务中的平稳符合。

卑劣评测

团队评估了 MMEB 中的溜达内(20 个测试集)和溜达外(16 个测试集)基准,以评估 UniME 在各样化检索任务中的多模态镶嵌智商。

为了进一步教导 UniME 的单模态镶嵌性能,究诘东说念主员在多个跨模态检索任务上进行了实验,包括短标题图文检索(Flickr30K 和 COCO2014),长标题图文检索(ShareGPT4V 和 Urban1K),以及组合式检索(SugarCrepe)。

实验遣散

多模态检索

在表 1 中,催药哪里买展示了 UniME 与现存基线模子的性能对比,其中 IND 代表溜达内数据集,OOD 代表溜达外数据集,论说的分数是相应数据集上平均精准度,最好遣散用粗体标出,†默示仅文本判别蒸馏的 UniME,‡默示文本判别蒸馏和贫困负样本增强指示调优的 UniME。

迷水商城

△表 1:MMEB 基准测试遣散

在交流的教导数据和建设建造下,UniME 比较 E5-V 在不同的基础模子上持久展示出显耀的性能耕作。

使用 Phi3.5-V 模子时,UniME 的平均性能提高了 4.2%;继承 LLaVA-1.6 行为基础模子时,UniME 的平均性能进一步提高了 4.1%。

这些显耀的性能耕作主要归功于团队建议的文本判别学问蒸馏方法不错更灵验地增强 MLLM 中 LLM 说话组件的判别智商。

如图所示,团队随即从 COCO 中聘请 50 个样本,并可视化跨模态余弦相似度矩阵。

与 E5-V 比较,UniME 矩阵的对角线明晰度显耀增强,标明 UniME 学习到了更具判别性的表征。

在贫困负样本增强指示微调之后,UniME 的镶嵌判别智商进一步提高。

迷水商城

与 VLM2Vec 比较,UniME 在 Phi3.5-V 和 LLaVA-1.6 基础模子上分别杀青了 1.3% 和 10.3% 的性能耕作。

短 - 长标题跨模态检索

如表 2 所示,团队在零样本跨模态检索任务上评估了 UniME。

△表 2:零样本文本 - 图像检索的遣散

起初,在短标题数据集 Flickr30K 和 MSCOCO 上进行实验。

迷水商城

在文本判别学问蒸馏阶段之后,UniME 的检索性能与 E5-V 非常。

随后的贫困负例增强指示调优进一步耕作了 UniME 的阐扬,相较于 VLM2Vec 提高了 5.2%-11.3%。

迷水商城迷水商城

关于在 ShareGPT4V 和 Urban1K 数据集上的长标题检索任务,UniME 在通盘主张上均阐扬出优厚性能。

在文本判别蒸馏阶段后,基于 Phi3.5-V 模子 UniME 展示了 1.3%-3.8% 的性能耕作。

随后通过贫困负例增强指示调优的进一步增强,UniME 相较于 VLM2Vec 提高了 2.0%-8.3%。

值得属主张是,与 EVA-CLIP ( 8B ) 比较,UniME 在 Urban1K 数据集上的长标题检索中,性能耕作了 14.8% 和 18.1%。

这一显耀增强主要源于 EVA-CLIP ( 8B ) 受 77 文本输入令牌长度的截止,从而严重谢绝了其传达长标题齐全语义信息的智商。

跨模态组合检索

团队在组合意会基准 SugarCrepe 上评估了 UniME 模子分裂贫困负样本的智商。

如表 2 所示,UniME 在通盘评估主张上均展示出最好遣散。

在文本判别学问蒸馏后,基于 Phi3.5-V 的 UniME 在关系替换、对象交换和属性添加任务等分别比 E5-V 阐扬出 2.0%、1.0% 和 15.9% 的性能耕作。

在第二阶段贫困负例增强指示微调后,UniME 的组合意会智商得到进一步增强,与 VLM2Vec 比较分别杀青了 3.9%、4.2% 和 9.1% 的性能耕作。

此外,与 EVA-CLIP ( 8B ) 比较,UniME 在这些任务上也裸浮现了 4.2%、0.6% 和 6.6% 的耕作,突显了其在分裂贫困负例方面的浩瀚智商。

消融实验

贫困负样天职析

鄙人图中,展示了三种类型负样本的教导损成仇剪辑前梯度范数:浮浅负样本(批次中最不相似的样本),随即负样本(批次中随即采样的负样本),以及贫困负样本(在移除正例和假负例后批次中最相似的负样本)。

由于就浮浅负样本容易分裂,模子通过学习这类数据很难增强其判别智商,因此教导亏本赶快管制到接近零。

使用随即负样本,教导亏本比浮浅负样本管制更慢,但最终接近零。

比较之下,贫困负样本带来更大的挑战,使得教导亏本持久保抓在较高水平。

相应地,浮浅负样本的梯度范数最小,而贫困负样本的梯度范数彰着更高,收支数个数目级。

教导阶段的消融

团队基于 Phi3.5-V 来对不同教导阶段进行了消融究诘。

△表 3:不同教导阶段的消融究诘

如表 3 所示,Phi3.5-V 的动手镶嵌判别智商很弱。

在经过文本判别学问蒸馏后,模子在 MMEB 基准、口角标题跨模态检索和组合检索任务上分别赢得了 15%、19.5%、24.9%和 19.9%的性能耕作。

如果仅进行第二阶段负样本增强指示微调,团结任务的性能耕作分别为 38.5%、17.3%、21.3%和 14.0%。

值得属主张是,第二阶段在 MMEB 基准的性能耕作彰着起初第一阶段,主如果由于模子在罢免卑劣任务复杂指示方面的智商得到了改善。

通过整合两个教导阶段,UniME 模子在通盘评估的卑劣任务中杀青了最好性能。

输出溜达的可视化

为了进一步探索 UniME 镶嵌拿获的语义抒发,使用此指示"  Summary above image in one word: n ",并鄙人图中展示了不同教导阶段之前和之后,top-k 下一个估量词汇的估量概率。

团队不雅察到,在教导之前,估量的词汇更综合,如" Pastoral "和" Peaceful "。

经过文本判别学问蒸馏后,词汇转向更具体的语义,包括" cow "、" waterfront "和" house ",尽管概率溜达仍主要聚首在" Farm "。

在第二阶段贫困负样本增强指示微调后,概率溜达在与图像语义一致的多个词汇上变得愈加均匀,从而使镶嵌不详更准确地抒发图像的语义内容,并增强其判别智商。

论文贯穿:https://arxiv.org/pdf/2504.17432

代码贯穿:https://github.com/deepglint/UniME

迷水商城

步地贯穿:https://garygutc.github.io/UniME

模子贯穿:https://huggingface.co/DeepGlint-AI/UniME-LLaVA-OneVision-7B

魔搭社区:https://www.modelscope.cn/models/deepglint/UniME

一键三连「点赞」「转发」「戒备心」

宽待在驳倒区留住你的念念法!

—  完  —

� � 点亮星标 � �

迷水商城

科技前沿进展逐日见