一体化 AI 框架 Sa2VA: 助力图像与视频深度解析与理解的新方式

在多模态大语言模型(MLLMs)的推动下,图像和视频相关的任务取得了革命性的进展,包括视觉问答、叙述生成和交互式编辑等。然而,实现细粒度的视频内容理解仍然面临重大挑战。这一挑战涉及像素级的分割、带有语言描述的跟踪,以及在特定视频提示上进行视觉问答等任务。

image.png

尽管当前最先进的视频感知模型在分割和跟踪任务上表现出色,但它们在开放式语言理解和对话能力方面仍显不足。此外,视频 MLLMs 在视频理解和问答任务上表现良好,但在处理感知任务和视觉提示方面依然力不从心。

现有的解决方案主要有两种:多模态大语言模型(MLLMs)和引用分割系统。MLLMs 最初致力于改进多模态融合方法和特征提取器,逐渐发展为在 LLMs 上进行指令调优的框架,如 LLaVA。近期,研究人员尝试将图像、视频和多图像分析统一到单一框架中,如 LLaVA-OneVision。同时,引用分割系统也经历了从基本融合模块到集成分割和跟踪的变革。然而,这些解决方案在感知和语言理解能力的全面整合上仍存在不足。

来自 UC Merced、字节跳动种子团队、武汉大学和北京大学的研究人员提出了 Sa2VA,这是一种开创性的统一模型,旨在实现图像和视频的密集基础理解。该模型通过最小化一次性指令调优,支持广泛的图像和视频任务,克服了现有多模态大语言模型的局限性。

Sa2VA 创新性地将 SAM-2与 LLaVA 整合,将文本、图像和视频统一到共享的 LLM 令牌空间中。此外,研究人员还推出了一个名为 Ref-SAV 的广泛自动标注数据集,包含超过72K 个复杂视频场景中的对象表达,以及2K 个经过人工验证的视频对象,以确保稳健的基准能力。

Sa2VA 的架构主要由两个部分组成:类似 LLaVA 的模型和 SAM-2,采用了一种新颖的解耦设计。LLaVA-like 组件包括处理图像和视频的视觉编码器、视觉投影层以及用于文本令牌预测的 LLM。该系统采用独特的解耦方式,使得 SAM-2在预训练的 LLaVA 模型旁边运作,而不进行直接的令牌交换,从而保持计算效率,并允许与各种预训练的 MLLMs 进行插拔式功能连接。

研究结果表明,Sa2VA 在引用分割任务中取得了最先进的结果,其 Sa2VA-8B 模型在 RefCOCO、RefCOCO + 和 RefCOCOg 上的 cIoU 评分分别为81.6、76.2和78.9,超越了 GLaMM-7B 等之前的系统。在对话能力方面,Sa2VA 在 MME、MMbench 和 SEED-Bench 上分别取得了2128、81.6和75.1的优异成绩。

此外,Sa2VA 在视频基准测试中的表现也显著超过了之前的状态 - of-the-art VISA-13B,显示出其在图像和视频理解任务中的高效性与有效性。

论文:https://arxiv.org/abs/2501.04001

模型:https://huggingface.co/collections/ByteDance/sa2va-model-zoo-677e3084d71b5f108d00e093

划重点:

🌟 Sa2VA 是一个新颖的统一 AI 框架,实现了图像与视频的深度理解,克服了现有多模态模型的局限性。

📊 该模型在引用分割和对话能力等多项基准测试中均取得了最先进的成绩,展现了出色的性能。

🧠 Sa2VA 的设计通过解耦的方式有效整合了视觉和语言理解能力,支持广泛的图像与视频任务。

猜你喜欢

通过交响音诗《千里江山》感受壮丽山河之美,乐团全国巡演即将启程
通过交响音诗《千里江山》感受壮丽山河之美,乐团全国巡演即将启程

作曲家赵麟和指挥余隆蒋启明摄中新网北京7月22日电 (记者 应妮)交响音诗《千里江山》全国巡演启动暨中国爱乐乐团全国巡演

汉服文化的崛起带动国风文旅事业蓬勃发展,引领传统美学与现代生活的完美结合
汉服文化的崛起带动国风文旅事业蓬勃发展,引领传统美学与现代生活的完美结合

爱好者迅速增长 带动百亿市场汉服文化 催热国风文旅 经过多年发展,汉服正从小众走向大众,形成百亿市场。古风剧本杀、古装宴

周末期间北京演出市场呈现出前所未有的快速增长与多元化发展趋势
周末期间北京演出市场呈现出前所未有的快速增长与多元化发展趋势

周末演出市场迎来井喷式爆发本报记者 高倩在刚刚过去的周末,北京演出市场迎来了井喷式爆发。从坐落在长安街沿线的国家大剧院、

以历史为“根基”延续非物质文化遗产的珍贵记忆与智慧
以历史为“根基”延续非物质文化遗产的珍贵记忆与智慧

夏日的晨曦穿过森森的古木,北京天坛公园的一角,一个个小空地上,散布着十多位晨练的老人,他们手中的空竹上下翻飞。胡同里,一

第十七届中国长春电影节将于8月举行 设立十个重要奖项以表彰优秀电影作品
第十七届中国长春电影节将于8月举行 设立十个重要奖项以表彰优秀电影作品

第十七届中国长春电影节组委会第一次会议暨新闻发布会现场图孙博妍摄中新网长春7月25日电 (孙博妍)第十七届中国长春电影节

燕京八绝在现代社会的传承与保护:珍惜老祖宗的传统技艺绝不能遗失
燕京八绝在现代社会的传承与保护:珍惜老祖宗的传统技艺绝不能遗失

7月19日,北京石景山模式口大街的燕京八绝博物馆展厅内,摆放着金漆镶嵌百宝嵌花鸟捧盒、花丝镶嵌繁花手包、雕漆寿桃捧盒、牙

2022田径世锦赛落幕之际 中国田径队的惊喜源于深厚的积淀与努力
2022田径世锦赛落幕之际 中国田径队的惊喜源于深厚的积淀与努力

惊喜来自积淀 新锐任重道远【2022田径世锦赛收官 取得2金1银3铜成绩】7月25日,2022田径世锦赛进入收官日,中国

2024年巴黎奥运会与残奥会全新口号正式发布,引发全球瞩目
2024年巴黎奥运会与残奥会全新口号正式发布,引发全球瞩目

巴黎7月25日电 (记者 李洋)当地时间7月25日晚,2024年巴黎奥运会和残奥会的口号由巴黎奥组委公布。巴黎奥组委当晚

北京西山永定河文化节盛大开幕 首届京西山水嘉年华活动即将全面启动
北京西山永定河文化节盛大开幕 首届京西山水嘉年华活动即将全面启动

25日晚,2022北京西山永定河文化节在首钢园开幕。中新社记者 田雨昊摄北京7月26日电 (徐婧 杜燕)25日,“山河永

预计2022全球电竞观众人数将突破5亿 亚运会为中国电竞行业发展带来新机遇
预计2022全球电竞观众人数将突破5亿 亚运会为中国电竞行业发展带来新机遇

杭州7月27日电(记者 王昊)26日,2022全球电竞运动领袖峰会在杭州举办,会上发布了《2022亚洲电竞运动行业发展报