Groundlight 开源平台,轻松应对复杂的视觉推理任务与挑战

一直专注于让AI看懂世界的 Groundlight 研究团队,近日放大招,宣布开源了一套全新的 AI 框架!这套框架旨在攻克视觉领域的一大难题——复杂的视觉推理,让AI不仅能“看图识物”,更能像福尔摩斯一样,从图像中推理出更深层次的信息。 

我们都知道,现在的AI在识别猫猫狗狗方面已经炉火纯青,但要让它们理解图片背后的逻辑关系,进行更复杂的推理,就常常“卡壳”。 Groundlight 的研究人员指出,当前的视觉语言模型 (VLM) 在理解图像本身尚且不足的情况下,更难以完成需要深度解读的任务

QQ_1742194787910.png

虽然大型语言模型 (LLM) 在文本推理方面取得了巨大进展,但视觉领域的类似突破仍然有限。现有的 VLM 在需要结合视觉和文本线索进行逻辑推演时常常表现不佳,这凸显了它们能力上的一个关键缺陷。 仅仅识别图像中的物体是远远不够的,理解物体之间的关系和上下文信息才是关键.

强化学习来助力,GRPO 成就“最强大脑”

为了提升VLM的视觉推理能力,Groundlight 的研究团队别出心裁地采用了强化学习方法,并创新性地利用了 GRPO (Gradient Ratio Policy Optimization) 来提高学习效率。 

之前的研究,例如 Deepseek 的工作和语言模型的先进推理,很少将这些技术扩展到 VLM 领域。 为了验证他们的方法,研究人员设计了一个需要同时处理视觉和文本信息的密码破译任务。 模型需要使用一个随机生成的解码器图像来解读编码信息,最终,一个仅有30亿参数的模型就达到了 96% 的准确率! 注意力分析表明,模型在解决任务时能够积极地参与视觉输入,专注于相关的解码器区域。

使用 GRPO 训练 VLM 并非一帆风顺,尤其是在分词 (tokenization) 和奖励设计方面。 由于模型通常将文本处理为词元 (tokens) 而非单个字符,因此对于需要精确字符级别推理的任务来说可能会遇到困难。

 为了缓解这个问题,研究人员在消息的字母之间添加了空格,以简化解码过程。 奖励设计是另一个至关重要的环节,因为强化学习模型需要结构良好的反馈才能有效地学习。 研究人员使用了三种奖励类型:格式奖励,确保输出的一致性;解码奖励,鼓励对乱码文本进行有意义的转换;以及正确性奖励,提高准确性。 通过仔细平衡这些奖励,研究人员成功避免了模型学习到意外的“捷径”,确保其真正提高了密码破译能力。

GRPO 通过比较多个输出而非依赖直接梯度计算来优化学习过程,这为训练带来了更高的稳定性。 通过为每个查询生成多个响应并相互评估,这种方法实现了更平滑的学习曲线。 这项研究也强调了 VLM 在基于推理的任务中的潜力,但也承认了复杂视觉模型带来的高昂计算成本。 

为了解决效率问题,他们提出了选择性模型升级等技术,即仅在模糊不清的情况下才使用更昂贵的模型。 此外,他们还建议集成预训练的物体检测、分割和深度估计模型,以在不显着增加计算开销的情况下增强推理能力。 这种基于工具的方法为训练大型端到端模型提供了一种可扩展的替代方案,强调效率与准确性并重。

Groundlight 团队通过集成强化学习技术,特别是 GRPO,在增强 VLM 方面取得了显著的进展。 他们在一个密码破译任务中测试了他们的方法,模型展现出了令人印象深刻的准确性。 

项目:https://github.com/groundlight/r1_vlm

demo:https://huggingface.co/spaces/Groundlight/grpo-vlm-decoder

猜你喜欢

台青曹景雯:在唐琴“大圣遗音”中追寻一千年古韵与文化传承的交融之旅
台青曹景雯:在唐琴“大圣遗音”中追寻一千年古韵与文化传承的交融之旅

在浙江省博物馆的柔和灯光下,一件珍贵的唐代古琴“大圣遗音琴”静静地躺在展柜中,吸引着众多参观者的目光。其中,一位身着汉服

夜幕低垂中的魅惑:神秘女子在光影交织间绽放的性感人像艺术摄影
夜幕低垂中的魅惑:神秘女子在光影交织间绽放的性感人像艺术摄影

室内光影下的神秘诱惑在幽暗而宁静的室内环境中,一位女子静静地端坐,仿佛成为了光影交错的焦点。她的气质独特,浑身散发着难以

梦幻西游彩虹争霸赛详细攻略与技巧分享,带你走向胜利之路
梦幻西游彩虹争霸赛详细攻略与技巧分享,带你走向胜利之路

梦幻西游彩虹争霸赛作为游戏内一项极具挑战性的赛事,吸引了众多玩家的关注。为了帮助各位玩家更好地参与并取得优异成绩,本文将

博德之门3枭熊洞中的箱子有什么内容以及如何正确打开这个箱子的方法
博德之门3枭熊洞中的箱子有什么内容以及如何正确打开这个箱子的方法

博德之门3是一款拥有欧美画风的解谜类游戏,在游戏中玩家将独自一人进行冒险解谜,在解谜过程中也会发生很多有意思的事情,这个

莫言诺奖获奖后书法作品价格飙升至百万,他在争议中如何继续坚守自己的文学创作之路?
莫言诺奖获奖后书法作品价格飙升至百万,他在争议中如何继续坚守自己的文学创作之路?

莫言:从平凡到诺贝尔文学奖的辉煌之路在中国文学史上,莫言无疑是一个里程碑式的人物。2012年,他荣获诺贝尔文学奖,成为中

激战2唤灵师各类流派的详细解析与玩法策略探讨
激战2唤灵师各类流派的详细解析与玩法策略探讨

激战2唤灵师流派在游戏激战2中以其独特的机制和多变的玩法深受玩家喜爱。作为游戏中一个非常具有策略性和操作性的职业,唤灵师

www❌❌流水噜噜com麻豆视听盛宴全新升级-网友称赞:-超高清画质带来无与伦比的观看体验,让人爽到飞起!
www❌❌流水噜噜com麻豆视听盛宴全新升级-网友称赞:-超高清画质带来无与伦比的观看体验,让人爽到飞起!

www❌❌流水噜噜com麻豆视听盛宴升级, 网友: 高清画质体验爽到飞起!对于喜欢追剧和看视频的朋友来说,www❌❌流水

巨建伟的荣宝斋艺术展:传统与现代绘画语言之间的深度对话与交流
巨建伟的荣宝斋艺术展:传统与现代绘画语言之间的深度对话与交流

近日,一场名为“妙粹灵通Ⅱ——巨建伟绘画作品展”的艺术盛宴在北京荣宝斋拉开帷幕,向公众展示了艺术家巨建伟近两年精心创作的

揭秘跑跑卡丁车欢乐谷驾校隐藏宝箱具体位置攻略
揭秘跑跑卡丁车欢乐谷驾校隐藏宝箱具体位置攻略

在跑跑卡丁车这款游戏中,欢乐谷驾校是许多玩家熟悉的一个赛道。对于新手玩家来说,了解并找到驾校内的宝箱位置不仅可以提升游戏

戴敦邦经典四大名著书画展在南宁盛大开幕,传统文化魅力跃然纸上引发热烈讨论
戴敦邦经典四大名著书画展在南宁盛大开幕,传统文化魅力跃然纸上引发热烈讨论

在广西南宁,一场别开生面的艺术盛宴于近日拉开帷幕——“中国绘画研学进广西:戴敦邦四大名著书画展”。此次展览自开幕起,将持