Meta AI发布MILS系统 实现LLMs在无需额外训练的情况下高效处理多媒体数据

Meta AI的研究人员与学术伙伴共同开发了一种创新系统——MILS(多模态迭代LLM求解器),该系统能在无需经过专门训练的情况下,教大型语言模型处理图像、视频和音频。MILS依赖于语言模型的自然问题解决能力,而非大量的数据训练,展现了其独特的优势。

QQ20250210-105931.png

MILS的工作原理是通过将两个AI模型配对来进行任务解决:一个是“生成器”,负责提出任务解决方案,另一个是“评分器”,用来评估生成方案的效果。评分器提供的反馈可以帮助生成器不断优化答案,直到达到令人满意的结果。举例来说,在图像描述任务中,MILS能够逐步细化图像描述,从而准确地描述不同层次的图像细节。

在图像描述方面,MILS表现尤为出色。通过将Llama-3.1-8B模型作为生成器,CLIP模型作为评分器,MILS能够创建出与当前领先方法相当甚至更为详细的图像描述,尽管CLIP并未专门针对图像描述任务进行训练。此外,MILS还通过微调文本提示增强了文本到图像的生成能力,并且能将AI生成的提示与图像处理工具相结合,处理如风格转换等图像编辑任务。

QQ20250210-105939.png

图像描述的准确性随着生成器和评分器之间的步骤数而增加。| 图片:Ashutosh 等人

MILS的功能不仅限于图像,它也扩展到了视频和音频领域。在使用MSR-VTT视频数据集进行测试时,MILS在视频内容描述方面的表现优于现有模型。由于MILS在运行过程中不修改模型参数,它可以将不同类型的数据转换为可读文本,支持将来自图像、音频等多个来源的信息合并并转化为所需格式,从而为多模态信息融合应用开辟了新的可能。

测试表明,使用更大的生成器和评分模型可以产生更准确的结果,增加潜在解决方案数量能显著提高性能。研究人员还发现,扩展到更大的语言模型不仅提升了结果的质量,还使得性能表现得到了明显改进。

QQ20250210-105948.png

风景从简单的基本描述演变为具有更精确细节和更多自然元素的复杂景观表述。| 图片:Ashutosh 等人

MILS所采取的这一创新策略,符合当前人工智能领域朝着更智能推理能力发展的趋势。Meta团队还表示,MILS在未来可能在3D数据处理等领域展现出巨大潜力,进一步推动多模态AI的发展。

随着OpenAI的GPT-4和其他开源替代方案的快速发展,如Meta的Llama3.2、Mistral的Pixtral以及DeepSeek的Janus Pro等,这些新兴的多模态AI系统正在加速其对日常生活的应用,并为人工智能的未来发展奠定了重要基础。

猜你喜欢

春日阅读的盛况!南通崇川区“阅·音乐LiVE”活动隆重开启,带你沉浸书海与乐音交织的魅力世界
春日阅读的盛况!南通崇川区“阅·音乐LiVE”活动隆重开启,带你沉浸书海与乐音交织的魅力世界

在第30个世界读书日即将到来之际,南通市崇川区举办了一场别开生面的全民阅读推广活动,为春日阅读增添了一抹独特的色彩。4月

圆明园遗韵:清代陈枚《山水楼阁图册》中的东方美学极致体现与文化回顾
圆明园遗韵:清代陈枚《山水楼阁图册》中的东方美学极致体现与文化回顾

在东方园林艺术的璀璨星河中,18世纪的圆明园无疑是最为耀眼的明珠之一。而提及圆明园,便不得不提清代画家陈枚的杰出作品——

常波国画“鸿运当头鲤鱼”:在笔墨中展现吉祥与灵动之美的独特魅力与深邃意境
常波国画“鸿运当头鲤鱼”:在笔墨中展现吉祥与灵动之美的独特魅力与深邃意境

在当代国画艺术的璀璨星河中,常波以其“鸿运当头鲤鱼”系列作品脱颖而出,犹如一颗耀眼的星辰,以其深厚的文化底蕴和独特的艺术

放大古今艺术的魅力,蒙娜丽莎神秘的微笑与中国老农的欢快歌声在画作中交织
放大古今艺术的魅力,蒙娜丽莎神秘的微笑与中国老农的欢快歌声在画作中交织

在欣赏艺术品的微妙之处时,细节往往成为决定作品成败的关键。尤其是名画,其细节不仅体现了艺术家的匠心独运,还往往隐藏着背后

华一民书法艺术展再展风采,2025兰亭杯金奖荣耀续写传奇
华一民书法艺术展再展风采,2025兰亭杯金奖荣耀续写传奇

在书法艺术的浩瀚星空中,又一颗璀璨之星悄然升起。华一民,这位来自江苏无锡却在浙江杭州诞生的艺术家,如今在重庆南岸区安享晚

瑞安花木传奇:古茶花傲视群芳,铁树涅槃重生,大榕树勇抗日敌展现强大生命力
瑞安花木传奇:古茶花傲视群芳,铁树涅槃重生,大榕树勇抗日敌展现强大生命力

瑞安春色正浓,踏青赏花正当时。这座位于东南沿海的城市,因其温润的气候和充沛的雨水,孕育了众多奇花异卉,成为春日里一道亮丽

古代官府如何运用抽象画像和通缉令迅速定位和捕捉逃犯?
古代官府如何运用抽象画像和通缉令迅速定位和捕捉逃犯?

古代通缉令画像抽象,却为何总能迅速捉拿犯人?这一历史谜团近日被揭开。在古代,官府发布的通缉令上,犯人的画像往往十分抽象,

“光影朝阳”职工摄影大赛:捕捉城市动人时刻,你的佳作是否被评选为优秀作品?
“光影朝阳”职工摄影大赛:捕捉城市动人时刻,你的佳作是否被评选为优秀作品?

“美丽朝阳·奋斗朝阳·幸福朝阳”全市职工随手拍摄影展活动正如火如荼地进行中,吸引了众多摄影爱好者和职工的积极参与。此次活

古代通缉令为何能通过模糊画像成功抓捕嫌犯?深度解析其背后的智慧与制度安排
古代通缉令为何能通过模糊画像成功抓捕嫌犯?深度解析其背后的智慧与制度安排

标题:揭秘古代衙门高效办案背后的智慧步入21世纪,信息科技为我们的日常生活带来了翻天覆地的变化,也为执法机构提供了前所未

樊芳儿在书画艺术领域展现卓越才华,荣获“人民书画家”殊荣,成就令人瞩目
樊芳儿在书画艺术领域展现卓越才华,荣获“人民书画家”殊荣,成就令人瞩目

在书画艺术领域,一位杰出艺术家的名字——樊芳儿,因其卓越成就与广泛影响力,近日被授予“人民书画家”的崇高荣誉。这一决定由