阿里巴巴达摩院宣布推出多模态电商场景大模型Valley 2,进一步提升电商智能化体验

阿里巴巴达摩院近日推出了一款名为Valley2的多模态大型语言模型,该模型基于电商场景设计,旨在通过可扩展的视觉-语言架构,提升各领域性能并拓展电商与短视频场景的应用边界。Valley2采用了Qwen2.5作为LLM主干,搭配SigLIP-384视觉编码器,结合MLP层和卷积进行高效特征转换。其创新之处在于引入了大视觉词汇、卷积适配器(ConvAdapter)和Eagle模块,增强了处理多样化真实世界输入的灵活性及训练推理效率。

微信截图_20250115084005.png

Valley2的数据由OneVision风格数据、针对电商和短视频领域的数据以及用于复杂问题解决的链式思维(CoT)数据组成。训练过程分为文本-视觉对齐、高质量知识学习、指令微调和链式思维后训练四个阶段。在实验中,Valley2于多个公开基准测试中表现卓越,尤其在MMBench、MMStar、MathVista等基准上得分颇高,在Ecom-VQA基准测试中也超越了其他同规模模型。

未来,阿里巴巴达摩院计划发布包含文本、图像、视频和音频模态的全能模型,并引入基于Valley的多模态嵌入训练方法,以支持下游检索和探测应用。

Valley2的推出标志着多模态大型语言模型领域的重要进展,展现了通过结构改进、数据集构建及训练策略优化来提升模型性能的可能性。

模型链接:

https://www.modelscope.cn/models/bytedance-research/Valley-Eagle-7B

代码链接:

https://github.com/bytedance/Valley

论文链接:

https://arxiv.org/abs/2501.05901

猜你喜欢

当旋律再次回荡,剧场里的仲夏之夜仿佛超越了梦境
当旋律再次回荡,剧场里的仲夏之夜仿佛超越了梦境

当音乐重新响起,剧院里的仲夏夜不只有梦■ 复工日记期待疫情过去就不再来。6月5日,也就是北京新一轮疫情发生45天后,好消

研究人员揭示1.8亿年前蜉蝣“飞行求偶仪式”化石的惊人发现
研究人员揭示1.8亿年前蜉蝣“飞行求偶仪式”化石的惊人发现

远古发现丨科学家发现1 8亿年前蜉蝣“飞行婚礼”化石南京6月9日电(记者王珏玢)“寄蜉蝣于天地,渺沧海之一粟。”提起蜉蝣

重庆全面盘点博物馆发展现状 2021年博物馆数量已增至122家
重庆全面盘点博物馆发展现状 2021年博物馆数量已增至122家

图为报告显示的2021年重庆市新备案开放博物馆统计表。重庆文旅委供图重庆6月9日电 (记者 钟旖)重庆市文化和旅游发展委

舞台落幕,传承不息的老一辈艺术家精神永远闪耀光芒
舞台落幕,传承不息的老一辈艺术家精神永远闪耀光芒

岁月流转,挡不住生命的脚步。人生谢幕,留下无尽的精神财富。95岁“德艺双馨”的艺术家蓝天野就是这样的人,我们怀念他,我们

粤剧各大名家与新秀同台演出 他们与所演折子戏之间的深厚渊源揭秘
粤剧各大名家与新秀同台演出 他们与所演折子戏之间的深厚渊源揭秘

粤剧名家新秀同台 每个演员和所演折子戏都有渊源为进一步振兴粤剧,把粤剧传承好发扬好,在广东省文化和旅游厅的指导下,广东粤

秦陵百戏俑坑新发现“仰卧俑”并成功完成修复工作引发关注
秦陵百戏俑坑新发现“仰卧俑”并成功完成修复工作引发关注

西安6月11日电 (记者 阿琳娜)秦始皇帝陵博物院11日对外首次公布刚刚修复完成、出土于秦陵百戏俑坑的“28号俑”。据介

浙江杭州盛举办“世遗之夜”晚会 三件珍贵文物诉说世界遗产的动人故事
浙江杭州盛举办“世遗之夜”晚会 三件珍贵文物诉说世界遗产的动人故事

见证西湖历史的宝藏文物《清乾隆西湖行宫图》。杭州市园林文物局供图杭州6月12日电(记者 王题题)6月11日是2022年文

福州海丝信俗文化交流中心致力于建设福州“全球茶叶港口”品牌形象与发展
福州海丝信俗文化交流中心致力于建设福州“全球茶叶港口”品牌形象与发展

清代以来,各地商帮在福州设立会馆,必崇祀妈祖,催生了“茶帮拜妈祖”这一闽商特色信俗。李南轩摄福州6月12日电 (记者 李

将“戏比天大”的深刻内涵丰富拓展到极致的解读与探索
将“戏比天大”的深刻内涵丰富拓展到极致的解读与探索

将“戏比天大”诠释到最大70年前,百废待兴的新中国,诞生了一座以人民为名的剧院,开始了“建立一座像莫斯科艺术剧院那样具有

国产剧在海外市场引起广泛关注 实现跨国传播的多重新突破
国产剧在海外市场引起广泛关注 实现跨国传播的多重新突破

国产剧加速扬帆远航(华音环洋)2022年伊始,改编自梁晓声同名小说、展现中国人在大时代中不断奋斗的电视剧《人世间》,被美