上海人工智能实验室发布全新小语言多模态开放数据集万卷·丝路2.0,助力多语言处理研究与应用

由上海人工智能实验室发布的“万卷·丝路2.0”多语言多模态语料库正式开源。该语料库在原有的阿拉伯语、俄语、韩语、越南语、泰语等5个语种基础上,新增了塞尔维亚语、匈牙利语、捷克语3个稀缺语料数据,涵盖文本、图片、音频、视频四大模态,数据总量超过1150万条,音视频时长超过2.6万小时,成为小语种多模态领域的重要资源。

微信截图_20250417083637.png

“万卷·丝路2.0”具有多语言、大规模、多模态、高质量的特点。它不仅扩充了语种数量,还全面升级了数据模态和总量,新增了图片 - 文本、音频 - 文本、视频 - 文本、特色指令微调(SFT)四大模态数据,覆盖多模态研究全链路。数据经过成熟生产管线及安全加固,结合过滤算法与当地专家人工精细化标注质检,成为覆盖多模态、多领域的高质量数据集,适配文化旅游、商业贸易、科技教育等不同场景。

此次开源的内容包括:图片 - 文本累计开源超过200万条;音频 - 文本开源超过1600小时;视频 - 文本开源超过2.5万小时;SFT 数据开源18万条。开源数据覆盖了多种语种,为开发者提供了丰富的多模态数据资源。

“万卷·丝路2.0”展现出显著的模型赋能效应。基于7B 参数基础模型训练时,模型综合性能跃升52.3%;在700亿参数的大模型训练中,仍保持12.8% 的性能增益。该数据集使轻量化模型在多语言处理领域展现出超越大模型的卓越表现,为多语言模型的微调提供了有力支持。

数据集地址:

https://www.modelscope.cn/collections/wanjuansilu-20-a3d1a96dad6042

一键微调框架:

https://github.com/modelscope/ms-swift

猜你喜欢

2025“中国年味”摄影盛典:在光影交错中感受最浓厚的春节气息与年俗情怀
2025“中国年味”摄影盛典:在光影交错中感受最浓厚的春节气息与年俗情怀

春节,作为中华民族最为盛大的传统节日,承载着无数人的温馨记忆与美好期盼。从家乡的味道到热闹的贺岁,从红火的祝福到童年的礼

在永夜降临中复苏的伊丽莎白其强度表现究竟如何分析
在永夜降临中复苏的伊丽莎白其强度表现究竟如何分析

在永夜降临这款游戏中,伊丽莎白作为核心角色之一,其形象设计和背景故事为整个游戏世界增添了浓厚的神秘色彩。她是一位拥有强大

胡同情怀:国画小品描绘老北京街道温暖人心的往昔时光
胡同情怀:国画小品描绘老北京街道温暖人心的往昔时光

在北京的老城区中,胡同不仅是城市的脉络,更是承载着无数温馨记忆与生活故事的场所。近日,一组描绘胡同生活的绘画作品引起了广

真三国无双起源:揭秘偃月刀的独特技能与招式全解析
真三国无双起源:揭秘偃月刀的独特技能与招式全解析

真三国无双系列游戏一直以其独特的战斗系统和丰富的武器设计深受玩家喜爱。在最新作品真三国无双:起源中,偃月刀作为关羽的标志

褚光照书法作品赏析:从无私心到宽广笔墨,展现人生智慧之美
褚光照书法作品赏析:从无私心到宽广笔墨,展现人生智慧之美

在山东省莱西市夏格庄镇官庄村,孕育了一位多才多艺的文化传承者——褚光照,他以笔名为道岸道长,在书画与风水易术领域深耕多年

燕云十六声全攻略:探寻不羡仙猫咪的隐藏位置与获取方式详细解析
燕云十六声全攻略:探寻不羡仙猫咪的隐藏位置与获取方式详细解析

燕云十六声是一款备受玩家喜爱的游戏,其中的不羡仙猫咪更是吸引了大量玩家的关注。想要在游戏中找到这些可爱的猫咪并不容易,因

山乡花海音乐会:以硒为媒,奏响生态与疗愈的和谐乐章
山乡花海音乐会:以硒为媒,奏响生态与疗愈的和谐乐章

在石台县大演乡新联村的白石岭,一场别开生面的音乐会于近日成功举办,为春日的乡村增添了一抹独特的艺术色彩。这场名为“硒式疗

新手玩家在凡人传说中快速上手的实用技巧与攻略
新手玩家在凡人传说中快速上手的实用技巧与攻略

在浩瀚无垠的数字世界中,凡人传说以其独特的魅力吸引了无数玩家的目光,尤其是对于初入江湖的萌新玩家而言,这片大陆既充满了未

张道林创作的国画作品《威震山河》在全国艺术大赛中荣获一等奖,成就斐然!
张道林创作的国画作品《威震山河》在全国艺术大赛中荣获一等奖,成就斐然!

在书画艺术的浩瀚星空中,又一颗璀璨之星冉冉升起。张道林,这位来自江西省九江市修水县的艺术家,以其深厚的艺术造诣和独特的创

天国拯救2:全面解析口袋装备购买及搭配策略指南
天国拯救2:全面解析口袋装备购买及搭配策略指南

天国拯救2(kingdom come: deliverance ii)作为一款以15世纪深陷内战混乱的波西米亚为背景的刺