IBM携手Hugging Face发布创新工具SmolDocling,助力将复杂文档轻松转化为结构化数据的开源解决方案!

话说在计算机科学领域,将那些结构复杂的文档变成规整的数据,一直是个让人头疼的“老大难”问题。以前的“土办法”,要么是各种模型“组团出道”,搞出一套复杂的流程,要么就得祭出“巨无霸”级别的多模态模型,虽然看起来很厉害,但动不动就“幻觉”,还特别“烧钱”。

QQ_1742377209054.png

不过最近由IBM和Hugging Face联手推出的SmolDocling,只有256M参数的开源视觉-语言模型(VLM),目标非常明确,就是要端到端地解决多模态文档转换的任务

SmolDocling的独门秘籍

SmolDocling最让人称道的地方,就是它的“小巧玲珑”和“一身绝技”。与那些动辄几十亿、几百亿参数的“大模型”不同,SmolDocling仅仅256兆的体量,简直是模型界的“轻骑兵”,显著降低了计算复杂性和资源需求。更厉害的是,它能够通过单个模型处理整个页面,这一下就把传统方法中复杂的处理流程给简化了。

当然,“个子小”并不代表实力弱。SmolDocling还拥有一项“独门武器”——DocTags,这是一种通用的标记格式,能够以高度紧凑和清晰的方式精确捕捉页面元素、它们的结构和空间上下文。你可以把它想象成给文档里的每个元素都贴上了清晰的“标签”,让机器能够准确理解文档的内在逻辑。

SmolDocling的架构基于Hugging Face的SmolVLM-256M,通过优化的tokenization和激进的视觉特征压缩方法,实现了计算复杂性的显著降低。它的核心优势在于创新的DocTags格式,能够清晰地分离文档布局、文本内容以及表格、公式、代码片段和图表等视觉信息。为了更高效地训练,SmolDocling还采用了课程学习的方法,先“冻结”视觉编码器,然后逐步使用更丰富的数据集进行微调,以增强不同文档元素之间的视觉语义对齐。更令人惊喜的是,得益于其高效性,SmolDocling处理整个文档页面的速度非常快,在消费级GPU上平均每页仅需0.35秒,且仅消耗不到500MB的显存

QQ_1742377221035.png

“小模型也能打败“巨无霸”

事实胜于雄辩,SmolDocling在性能测试中用实力证明了自己并非“花架子”。在涉及各种文档转换任务的综合基准测试中,SmolDocling的表现显著优于许多体量更大的竞争模型。例如,在全页文档OCR任务中,与拥有70亿参数的Qwen2.5VL和3.5亿参数的Nougat相比,SmolDocling取得了明显更高的准确率,其编辑距离(0.48)更低,F1分数(0.80)更高

公式转录方面,SmolDocling也达到了0.95的F1分数,与最先进的模型如GOT不相上下。更令人称赞的是,SmolDocling还在代码片段识别方面树立了新的标杆,精确率和召回率分别高达0.94和0.91。这简直是“小个子,大力气”,在各个关键领域都展现出了惊人的实力!

“十八般武艺”:复杂文档也能轻松搞定

SmolDocling与其他文档OCR解决方案的不同之处在于,它能够处理文档中的各种复杂元素,包括代码、图表、公式和各种不同的布局。它的能力不仅限于常见的科学论文,还能可靠地处理专利、表格和商业文档

通过DocTags提供全面的结构化元数据,SmolDocling消除了HTML或Markdown等格式固有的歧义,从而提高了文档转换的下游可用性。其紧凑的体积还使其能够以极低的资源需求进行大规模的批量处理,为大规模部署提供了经济高效的解决方案。这意味着,以后企业在处理海量复杂文档时,再也不用为高昂的计算成本和复杂的流程而烦恼了。

总而言之,SmolDocling的发布代表了文档转换技术的重大突破。它有力地证明了,紧凑型模型不仅能够与大型基础模型竞争,而且在关键任务中还能显著超越它们

研究人员成功地展示了,通过有针对性的训练、创新的数据增强和像DocTags这样的新型标记格式,可以克服传统上与模型大小和复杂性相关的局限性。SmolDocling的开源不仅为OCR技术树立了新的效率和多功能性标准,还通过开放的数据集和高效紧凑的模型架构,为社区提供了一份宝贵的资源。

猜你喜欢

凡人传说真一界游戏机制详细解析及玩法攻略分享
凡人传说真一界游戏机制详细解析及玩法攻略分享

在这个世界里,没有耀眼的仙法,也没有令人震撼的神迹。这里的一切都显得平平无奇,仿佛与那些传说中的修真界毫无关联。然而,这

AI写诗:探索未来诗歌创作的新形态与其支撑的工具角色
AI写诗:探索未来诗歌创作的新形态与其支撑的工具角色

随着人工智能技术的飞速发展,AI在文学创作领域的应用也日益受到关注。其中,AI写诗作为人工智能在自然语言生成(NLG)领

7777影院无障碍观看电视剧小别离:探索现代家庭情感难题,陪你轻松品味亲情与成长交织的故事!
7777影院无障碍观看电视剧小别离:探索现代家庭情感难题,陪你轻松品味亲情与成长交织的故事!

7777影院免费观看电视剧小别离,绝对是当下最让人上瘾的剧集之一。每一集都能触动你内心最柔软的部分,感受到家长与孩子之间

最新月圆之夜兑换码分享,赶快来看看现在有哪些可以使用的兑换码吧
最新月圆之夜兑换码分享,赶快来看看现在有哪些可以使用的兑换码吧

月圆之夜是一款备受欢迎的独立冒险类游戏,以其独特的童话风格和丰富的剧情吸引了众多玩家。游戏中,玩家扮演小红帽,通过不断探

刘震云解析文学创作与DeepSeek技术的关系:优秀作品需要哲学深度,而机器无法完全模仿
刘震云解析文学创作与DeepSeek技术的关系:优秀作品需要哲学深度,而机器无法完全模仿

河南省文联主席刘震云近日在河南省人民会堂带来了一场题为《文学、哲学与故乡》的专题讲座,吸引了众多文学爱好者前来聆听。在讲

二田书法较量仍未平息,当代楷书艺术的巅峰之争究竟归属何处?
二田书法较量仍未平息,当代楷书艺术的巅峰之争究竟归属何处?

在当代书法界,尽管二田先生已相继离世,但他们所引发的书法争议却从未平息。这两位书法大师坚守传统,致力于书法的规范化、工整

在魔兽世界中如何顺利完成端正态度任务的详细攻略与技巧分享
在魔兽世界中如何顺利完成端正态度任务的详细攻略与技巧分享

在魔兽世界中,端正态度任务是一个等级要求为80级的任务。玩家需要前往安德麦地区,找到npc格琳拉·菲兹克兰克(坐标40,

民国才女周炼霞:绘画才华胜陆小曼,文学造诣媲美张爱玲,坚守爱情34年终得圆满相聚
民国才女周炼霞:绘画才华胜陆小曼,文学造诣媲美张爱玲,坚守爱情34年终得圆满相聚

在民国书画界,有一位传奇女性,她以卓越的才华和坚贞的爱情故事闻名于世。这位女性便是周炼霞,她的经历如同一幅波澜壮阔的画卷

探秘江湖八卦石获取的方法与途径,助你轻松掌握秘招
探秘江湖八卦石获取的方法与途径,助你轻松掌握秘招

在这就是江湖这款游戏中,八卦石作为提升角色实力的重要道具,备受玩家们的青睐。它不仅能为角色提供可观的属性加成,还能在关键

二人世界高清影像欣赏:尽享沉浸式视听盛宴的理想体验选择
二人世界高清影像欣赏:尽享沉浸式视听盛宴的理想体验选择

在现代社会,随着网络技术和设备的快速发展,越来越多的人开始选择在家里享受高质量的娱乐内容。对于喜欢二人世界的情侣或是亲密