阿里云推出新一代数学推理模型Qwen2.5-Math-PRM,7B版本表现超越GPT-4o,赋能智能计算新视野

今天,阿里云通义团队正式发布了全新的数学推理过程奖励模型 Qwen2.5-Math-PRM。该模型提供了72B 和7B 两种尺寸,性能表现均显著优于同类的开源过程奖励模型,尤其是在识别推理错误方面表现突出。

Qwen2.5-Math-PRM 的7B 版本令人惊讶地超越了业界广受欢迎的 GPT-4o,这一成就标志着阿里云在推理模型的研发上迈出了重要的一步。为了全面评估模型在数学推理中的表现,通义团队还开源了首个步骤级的评估标准 ——ProcessBench。这个评估标准涵盖了3400个数学问题测试案例,其中还包括国际奥林匹克数学竞赛的难度题目,每个案例均由人类专家标注了详细的推理过程,确保评估的科学性和全面性。

image.png

通过对 Qwen2.5-Math-PRM 在 ProcessBench 上的表现评估,研究团队发现,不论是72B 还是7B 尺寸的模型,均表现出色。特别是7B 版本,不仅超越了同尺寸的开源模型,甚至在某些方面还超过了闭源的 GPT-4o-0806。这证明了过程奖励模型(PRM)在提高推理可靠性方面的巨大潜力,并为未来推理过程监督技术的发展提供了新的思路。

image.png

阿里云通义团队的这项创新性工作,不仅推动了人工智能推理技术的进步,也为行业内其他开发者提供了宝贵的参考。通过开源的方式,通义团队希望能够与更多研究者共享经验,推动整个行业的技术进步。

猜你喜欢

我国数字阅读用户已超过5亿 优质内容成为行业核心竞争力的关键
我国数字阅读用户已超过5亿 优质内容成为行业核心竞争力的关键

数字阅读渐成新风尚今年,全民阅读已第九次写入《政府工作报告》,从“倡导全民阅读”发展至“深入推进全民阅读”,全民阅读的深

青年节回顾丨从60年代到00年代,哪个时期是你青春故事的见证?
青年节回顾丨从60年代到00年代,哪个时期是你青春故事的见证?

中新文娱北京5月4日电(刘越)今天是五四青年节。百年前,李大钊先生曾在《新青年》中寄语彼时的年轻人:“青年之文明,奋斗之

历史剧:穿越时空的桥梁 反思当下与未来的交织
历史剧:穿越时空的桥梁 反思当下与未来的交织

历史剧:连接历史 观照现实2021年,以《觉醒年代》为代表的党史题材电视剧创作掀起了一波高潮,深刻描摹了建党百年恢宏多彩

立夏时节:虫鸣声声,万物复苏,生机盎然的季节来临了
立夏时节:虫鸣声声,万物复苏,生机盎然的季节来临了

【节气里的韵味中国】春日将尽,草木褪去青嫩之色时,“立夏”便来了。“立夏”,是二十四节气里的第七个节气,也被视为夏季之始

在南京举办的江南诗歌节赋予生活新的力量与灵感
在南京举办的江南诗歌节赋予生活新的力量与灵感

年轻人在江南诗歌节上吟诗。泱波摄南京5月5日电(记者泱波)让诗歌为生活赋能。4日,第二届江南诗歌节在南京莫愁湖公园举办,

中国建筑师的设计作品在法国卢瓦尔河畔肖蒙国际花园节30周年展览中获选展示
中国建筑师的设计作品在法国卢瓦尔河畔肖蒙国际花园节30周年展览中获选展示

法国卢瓦尔河畔肖蒙5月5日电 (记者 李洋)法国卢瓦尔河畔肖蒙国际花园节30周年纪念展当地时间5日举行媒体开放日活动。中

苏轼在历史长河中渡海的经历与心路历程分析
苏轼在历史长河中渡海的经历与心路历程分析

苏轼的手札百读不厌,《渡海帖》尤甚。“轼将渡海”“梦得秘校阁下”,两行沉甸甸的字,就像两个难解的谜语,结成两个奇形怪状的

彩虹张掖行走记:在戈壁滩上,非遗传承人坚守匠心呈现多样艺术的精彩故事
彩虹张掖行走记:在戈壁滩上,非遗传承人坚守匠心呈现多样艺术的精彩故事

5月初,在甘肃张掖市甘州区一乡村,省级非遗项目邵家班子杖头木偶戏传承人徐宁,表演木偶人变脸与喷火。杨艳敏摄兰州5月6日电

万里长空映海洋 波澜壮阔映九州大地宽广
万里长空映海洋 波澜壮阔映九州大地宽广

【编著者说】编者按中国大运河是世界上开凿最早、规模最大、里程最长的运河,与万里长城一起成为中华文明最伟大的标志性工程。作

福建省工艺美术大师杰作系列传承展 “艺海扬帆” 传承与创新的完美结合之旅
福建省工艺美术大师杰作系列传承展 “艺海扬帆” 传承与创新的完美结合之旅

国家非物质文化遗产——畲族银器制作工艺展示亮相福建省海峡民间艺术馆。记者刘可耕摄寿山石雕畲族银器齐聚 福建省工艺美术大师