Meta推出新革命性记忆层技术:打破参数限制,大幅提升AI模型的事实准确性和可靠性

Meta 公司近日发布了一项突破性的研究成果,他们开发出一种新型的记忆层技术,可以显著提升大型语言模型(LLM)的事实准确性,并在参数规模上实现了前所未有的扩展。这项技术不仅挑战了传统神经网络的扩展方式,还为未来的 AI 架构设计提供了新的方向。

这项研究的核心在于利用可训练的键值查找机制,为模型增加额外的参数,而无需增加计算量(FLOPs)。这种方法的核心思想是,通过稀疏激活的记忆层来补充计算密集的前馈层,从而提供专门的存储和检索信息的能力。

image.png

与传统的稠密网络相比,记忆层在处理信息存储方面更具效率。例如,语言模型需要学习人名生日、国家首都等简单的关联信息,记忆层可以通过简单的键值查找机制实现,这种方式比使用前馈网络更高效。

该研究的主要贡献在于将记忆层的规模扩展到了前所未有的程度,达到了1280亿个参数。实验结果表明,在下游任务中,配备改进型记忆层的语言模型不仅优于计算量翻倍的稠密模型,在计算量和参数量匹配的情况下,也胜过混合专家模型。尤其在事实性任务上,性能提升更为显著。

image.png

Meta 的研究人员通过将 Transformer 网络中的一个或多个前馈网络(FFN)替换为记忆层来实现这一目标。这种替换方式在不同基础模型大小(从1.34亿到80亿参数)和记忆容量(高达1280亿参数)上都表现出了一致的优势。实验结果显示,记忆层可以将语言模型的事实准确性提高100%以上,同时在代码编写和一般知识方面也有显著提高。在许多情况下,配备记忆层的模型甚至可以达到需要4倍计算量的稠密模型的性能。

研究人员还对记忆层进行了多项改进,以克服其在规模化应用中的挑战:

采用乘积键查找机制:为了解决大规模记忆层中查询键检索的瓶颈,该研究采用了可训练的乘积量化键,从而避免了对每个查询键对进行比较。

并行化记忆层:为了在多 GPU 环境下实现记忆层的并行化,研究人员将嵌入查找和聚合操作分布在多个 GPU 上。

共享记忆机制:为了最大限度地共享参数,研究人员在所有记忆层之间使用共享的记忆参数池。

优化性能和稳定性:研究人员使用自定义的 CUDA 内核优化了 EmbeddingBag 操作,显著提高了内存带宽利用率。此外,还引入了带有 silu 非线性的输入相关门控机制,以提高训练性能和稳定性。

image.png

实验结果还揭示了以下关键发现:

记忆层的大小对性能有显著影响:随着记忆层大小的增加,事实性问答的性能持续提高。

多个记忆层优于单个记忆层:使用多个共享参数的记忆层可以提高性能,但过多的记忆层会降低性能。最佳的记忆层数量为三个。

记忆层能更快地学习事实:在训练初期,配备记忆层的模型性能提升更快,表明记忆层有助于模型更快地学习事实.

记忆层与稠密层互补:实验表明,稀疏的记忆层和稠密的前馈层都是必不可少的。

为了验证记忆层技术的有效性,研究人员在多个基准测试上进行了评估,包括:

事实性问题回答(NaturalQuestions, TriviaQA)

多跳问题回答(HotpotQA)

科学和常识性知识(MMLU, HellaSwag, OBQA, PIQA)

代码编写(HumanEval, MBPP)

结果显示,配备记忆层的模型在这些测试中均优于基线模型,尤其是在事实性问题回答上,性能提升最为明显。

Meta 的这项研究不仅为 AI 模型的扩展提供了新的思路,也为解决事实性问题和提高模型性能开辟了新的道路。研究人员认为,记忆层技术具有很强的可扩展性,未来有望在各种 AI 应用中得到广泛应用。他们还指出,虽然记忆层在硬件加速方面仍面临挑战,但相信通过持续的研究和优化,其性能可以与传统前馈网络相媲美甚至超越.

此外,Meta 的研究团队还希望通过新的学习方法进一步提升记忆层的性能,减少模型的遗忘、幻觉,并实现持续学习.

这项研究的发布无疑为 AI 领域注入了新的活力,也让我们对未来 AI 的发展充满了期待。

论文:https://arxiv.org/pdf/2412.09764

猜你喜欢

青青河边草免费观看影视大全:畅享多元文化,领略影视艺术之美
青青河边草免费观看影视大全:畅享多元文化,领略影视艺术之美

青青河边草免费观看影视大全者,乃今时一众影迷所崇尚之平台,汇集天下佳片,涵盖武侠、爱情、奇幻、历史等多种题材。观者可在此平台畅游影

安贞书院新春活动:书法爱好者欢聚一堂,用笔墨传递祝福与美好愿望
安贞书院新春活动:书法爱好者欢聚一堂,用笔墨传递祝福与美好愿望

在弘扬中国传统文化、营造春节喜庆氛围的背景下,安贞书院于近日成功举办了一场别开生面的“书写春联送福字”活动。此次活动特别

中国作家祁云枝与胡运玲的作品在第二届东京国际儿童文学奖中光芒四射,展现中华文学风采
中国作家祁云枝与胡运玲的作品在第二届东京国际儿童文学奖中光芒四射,展现中华文学风采

在儿童文学领域的一项重大国际盛事中,中国作家的作品再次闪耀光芒。近日,第二届东京国际儿童文学奖揭晓第二批入围名单,其中包

齐白石艺术价值被小看,绘画换白菜未能成行,艺术无价却难以解燃眉之急?
齐白石艺术价值被小看,绘画换白菜未能成行,艺术无价却难以解燃眉之急?

齐白石,这位享誉中外的艺术巨匠,不仅在中国艺术史上留下了浓墨重彩的一笔,其画作更在全球范围内享有极高的声誉。在当今的艺术

丁原禄的“渔船系列”作品捐献给中国国家画院,尽展渔村生活韵味与山河壮丽精神
丁原禄的“渔船系列”作品捐献给中国国家画院,尽展渔村生活韵味与山河壮丽精神

在中国国家画院内,一场别开生面的捐赠仪式近日举行,艺术家丁原禄先生慷慨地将自己精心创作的四幅“渔船系列”中国画作品捐赠给

探寻楚生大写意花鸟艺术:运用简练笔墨与大胆色彩,彰显非凡的艺术风格与魅力
探寻楚生大写意花鸟艺术:运用简练笔墨与大胆色彩,彰显非凡的艺术风格与魅力

来楚生:诗书画印四绝的艺术巨匠来楚生,一位在中国艺术界留下深刻印记的大师,他的艺术生涯跨越了半个多世纪,以其卓越的才华和

丁辅之《三寿作朋图》深度赏析:六十七岁高龄之作,展现篆刻与书画艺术的非凡造诣与风范
丁辅之《三寿作朋图》深度赏析:六十七岁高龄之作,展现篆刻与书画艺术的非凡造诣与风范

在书画艺术界,一幅珍贵的作品总能引发广泛关注。近日,一幅由近代著名篆刻家、书画家丁辅之所绘的《三寿作朋图》再次进入公众视

岁朝图中揭示新春希望:胡佩衡的春节愿望与中华文化的延续之美
岁朝图中揭示新春希望:胡佩衡的春节愿望与中华文化的延续之美

近日,北京画院展出了一幅引人注目的《岁朝图》,该作品由已故著名画家胡佩衡在其生命最后一年创作,画面上的牡丹、水仙、绿松和

迎春盛典:中芭再现《胡桃夹子》摇身一变为《过年》精彩巡演激情绽放京城
迎春盛典:中芭再现《胡桃夹子》摇身一变为《过年》精彩巡演激情绽放京城

新春佳节即将到来,京城各大剧场和艺术机构纷纷推出了一系列精彩纷呈的演出和展览,为市民们献上了一场场视觉与文化的盛宴。

齐白石的孙女带着真迹参与鉴宝活动,专家误以为是赝品,真相揭露后引发诸多思考
齐白石的孙女带着真迹参与鉴宝活动,专家误以为是赝品,真相揭露后引发诸多思考

在上世纪八九十年代,一股收藏热潮席卷全国,使得古董价格急剧攀升,同时也催生了大量赝品涌入市场。这些赝品不仅让投资者和收藏