Anthropic 发布新型“体质分类器”:有效阻挡高达95%的模型越狱行为

人工智能公司 Anthropic 近日宣布开发了一种名为“体质分类器”的新安全方法,旨在保护语言模型免受恶意操纵。该技术专门针对“通用越狱”——一种试图系统性绕过所有安全措施的输入方式,以防止 AI 模型生成有害内容。

为了验证这一技术的有效性,Anthropic 进行了一项大规模测试。公司招募了183名参与者,在两个月内尝试突破其防御系统。参与者被要求通过输入特定问题,试图让人工智能模型 Claude3.5回答十个禁止的问题。尽管提供了高达15,000美元的奖金和约3,000小时的测试时间,但没有任何参与者能够完全绕过 Anthropic 的安全措施。

Claude2,Anthropic,人工智能,聊天机器人  克劳德

从挑战中进步

Anthropic 的早期版本“体质分类器”存在两个主要问题:一是将过多无害请求误判为危险请求,二是需要大量计算资源。经过改进,新版分类器显著降低了误判率,并优化了计算效率。然而,自动测试显示,尽管改进后的系统成功阻止了超过95% 的越狱尝试,但仍需额外23.7% 的计算能力来运行。相比之下,未受保护的 Claude 模型允许86% 的越狱尝试通过。

基于合成数据的训练

“体质分类器”的核心在于使用预定义的规则(称为“宪法”)来区分允许和禁止的内容。系统通过生成多种语言和风格的合成训练示例,训练分类器识别可疑输入。这种方法不仅提高了系统的准确性,还增强了其应对多样化攻击的能力。

尽管取得了显著进展,Anthropic 的研究人员承认,该系统并非完美无缺。它可能无法应对所有类型的通用越狱攻击,且未来可能会出现新的攻击方法。因此,Anthropic 建议将“体质分类器”与其他安全措施结合使用,以提供更全面的保护。

公开测试与未来展望

为进一步测试系统的强度,Anthropic 计划在2025年2月3日至10日期间发布公开演示版本,邀请安全专家尝试破解。测试结果将在后续更新中公布。这一举措不仅展示了 Anthropic 对技术透明度的承诺,也为 AI 安全领域的研究提供了宝贵的数据。

Anthropic 的“体质分类器”标志着 AI 模型安全防护的重要进展。随着 AI 技术的快速发展,如何有效防止模型被滥用已成为行业关注的焦点。Anthropic 的创新为这一挑战提供了新的解决方案,同时也为未来的 AI 安全研究指明了方向。

猜你喜欢

春日阅读的盛况!南通崇川区“阅·音乐LiVE”活动隆重开启,带你沉浸书海与乐音交织的魅力世界
春日阅读的盛况!南通崇川区“阅·音乐LiVE”活动隆重开启,带你沉浸书海与乐音交织的魅力世界

在第30个世界读书日即将到来之际,南通市崇川区举办了一场别开生面的全民阅读推广活动,为春日阅读增添了一抹独特的色彩。4月

圆明园遗韵:清代陈枚《山水楼阁图册》中的东方美学极致体现与文化回顾
圆明园遗韵:清代陈枚《山水楼阁图册》中的东方美学极致体现与文化回顾

在东方园林艺术的璀璨星河中,18世纪的圆明园无疑是最为耀眼的明珠之一。而提及圆明园,便不得不提清代画家陈枚的杰出作品——

常波国画“鸿运当头鲤鱼”:在笔墨中展现吉祥与灵动之美的独特魅力与深邃意境
常波国画“鸿运当头鲤鱼”:在笔墨中展现吉祥与灵动之美的独特魅力与深邃意境

在当代国画艺术的璀璨星河中,常波以其“鸿运当头鲤鱼”系列作品脱颖而出,犹如一颗耀眼的星辰,以其深厚的文化底蕴和独特的艺术

放大古今艺术的魅力,蒙娜丽莎神秘的微笑与中国老农的欢快歌声在画作中交织
放大古今艺术的魅力,蒙娜丽莎神秘的微笑与中国老农的欢快歌声在画作中交织

在欣赏艺术品的微妙之处时,细节往往成为决定作品成败的关键。尤其是名画,其细节不仅体现了艺术家的匠心独运,还往往隐藏着背后

华一民书法艺术展再展风采,2025兰亭杯金奖荣耀续写传奇
华一民书法艺术展再展风采,2025兰亭杯金奖荣耀续写传奇

在书法艺术的浩瀚星空中,又一颗璀璨之星悄然升起。华一民,这位来自江苏无锡却在浙江杭州诞生的艺术家,如今在重庆南岸区安享晚

瑞安花木传奇:古茶花傲视群芳,铁树涅槃重生,大榕树勇抗日敌展现强大生命力
瑞安花木传奇:古茶花傲视群芳,铁树涅槃重生,大榕树勇抗日敌展现强大生命力

瑞安春色正浓,踏青赏花正当时。这座位于东南沿海的城市,因其温润的气候和充沛的雨水,孕育了众多奇花异卉,成为春日里一道亮丽

古代官府如何运用抽象画像和通缉令迅速定位和捕捉逃犯?
古代官府如何运用抽象画像和通缉令迅速定位和捕捉逃犯?

古代通缉令画像抽象,却为何总能迅速捉拿犯人?这一历史谜团近日被揭开。在古代,官府发布的通缉令上,犯人的画像往往十分抽象,

“光影朝阳”职工摄影大赛:捕捉城市动人时刻,你的佳作是否被评选为优秀作品?
“光影朝阳”职工摄影大赛:捕捉城市动人时刻,你的佳作是否被评选为优秀作品?

“美丽朝阳·奋斗朝阳·幸福朝阳”全市职工随手拍摄影展活动正如火如荼地进行中,吸引了众多摄影爱好者和职工的积极参与。此次活

古代通缉令为何能通过模糊画像成功抓捕嫌犯?深度解析其背后的智慧与制度安排
古代通缉令为何能通过模糊画像成功抓捕嫌犯?深度解析其背后的智慧与制度安排

标题:揭秘古代衙门高效办案背后的智慧步入21世纪,信息科技为我们的日常生活带来了翻天覆地的变化,也为执法机构提供了前所未

樊芳儿在书画艺术领域展现卓越才华,荣获“人民书画家”殊荣,成就令人瞩目
樊芳儿在书画艺术领域展现卓越才华,荣获“人民书画家”殊荣,成就令人瞩目

在书画艺术领域,一位杰出艺术家的名字——樊芳儿,因其卓越成就与广泛影响力,近日被授予“人民书画家”的崇高荣誉。这一决定由