来自Anthropic保障研究团队的研究御A越狱研究人员开发了一种新方法 ,用于保护人工智能模型免受通用越狱攻击。发现法防这种创新方法被称为“宪法分类器” ,新方型已在数千小时的通用人类红队测试和合成评估中表现出了显著的抗攻击能力 。
通用越狱攻击是攻击指攻击者通过精心设计的输入,绕过人工智能模型的研究御A越狱安全防护 ,迫使模型产生违反其安全准则的发现法防有害回应。云计算这些攻击可能涉及用长提示信息淹没模型 ,新方型或者使用不寻常的通用大写方式改变输入风格 ,尽管经过广泛的攻击安全训练,大型语言模型仍然容易受到此类漏洞利用的研究御A越狱攻击。 宪法分类器的发现法防工作原理宪法分类器是基于合成数据训练的输入和输出分类器。它们能够过滤掉大多数越狱尝试,新方型同时将过度拒绝率降至最低,高防服务器通用并保持适度的攻击计算开销。该系统基于“宪法”——一份定义允许和禁止内容类别的原则清单 。
宪法分类器的训练和实施(来源:Anthropic) 以下是其工作原理: 宪法制定:制定一部宪法 ,明确无害和有害的类别。合成数据生成:根据宪法,生成大量涵盖所有内容类别的合成提示和模型完成内容 。这些数据通过翻译成不同语言以及模仿已知越狱风格进行增强。模板下载分类器训练 :使用合成数据训练输入和输出分类器,以检测和阻止有害内容。部署:将这些分类器作为保护 AI 模型的安全措施实施。实际测试结果在一个漏洞赏金计划中,183名活跃参与者花费超过3000小时,试图对保护Claude 3.5 Sonnet的原型系统进行越狱 。尽管奖金丰厚,但并未发现任何通用越狱漏洞。不过,该原型系统的过度拒绝率和计算成本较高。源码库
自动化评估结果(来源:Anthropic) 宪法分类器的更新版本在Claude 3.5 Sonnet上进行了测试,使用了1万个合成越狱提示。越狱成功率从86%降至4.4%,拒绝率仅略有上升(0.38%) ,额外计算成本适度增加(23.7%) 。 虽然宪法分类器为AI模型提供了显著的保护,但要注意的是,它们并非万无一失 。研究人员建议使用补充防御措施,亿华云并根据新出现的越狱技术不断调整“宪法” 。 不过这一突破确实为未来安全部署更强大的 AI 模型带来了希望,减轻了越狱相关的风险,并确保AI系统符合安全原则。 2025年2月3日至2月10日 ,宪法分类器系统的实时演示将开放供红队测试 。此次演示专注于与化学武器相关的查询 ,并邀请用户尝试越狱,建站模板以提供对系统改进的宝贵反馈。 参考来源 :https://cybersecuritynews.com/researchers-uncovers-new-methods-to-defend-ai-models/#google_vignette |
戴尔PowerFlex 4.0为客户的IT现代化之旅奠定了坚实的基础利用最新大白菜U盘装系统教程,轻松完成系统安装(以大白菜U盘装系统为例,快速上手系统安装)全面评价新苹果6的性能与功能(探索苹果6的卓越表现与领先技术)痛心:实验室服务器被挖矿怎么办?用u大侠装系统教程(从购买到安装,一步步教你如何用u大侠装系统)戴尔科技云平台扮演十分关键的角色戴尔PowerProtect CyberRecovery保护企业抵御网络安全威胁小新15使用U盘装系统教程(轻松操作,系统安装无忧)Kyndryl勤达睿获得思科全球金牌集成商认证数据中心网络:什么是Spine-Leaf架构?源码库企业服务器香港物理机亿华云b2b信息平台云服务器网站建设