AlphaSteer: 一行代码大幅提升大模型安全

7个月前发布

2 14 0

AlphaSteer: 一行代码大幅提升大模型安全

最近很喜欢的一个工作AlphaSteer。Follow今年ICLR 2025的outstanding paper AlphaEdit，我们把零空间投影的思想做到了安全领域。

AlphaSteer不需要进行后训练，只需要修改model.generate一行代码，就可以大幅提升模型面对各种Jailbreak时的安全性且

感觉蛮有趣的越狱攻击越来越没意思了大家都进入深水区开始分析表征了

文章版权归作者所有，未经允许请勿转载。

没有相关内容!

14 条评论

后视镜的好时机读者

一行代码就能让AI变乖，这简直是AI界的‘紧箍咒’啊！

7个月前无记录

回复
拔丝_香芋投稿者

感谢认可哈哈。越狱攻击要做出新花样的确越来越难了。此外从一开始的直观的方法到可解释的方法感觉也是大部分领域的发展过程。

7个月前无记录

回复
誉程会展读者

请教一下博主，我是做安全的，越狱攻击这一块方向长期咋样？

7个月前无记录

回复
刘伟读者

主要是思考了越狱攻击Jailbreak哈，由于目前对齐的大模型对一般的有害问题基本上都能全拒绝了

7个月前无记录

回复
德扑圈安卓版读者

[g=quantou] 最近发现steering activations的工作好多呀，学长感觉这个方向怎么样呢

7个月前无记录

回复
爱喝马黛茶的安东尼读者

谢谢关注。我们用零空间投影的方式先训练了一个P矩阵，确保▲Ph（utility data）为0。在这个基础上，我们再训练▲，确保对于malicious data▲Ph为拒绝向量r。具体细节可以参考我们的论文。

7个月前无记录

回复
两个人的小SEUNG林投稿者

大佬，阅读完你们的论文之后，想请教一下steer的层和p%是如何选择的呢

7个月前无记录

回复
自我提升课程读者

纯LLM的越狱攻击目前会比较难发，过了黄金期了。MLLM的attack也开始变难了，agent的可能还能做做

7个月前无记录

回复
灰常灰常小洋读者

谢谢关注。个人感觉短期的确还是比较promising，能做而且有必定关注的。但可能不太适合作为一个长线方向，长期来看，相比后训练那一套范式来说不能算是主流方向。

7个月前无记录

回复
馋猫吃鱼- 投稿者

[g=bishi] 这样公式，可以等价于修改权重吗

7个月前无记录

回复
童话荒漠云天明投稿者

哪些方面的安全性呢？越狱还有其他的吗

7个月前无记录

回复
是啊啊啊啊段啊投稿者

你好，我们的方法只修改了激活值，没有修改权重。但我个人认为权重和激活值有某种对偶关系，所以steering和model editing有某些类似之处

7个月前无记录

回复
糖果宝贝齐读者

不过那你们的△矩阵权重咋训练呢

7个月前无记录

回复
Lhhmm7_ 投稿者

@Junfeng Fang

7个月前无记录

回复

AlphaSteer: 一行代码大幅提升大模型安全

没有更多了...

没有更多了...

相关文章

14 条评论

热门网站

3699小游戏

3699小游戏

小苹果网页助手

Poki (宝玩)

新LuKuai 免费AI对话聊天平台

Shopee

热门文章

昆廷夫夫日常合集：昆廷夫妇全集免费直通车1080P超速播-未删减百度云秒拉缓存-高清画质自由看-可影视全网极速播放昆廷夫夫日常合集-昆廷夫妇全集在线点播免VIP高清未删减版-可影视秒播

kiro登录教程

别写jailbreak论文了？

易懂案例：用班费记账来理解区块链Paxos算法、Basic Paxos算法、Cheap Paxos算法、Egalitarian Paxos算法、Fast Paxos算法、Multi-Paxos算法、B

ESP32-S3-WROOM-1-N16R8 对接 PS2 游戏手柄：从硬件到软件的全流程技术指南

多模态模型产业链梳理

AlphaSteer: 一行代码大幅提升大模型安全

没有更多了...

没有更多了...

相关文章

14 条评论

热门网站

3699小游戏

3699小游戏

小苹果网页助手

Poki (宝玩)

新LuKuai 免费AI对话聊天平台

Shopee

热门文章

昆廷夫夫日常合集：昆廷夫妇全集免费直通车1080P超速播-未删减百度云秒拉缓存-高清画质自由看-可影视全网极速播放昆廷夫夫日常合集-昆廷夫妇全集在线点播免VIP高清未删减版-可影视秒播

kiro登录教程

别写jailbreak论文了？

易懂案例：用班费记账来理解区块链Paxos算法、Basic Paxos算法、Cheap Paxos算法、Egalitarian Paxos算法、Fast Paxos算法、Multi-Paxos算法、B

ESP32-S3-WROOM-1-N16R8 对接 PS2 游戏手柄：从硬件到软件的全流程技术指南

多模态模型产业链梳理

标签云