AlphaSteer: 一行代码大幅提升大模型安全

2个月前发布
0 14 0

AlphaSteer: 一行代码大幅提升大模型安全
AlphaSteer: 一行代码大幅提升大模型安全
AlphaSteer: 一行代码大幅提升大模型安全
AlphaSteer: 一行代码大幅提升大模型安全
AlphaSteer: 一行代码大幅提升大模型安全最近很喜欢的一个工作AlphaSteer。Follow今年ICLR 2025的outstanding paper AlphaEdit,我们把零空间投影的思想做到了安全领域。

AlphaSteer不需要进行后训练,只需要修改model.generate一行代码,就可以大幅提升模型面对各种Jailbreak时的安全性且

感觉蛮有趣的 越狱攻击越来越没意思了 大家都进入深水区 开始分析表征了

© 版权声明

相关文章

没有相关内容!

14 条评论

  • 头像
    后视镜的好时机 读者

    一行代码就能让AI变乖,这简直是AI界的‘紧箍咒’啊!

    无记录
    回复
  • 头像
    拔丝_香芋 投稿者

    感谢认可哈哈。越狱攻击要做出新花样的确 越来越难了。此外 从一开始的直观的方法到可解释的方法感觉也是大部分领域的发展过程。

    无记录
    回复
  • 头像
    誉程会展 读者

    请教一下博主,我是做安全的,越狱攻击这一块方向长期咋样?

    无记录
    回复
  • 头像
    刘伟 读者

    主要是思考了越狱攻击Jailbreak哈,由于目前对齐的大模型对一般的有害问题基本上都能全拒绝了

    无记录
    回复
  • 头像
    德扑圈安卓版 读者

    [g=quantou] 最近发现steering activations的工作好多呀,学长感觉这个方向怎么样呢

    无记录
    回复
  • 头像
    爱喝马黛茶的安东尼 读者

    谢谢关注。我们用零空间投影的方式先训练了一个P矩阵,确保▲Ph(utility data)为0。在这个基础上,我们再训练▲,确保对于malicious data▲Ph为拒绝向量r。具体细节可以参考我们的论文。

    无记录
    回复
  • 头像
    两个人的小SEUNG林 投稿者

    大佬,阅读完你们的论文之后,想请教一下steer的层和p%是如何选择的呢

    无记录
    回复
  • 头像
    自我提升课程 读者

    纯LLM的越狱攻击目前会比较难发,过了黄金期了。MLLM的attack也开始变难了,agent的可能还能做做

    无记录
    回复
  • 头像
    灰常灰常小洋 读者

    谢谢关注。个人感觉短期的确 还是比较promising,能做而且有必定关注的。但可能不太适合作为一个长线方向,长期来看,相比后训练那一套范式来说不能算是主流方向。

    无记录
    回复
  • 头像
    馋猫吃鱼- 投稿者

    [g=bishi] 这样公式,可以等价于修改权重吗

    无记录
    回复
  • 头像
    童话荒漠云天明 投稿者

    哪些方面的安全性呢?越狱还有其他的吗

    无记录
    回复
  • 头像
    是啊啊啊啊段啊 投稿者

    你好,我们的方法只修改了激活值,没有修改权重。但我个人认为权重和激活值有某种对偶关系,所以steering和model editing有某些类似之处

    无记录
    回复
  • 头像
    糖果宝贝齐 读者

    不过那你们的△矩阵权重咋训练呢

    无记录
    回复
  • 头像
    Lhhmm7_ 投稿者

    @Junfeng Fang

    无记录
    回复