前两天IBM欧洲研究院的一个researcher给我扔了一篇blog,标题是《Do not write that jailbreak paper》。我点进去看,直接给我看笑了。 一下子想起一两个月前和一个做安全研究的教授提起jailbreak,他刚听完这个词,就直接一脸鄙夷地说了句:“boring.” (那语气,像是研
传统的安全领域 如果你只有attack但不能给出有效的defense的话 这种文章对于这个community没有啥实际贡献 是很难发出来的 目前的许多编辑不在乎这个了
由于根本没有work的防御
[g=dan] 太真实了,
@GG
jailbreaking和adv的区别,我个人认为是:jailbreaking的攻击很好做(算力需求小)但是防御的各种成本都很高。所以目前攻击偏多,而llm也相对而言比较脆弱 [g=hecai][g=hecai][g=hecai]
啥领域跟ai扯上关系了最后不都是这样吗,氵的越来越多,同化val
感觉目前靠写prompt的jailbreak没啥有意思的了
很喜爱anthropic的工作,many-shot越狱,best-n越狱
那可不必定哦
反正一堆backdoor attack, 很是蛋疼
创新性高又喜爱拒 开创性的只有大佬先发Blog Twitter 预热才行
没用,实际上依然会走adversarial attack疯狂灌水的老路,而且由于safety相关的组越来越多,会变成adv attack的plus版
由于根本没有work的防御
[g=dan] 太真实了,
@GG
jailbreaking和adv的区别,我个人认为是:jailbreaking的攻击很好做(算力需求小)但是防御的各种成本都很高。所以目前攻击偏多,而llm也相对而言比较脆弱 [g=hecai][g=hecai][g=hecai]
啥领域跟ai扯上关系了最后不都是这样吗,氵的越来越多,同化val
感觉目前靠写prompt的jailbreak没啥有意思的了
很喜爱anthropic的工作,many-shot越狱,best-n越狱
那可不必定哦
反正一堆backdoor attack, 很是蛋疼
创新性高又喜爱拒 开创性的只有大佬先发Blog Twitter 预热才行
没用,实际上依然会走adversarial attack疯狂灌水的老路,而且由于safety相关的组越来越多,会变成adv attack的plus版