别写jailbreak论文了？

7个月前发布

别写jailbreak论文了？

前两天IBM欧洲研究院的一个researcher给我扔了一篇blog，标题是《Do not write that jailbreak paper》。我点进去看，直接给我看笑了。
一下子想起一两个月前和一个做安全研究的教授提起jailbreak，他刚听完这个词，就直接一脸鄙夷地说了句：“boring.”
（那语气，像是研

传统的安全领域如果你只有attack但不能给出有效的defense的话这种文章对于这个community没有啥实际贡献是很难发出来的目前的许多编辑不在乎这个了

文章版权归作者所有，未经允许请勿转载。

没有相关内容!

12 条评论

张卿家读者

@GG

7个月前无记录

回复
冷血永不言败读者

jailbreaking和adv的区别，我个人认为是：jailbreaking的攻击很好做（算力需求小）但是防御的各种成本都很高。所以目前攻击偏多，而llm也相对而言比较脆弱 [g=hecai][g=hecai][g=hecai]

7个月前无记录

回复
新德大酒店官微号读者

啥领域跟ai扯上关系了最后不都是这样吗，氵的越来越多，同化val

7个月前无记录

回复
够了别再咯噔了投稿者

感觉目前靠写prompt的jailbreak没啥有意思的了

7个月前无记录

回复
追梦赤子心读者

很喜爱anthropic的工作，many-shot越狱，best-n越狱

7个月前无记录

回复
花开三秋读者

那可不必定哦

7个月前无记录

回复
我打字贼快读者

反正一堆backdoor attack，很是蛋疼

7个月前无记录

回复
丝瓜影院读者

创新性高又喜爱拒开创性的只有大佬先发Blog Twitter 预热才行

7个月前无记录

回复
马秋楠读者

没用，实际上依然会走adversarial attack疯狂灌水的老路，而且由于safety相关的组越来越多，会变成adv attack的plus版

7个月前无记录

回复
心海呀123 投稿者

由于根本没有work的防御

7个月前无记录

回复
头像君呀投稿者

[g=dan] 太真实了，

7个月前无记录

回复

别写jailbreak论文了？

没有更多了...

没有更多了...

相关文章

12 条评论

热门网站

3699小游戏

3699小游戏

中国版首页

Poki (宝玩)

小苹果网页助手

Shopee

热门文章

Spark RDD及其常用算子介绍

易懂案例：用班费记账来理解区块链Paxos算法、Basic Paxos算法、Cheap Paxos算法、Egalitarian Paxos算法、Fast Paxos算法、Multi-Paxos算法、B

正确的华为交换机桥优先级配置方法

Perl编程实践：角色、子例程与测试

单片机最好用的程序框架，莫过于状态机了

Android Canvas画布解析

别写jailbreak论文了？

没有更多了...

没有更多了...

相关文章

12 条评论

热门网站

3699小游戏

3699小游戏

中国版首页

Poki (宝玩)

小苹果网页助手

Shopee

热门文章

Spark RDD及其常用算子介绍

易懂案例：用班费记账来理解区块链Paxos算法、Basic Paxos算法、Cheap Paxos算法、Egalitarian Paxos算法、Fast Paxos算法、Multi-Paxos算法、B

正确的华为交换机桥优先级配置方法

Perl编程实践：角色、子例程与测试

单片机最好用的程序框架，莫过于状态机了

Android Canvas画布解析

标签云