🎃 精心设计的恶意 Prompt 可诱使大模型突破安全限制,输出敏感或不当内容,这便是越狱攻击(Jailbreaking)的核心风险🚨。为清晰认知这类威胁,依据Junjie Chu等研究者的工作,对大模型常见的越狱攻击方法进行了系统分类,共总结了6大类、28种具体的攻击手段。
🚍 在探讨越狱攻击的具体手法前,
我用过一招叫主动设限。直接让ai写黄它不乐意,但如果增加主动限制(列如不让写G向或未成年),它就同意了。思维过程里还会有“看来这人是有底线”之类的话。
666
没人试试小红书翻译能不能越狱吗
有人越狱成功gpt吗
角色扮演被玩烂了,目前好多ai都不行了,利用心理或者多轮谈话可以的,就是太费时间,要一轮一轮谈
@晴时雨的唱片屋
实则大可不必如此大费周章,将你想知道的事情拆解为合法范围内小步骤,以合适的背景提问,大部分LLM都会给你满意的答案。毒药同时也是解药!
@壹只羊 @FOR THE WORTHY @😑捌月Kevin😑 @baimanxiu @viiiivvvZ @屑游侠awa
这个能突破系统提示词?
别被抓了
[g=tu] @肥万之家 你最爱的
学到了
存了 [g=OK]
角色扮演的确 没有之前那么稳 [g=tuosai][g=tuosai]
这是一个个试出来的吧
很早就有越狱暗语了,gpt3.5的、4都有
实则越狱的本质就是为了去突破系统提示词中的一些设定
666
没人试试小红书翻译能不能越狱吗
有人越狱成功gpt吗
角色扮演被玩烂了,目前好多ai都不行了,利用心理或者多轮谈话可以的,就是太费时间,要一轮一轮谈
@晴时雨的唱片屋
实则大可不必如此大费周章,将你想知道的事情拆解为合法范围内小步骤,以合适的背景提问,大部分LLM都会给你满意的答案。毒药同时也是解药!
@壹只羊 @FOR THE WORTHY @😑捌月Kevin😑 @baimanxiu @viiiivvvZ @屑游侠awa
这个能突破系统提示词?
别被抓了
[g=tu] @肥万之家 你最爱的
学到了
存了 [g=OK]
角色扮演的确 没有之前那么稳 [g=tuosai][g=tuosai]
这是一个个试出来的吧
很早就有越狱暗语了,gpt3.5的、4都有
实则越狱的本质就是为了去突破系统提示词中的一些设定