有些以前合作的朋友问我为啥转向 AI safety,自己好像每次的回答都不太一样。不是因为说不清楚在糊弄,而是有太多的理由能驱动人来做 AI safety 了。所以决定开一个系列来分享一下我对 AI safety 值得探索的一些方向的分析!当然可能有人 taste 不太一样,望轻喷
今天聊一聊最近在思考的 age
现实场景agent的实验的确 比纯LLM chatbot重大的多,不过开销也是相当大呀,没资源搭仿真沙盒环境怎么办
俺也一样
吃的,很吃工程力,尤其是benchmark大家都在卷廉价劳动力
有真实use case更有意义, 目前哪些用户关注safety? 我不懂这个领域
[g=zhuakuang] 博主想说的应该是security吧,列如prompt injection,safety主要是指alignment
老师我不太理解agent safety的场景,如果担心它对系统产生损害,可以在设计的时候就不要把对系统的操作加进来吗?或者替换成对相关人员的提示,让相关人员去操作。还是说担心某个用户的prompt里面包含什么程序代码这种嵌入攻击呢?这种的话就在设计的时候让agent不要有直接执行代码的function是不是可以解决捏纯小白请教一下
感谢题主发帖,浅浅和您交流一下。Agent 的核心优势在于为各个领域赋能,因此其安全机制也应结合领域特有的安全属性来设计。对于可部署的 Agent 安全,正如题主所述,监控并拦截不安全行为是首要目标,还需权衡两方面的开销:时间成本:依赖大模型直接判断往往会引入显著的推理延迟;
赞一个!!!也想研究gui agent [g=woshou]
能力保真:安全机制不应显著削弱 Agent 原有能力。极端情况下,如果让 Agent 一开始就不执行任何任务,虽然安全性可达 100%,但系统可用性将降为零。我们的工作在此背景下提出了一种基于 DSL 的可定制化运行时约束框架,并已在 LangChain 上实现(详见 arXiv:2503.18666)。该框架能够灵活地将领域特定的安全规则嵌入 Agent 执行流程,在降低额外开销的同时,最大化保留原有能力。 欢迎大家交流讨论
搞agent还是比较吃资源和工程水平的,学校里搞,不容易卷得过大厂,即便安全方向,也是各大厂落地agent的一个板块
很有意思 感觉1)叫做verification cost更合适一些
可以,但相比于限制功能,全流程自动化效率太高了,大家会希望 agent 能力越多越好自动化越强越好(列如许多人用 coding agent 可能不仔细看就直接哐哐哐按同意了,结果就出现了xhs上rm -rf的笑话)。所以在这个强烈的商业动机下可能还是要在端侧有一层安全保护,由于用户不能确保一个看起来质量高速度快的 agent 服务有没有什么漏洞。
MLA-Trust: Benchmarking Trustworthiness of Multimodal LLM Agents in GUI Environments,自荐一下我们最近做的关于gui agent可信的文章
Agent defense是一个很好的topic,兼顾research和工程,可以看下这篇ALRPHFS: Adversarially Learned Risk Patterns with Hierarchical Fast & Slow Reasoning for Robust Agent Defense
正在筹划做这方向的课题,直接follow住 坐等第二集
俺也一样
吃的,很吃工程力,尤其是benchmark大家都在卷廉价劳动力
有真实use case更有意义, 目前哪些用户关注safety? 我不懂这个领域
[g=zhuakuang] 博主想说的应该是security吧,列如prompt injection,safety主要是指alignment
老师我不太理解agent safety的场景,如果担心它对系统产生损害,可以在设计的时候就不要把对系统的操作加进来吗?或者替换成对相关人员的提示,让相关人员去操作。还是说担心某个用户的prompt里面包含什么程序代码这种嵌入攻击呢?这种的话就在设计的时候让agent不要有直接执行代码的function是不是可以解决捏纯小白请教一下
感谢题主发帖,浅浅和您交流一下。Agent 的核心优势在于为各个领域赋能,因此其安全机制也应结合领域特有的安全属性来设计。对于可部署的 Agent 安全,正如题主所述,监控并拦截不安全行为是首要目标,还需权衡两方面的开销:时间成本:依赖大模型直接判断往往会引入显著的推理延迟;
赞一个!!!也想研究gui agent [g=woshou]
能力保真:安全机制不应显著削弱 Agent 原有能力。极端情况下,如果让 Agent 一开始就不执行任何任务,虽然安全性可达 100%,但系统可用性将降为零。我们的工作在此背景下提出了一种基于 DSL 的可定制化运行时约束框架,并已在 LangChain 上实现(详见 arXiv:2503.18666)。该框架能够灵活地将领域特定的安全规则嵌入 Agent 执行流程,在降低额外开销的同时,最大化保留原有能力。 欢迎大家交流讨论
搞agent还是比较吃资源和工程水平的,学校里搞,不容易卷得过大厂,即便安全方向,也是各大厂落地agent的一个板块
很有意思 感觉1)叫做verification cost更合适一些
可以,但相比于限制功能,全流程自动化效率太高了,大家会希望 agent 能力越多越好自动化越强越好(列如许多人用 coding agent 可能不仔细看就直接哐哐哐按同意了,结果就出现了xhs上rm -rf的笑话)。所以在这个强烈的商业动机下可能还是要在端侧有一层安全保护,由于用户不能确保一个看起来质量高速度快的 agent 服务有没有什么漏洞。
MLA-Trust: Benchmarking Trustworthiness of Multimodal LLM Agents in GUI Environments,自荐一下我们最近做的关于gui agent可信的文章
Agent defense是一个很好的topic,兼顾research和工程,可以看下这篇ALRPHFS: Adversarially Learned Risk Patterns with Hierarchical Fast & Slow Reasoning for Robust Agent Defense
正在筹划做这方向的课题,直接follow住 坐等第二集