AI Safety 方向分析 (1)

9个月前发布

一站式接入主流 AI 大模型，支持对话 · 生图 · 生视频，即开即用

ChatGPT Claude Gemini Grok DeepSeek 通义千问 Ollama

AI Safety 方向分析 (1) 有些以前合作的朋友问我为啥转向 AI safety，自己好像每次的回答都不太一样。不是因为说不清楚在糊弄，而是有太多的理由能驱动人来做 AI safety 了。所以决定开一个系列来分享一下我对 AI safety 值得探索的一些方向的分析！当然可能有人 taste 不太一样，望轻喷

今天聊一聊最近在思考的 age

现实场景agent的实验的确比纯LLM chatbot重大的多，不过开销也是相当大呀，没资源搭仿真沙盒环境怎么办

文章版权归作者所有，未经允许请勿转载。

没有相关内容!

14 条评论

天亮就杀你投稿者

俺也一样

9个月前无记录

回复
猫元素素读者

吃的，很吃工程力，尤其是benchmark大家都在卷廉价劳动力

9个月前无记录

回复
凯读者

有真实use case更有意义，目前哪些用户关注safety？我不懂这个领域

9个月前无记录

回复
小山竹读者

[g=zhuakuang] 博主想说的应该是security吧，列如prompt injection，safety主要是指alignment

9个月前无记录

回复
烟消云散读者

老师我不太理解agent safety的场景，如果担心它对系统产生损害，可以在设计的时候就不要把对系统的操作加进来吗？或者替换成对相关人员的提示，让相关人员去操作。还是说担心某个用户的prompt里面包含什么程序代码这种嵌入攻击呢？这种的话就在设计的时候让agent不要有直接执行代码的function是不是可以解决捏纯小白请教一下

9个月前无记录

回复
小昕星_ 投稿者

感谢题主发帖，浅浅和您交流一下。Agent 的核心优势在于为各个领域赋能，因此其安全机制也应结合领域特有的安全属性来设计。对于可部署的 Agent 安全，正如题主所述，监控并拦截不安全行为是首要目标，还需权衡两方面的开销：时间成本：依赖大模型直接判断往往会引入显著的推理延迟；

9个月前无记录

回复
时序褶皱投稿者

赞一个！！！也想研究gui agent [g=woshou]

9个月前无记录

回复
晨起心香读者

能力保真：安全机制不应显著削弱 Agent 原有能力。极端情况下，如果让 Agent 一开始就不执行任何任务，虽然安全性可达 100%，但系统可用性将降为零。我们的工作在此背景下提出了一种基于 DSL 的可定制化运行时约束框架，并已在 LangChain 上实现（详见 arXiv:2503.18666）。该框架能够灵活地将领域特定的安全规则嵌入 Agent 执行流程，在降低额外开销的同时，最大化保留原有能力。欢迎大家交流讨论

9个月前无记录

回复
TooSadBoy 投稿者

搞agent还是比较吃资源和工程水平的，学校里搞，不容易卷得过大厂，即便安全方向，也是各大厂落地agent的一个板块

9个月前无记录

回复
互联网小园投稿者

很有意思感觉1）叫做verification cost更合适一些

9个月前无记录

回复
風和日喧读者

可以，但相比于限制功能，全流程自动化效率太高了，大家会希望 agent 能力越多越好自动化越强越好（列如许多人用 coding agent 可能不仔细看就直接哐哐哐按同意了，结果就出现了xhs上rm -rf的笑话）。所以在这个强烈的商业动机下可能还是要在端侧有一层安全保护，由于用户不能确保一个看起来质量高速度快的 agent 服务有没有什么漏洞。

9个月前无记录

回复
平常心读者

MLA-Trust: Benchmarking Trustworthiness of Multimodal LLM Agents in GUI Environments，自荐一下我们最近做的关于gui agent可信的文章

9个月前无记录

回复
张弘扬Art 投稿者

Agent defense是一个很好的topic，兼顾research和工程，可以看下这篇ALRPHFS: Adversarially Learned Risk Patterns with Hierarchical Fast & Slow Reasoning for Robust Agent Defense

9个月前无记录

回复
黑色的书包读者

正在筹划做这方向的课题，直接follow住坐等第二集

9个月前无记录

回复

AI Safety 方向分析 (1)

没有更多了...

没有更多了...

相关文章

14 条评论

热门网站

3699小游戏

小苹果网页助手

盐言故事

5173网络游戏服务网

当当网

视界网——重庆网络广播电视台

热门文章

昆廷夫夫日常合集：昆廷夫妇全集免费直通车1080P超速播-未删减百度云秒拉缓存-高清画质自由看-可影视全网极速播放昆廷夫夫日常合集-昆廷夫妇全集在线点播免VIP高清未删减版-可影视秒播

#chatgpt

[理论篇-10]AI 工作流（AI Workflow）—— 让 AI 像流水线一样干活

告警：线上慎用 BigDecimal，坑的差点被开了…

硬路由+OpenWrt旁路由打造家庭网络，稳定性能与功能灵活性的兼顾

非国行iPhone中文AI教程！

AI Safety 方向分析 (1)

没有更多了...

没有更多了...

相关文章

14 条评论

热门网站

3699小游戏

小苹果网页助手

盐言故事

5173网络游戏服务网

当当网

视界网——重庆网络广播电视台

热门文章

昆廷夫夫日常合集：昆廷夫妇全集免费直通车1080P超速播-未删减百度云秒拉缓存-高清画质自由看-可影视全网极速播放昆廷夫夫日常合集-昆廷夫妇全集在线点播免VIP高清未删减版-可影视秒播

#chatgpt

[理论篇-10]AI 工作流（AI Workflow）—— 让 AI 像流水线一样干活

告警：线上慎用 BigDecimal，坑的差点被开了…

硬路由+OpenWrt旁路由打造家庭网络，稳定性能与功能灵活性的兼顾

非国行iPhone中文AI教程！

标签云