部署教程:OmniParser V2框架一句话让DeepSeek帮你干活办公

一、框架定位:从“脑补”到“透视”的GUI交互革命

OmniParser V2是微软推出的多模态界面解析引擎,通过将屏幕像素信息转化为结构化语义数据,让DeepSeek等大语言模型(LLM)获得“视觉理解力”,实现从自然语言指令到精准界面操作的无缝衔接。其核心价值在于:用一句话描述任务目标,AI即可自主解析屏幕元素、规划操作路径并执行(如“整理本月销售数据至Excel表”)。

二、部署过程

1.软件下载和准备

(1)OmniParser下载

官网下载:
https://microsoft.github.io/OmniParser/

部署教程:OmniParser V2框架一句话让DeepSeek帮你干活办公

github下载:
https://github.com/microsoft/OmniParser

部署教程:OmniParser V2框架一句话让DeepSeek帮你干活办公

(2)OmniParser权重文件下载

权重文件较大,用官网的方式下载容易出错,提议下载好使用。
https://huggingface.co/microsoft/OmniParser-v2.0/tree/main

部署教程:OmniParser V2框架一句话让DeepSeek帮你干活办公

(3)Anaconda环境下载

官网给出使用conda命令配置python环境,需要你自己安装Anaconda环境,下载后直接安装就行,注意添加环境变量。注册下载,实在找不到私信我,发你安装包。

下载地址:https://anaconda.org/

2.安装过程

安装过程中除了部署环境需要安装下三个工具,分别是omniparserver服务器,omnibox一个docker虚拟机,gradio是一个可视化UI交互工具,用于执行命令并在omnibox中查看结果。

2.1 omniparser服务器

部署教程:OmniParser V2框架一句话让DeepSeek帮你干活办公

步骤一:部署omniparserver服务器,第一新建文件夹OmniParser,将下载的OmniParser文件解压到文件夹中。

部署教程:OmniParser V2框架一句话让DeepSeek帮你干活办公

步骤二:安装Anaconda软件后,打开Anaconda Prompt命令行,运行命令:

cd OmniParser

conda create -n “omni” python==3.12

conda activate omni

pip install -r requirements.txt

部署教程:OmniParser V2框架一句话让DeepSeek帮你干活办公

步骤三:执行命令conda activate omni,激活python环境。

步骤四:下载权重文件,将权重文件下载到OmniPaser中,新建weighs文件夹,这一步官网命令复杂,下载速度慢,所以我下载下来复制到文件夹icon_detect和icon_caption中,将 weights 目录中的 icon_caption 文件夹重命名为 icon_caption_florence,从而完成文件夹名称的更改。

步骤五:运行python gradio_demo.py

步骤六:打开终端输出中的 URL,我的地址是http://0.0.0.0:7861/,能打开说明安装成功。

注意:部署过程中下载文件有些需要用代理或梯子,但是在运行demo时候需要把代理关闭,否则会报网络连接错误。

2.2 OmniBox 安装

步骤一: 确保剩余 30GB 的空间,需要至少 30GB 的空闲空间: 5GB 用于 ISO 文件 400MB 用于 Docker 容器 20GB 用于存储文件夹

步骤二:下载并安装 Docker Desktop。

步骤三:下载 Windows 11 Enterprise Evaluation ISO 文件,访问 Microsoft Evaluation Center,接受服务条款,下载 Windows 11 Enterprise Evaluation(90 天试用版,英文,适用于美国地区)ISO 文件(大约 6GB)。将下载的 ISO 文件重命名为 custom.iso 并复制到
OmniParser/omnitool/omnibox/vm/win11iso 目录下。

步骤四:导航到虚拟机管理脚本目录运行命令:cd
OmniParser/omnitool/omnibox/scripts

步骤五:构建 Docker 容器并安装 ISO,运行命令:./manage_vm.sh create这个过程将会创建 Docker 容器并将 ISO 文件安装到存储文件夹中(需要约 20GB 空间)。该过程可能需要 20 至 90 分钟,具体取决于下载速度(一般约 60 分钟),完成后,终端会显示“VM + server is up and running!”。你可以通过 NoVNC 视图查看 VM 中安装的应用程序,访问链接:
http://localhost:8006/vnc.html?view_only=1&autoconnect=1&resize=scale。请注意,终端窗口在设置完成后不会出目前桌面上。如果看到终端窗口,请耐心等待,不要随意点击。

步骤六: 管理 VM,创建第一次后,VM 状态将保存在 vm/win11storage 目录下。之后可以使用以下命令管理 VM: 启动 VM:./manage_vm.sh start 停止 VM:./manage_vm.sh stop 删除 VM:./manage_vm.sh delete 并删除
OmniParser/omnitool/omnibox/vm/win11storage 目录。

2.3 Gradio 安装

步骤一:导航到 Gradio 目录运行命令:cd
OmniParser/omnitool/gradio

步骤二:激活 Conda Python 环境运行命令:conda activate omni

步骤三:启动服务器运行命令:
python app.py –windows_host_url localhost:8006 –omniparser_server_url localhost:8000

步骤四:打开终端输出中的 URL:设置你的 API 密钥并开始使用 AI 代理。这样就完成了 OmniBox 和 Gradio 的安装和配置。你可以通过 NoVNC 查看 VM 中的应用程序,或者在 Gradio 页面中进行交互。

总结下载,这个还是有必定的技术门槛,我部署调试大致花了两天,只是跑通了官方案例,具体实际使用可能后续还得练习,后续会持续更新使用效果。部署过程中如果有文件下载不了可以问我要。

装完发现页面和这个地址是一样的,大家也可以在线先体验一下,看能用习惯不。

https://huggingface.co/spaces/microsoft/OmniParser

© 版权声明

相关文章

17 条评论

  • 头像
    不再流浪 读者

    mac不,用vllm搭的agent

    无记录
    回复
  • 头像
    币神 读者

    是的,我用window系统部署的

    无记录
    回复
  • 头像
    葉入百万- 读者

    效果咋样,我用2.0的模型计算图片时会异常

    无记录
    回复
  • 头像
    网上购买 读者

    效果没问题,看我主页文章,挺好的

    无记录
    回复
  • 头像
    妞和我家乐事 读者

    坑可多了

    无记录
    回复
  • 头像
    如果当时回头 读者

    你是指安装吗,这个主要是下载得用代理,国内网下载不了,确实耗费了不少时间

    无记录
    回复
  • 头像
    独角创意 读者

    效果怎样?跟v1有啥区别?

    无记录
    回复
  • 头像
    肥宅薛定谔 读者

    没用过v1,效果等我这两天详细测试一下回复您

    无记录
    回复
  • 头像
    7w3oo 读者

    呵呵,最后老板不需要你了,把你炒了

    无记录
    回复
  • 头像
    骜婧 读者

    有点追求,咋不是你自己当老板呢,呵呵

    无记录
    回复
  • 头像
    谢谢大家关心我 读者

    加班加点弄出来部署教程

    无记录
    回复
  • 头像
    勇哥教发声 读者

    操作使用视频过几天录制,今天搞不动了

    无记录
    回复
  • 头像
    追忆流年似水 读者

    我已经发了体验视频

    无记录
    回复
  • 头像
    海纳百川帅 读者

    大佬带带我👏

    无记录
    回复
  • 头像
    视频下载 读者

    好酷,想试试😎

    无记录
    回复
  • 头像
    一只鱼的大海 读者

    可以的话大家点个关注,后续持续更新智能相关文章

    无记录
    回复
  • 头像
    四合院 读者

    收藏了,感谢分享

    无记录
    回复