港大开源炸裂神器ViMax：一句话自动拍短片，剪辑师真要失业了？

内容分享2个月前发布

3 1 0

打工人的痛，AI又捅了一刀。这次不是写文案、做PPT，而是——拍视频。

你只需要输入一句话，AI就能自动完成编剧、分镜、拍摄、剪辑全流程，直接输出一部完整短片。这不是科幻，是香港大学黄超教授团队刚刚开源的ViMax框架。

目前ViMax在GitHub上已获得2.3k+星标，325+次代码提交，社区活跃度持续攀升。先冷静一下，我们来客观看看这个项目到底有多强、有什么坑。

一、项目介绍：不止是工具，这是一个AI制作团队

ViMax是由香港大学数据科学团队（HKUDS）研发的多智能体视频生成框架。

它不是简单的“文字转视频”工具，而是将导演、编剧、制片人和视频生成器整合到一个智能系统中。

现有AI视频工具的三大死穴：

· 只能生成3-5秒片段：想做一条完整短片？手动拼接几十段吧，工作量巨大。

· 角色和场景“变脸” ：这一秒穿红衣服，下一秒变蓝衣服——这是行业通病，长视频中角色识别错误率甚至高达41%。

· 只有画面没有故事：缺乏完整叙事结构，看完了也不知道在讲什么。

ViMax的核心思路就是模拟人类影视创作的完整流程，用多智能体协同工作来逐个击破上述痛点：

1. 编剧智能体：把你的想法变成专业剧本。

2. 分镜智能体：设计镜头语言和拍摄角度，引入专业电影制作理论。

3. 视觉智能体：生成角色和场景画面，采用“先图后视频”策略确保风格统一。

4. 质检智能体：同步产出多版本，用视觉语言模型筛选最优结果。

5. 导演智能体：统筹协调全流程，确保风格和任务同步。

一句话总结：你只需提供创意，剩下的事全部交给这个AI团队。

二、四大核心创作模式

ViMax提供了四种模式，覆盖从灵感到成品的各种场景：

1. Idea2Video（创意成片）：用自然语言描述想法，如“一只猫和狗是好朋友，遇到新猫咪后的故事”，补充“面向儿童、不超过3个场景”的简单要求，自动完成全部流程。

2. Novel2Video（小说转视频）：把长篇文学作品智能压缩、角色追踪、逐场景视觉改编，转化为分集视频内容。

3. Script2Video（剧本成片）：上传完整剧本，准确掌控视觉叙事的每个方面。

4. AutoCameo（照片客串）：上传自己或宠物的照片，直接变成视频中的角色！

三、技术架构：中央调度 + 专业分工

面对复杂的长视频制作，ViMax采用 “事件-场景-镜头”三层分解策略——事件层确定主要情节节点，场景层规划每个事件发生的场景，镜头层设计具体的拍摄角度和画面。

同时集成检索增强生成（RAG）技术，在剧本分解和内容生成的每个阶段动态检索背景知识库信息，确保角色性格前后一致、情节逻辑不出漏洞。

在镜头生成环节，ViMax构建了视觉元素依赖关系图，智能决定哪些镜头可以并行生成，哪些需要按序进行。

对于同一场景的多角度镜头，先生成视角间平滑过渡视频作为几何基准，确保空间关系严格一致。

支持的底层模型： ViMax可调用Google Veo、豆包Seedance等主流视频生成模型，聊天模型支持Google Gemini 2.5、MiniMax-M2.7等多种选择。

四、优点和不足

优点：

· 真正端到端：从创意到成片无需人工干预，省去剧本撰写、分镜设计、镜头拼接等繁琐步骤。

· 一致性强：通过参考图管理和VLM视觉校验，确保长视频中角色、场景、风格保持统一。

· 门槛极低：无需影视制作经验，自然语言描述即可生成符合影视语言的结构化视频。

· 完全开源免费：遵循MIT许可证，支持自由使用、修改和分发。

· 模式丰富：支持四种创作模式，覆盖灵感、小说、剧本、照片等多种输入方式。

不足：

· 依赖云端API：需要配置Google Veo、Gemini等API密钥，这些API一般需要付费，且部分在国内访问受限。

· 生成速度慢：几分钟的视频可能需要几十分钟甚至更久。

· 质量受限于底层模型：ViMax本质上是一个调度框架，最终画质取决于调用的视频生成模型能力。

· 硬件要求不低：提议8GB以上GPU显存，纯CPU运行体验较差。

· 不支持音频生成：目前生成的是无声视频，音频需后期添加。

· 社区和生态尚在早期：虽然更新活跃，但插件的丰富程度远不及商业软件。

五、适用人群、使用场景

什么人最适合用ViMax？

1. 内容创作者：快速将创意转化为短视频，用于社交媒体平台（如抖音、B站等）。

2. 教育工作者：将复杂教学内容转化为生动视频。

3. 文学创作者：将小说章节可视化，为文学作品提供新的传播形式。

4. 营销人员：基于产品描述自动生成广告宣传片。

5. 普通用户：制作个人故事视频、宠物视频，用于个人纪念或分享。

什么人不适合？

· 需要快速批量产出大量短视频的运营人员——生成速度目前跟不上。

· 对画质有电影级要求的专业人士——最终视频质量受底层模型限制。

· 不方便配置国外API的用户——主要依赖Google系列API，国内网络环境有门槛。

六、保姆级安装教程

环境准备

· 操作系统：Linux 或 Windows

· Python 3.10以上

· 足够的GPU显存（提议8GB以上）

· 配置对应的API密钥：Google Veo（视频生成）、Gemini（聊天模型）、OpenRouter（可选）

步骤一：克隆仓库与安装依赖

ViMax使用uv包管理器（注意不是pip），需先安装uv：

“`bash

# 安装uv（如已安装可跳过）

# macOS/Linux:

curl -LsSf https://astral.sh/uv/install.sh | sh

# Windows:

powershell -c “irm https://astral.sh/uv/install.ps1 | iex”

# 克隆项目

git clone https://github.com/HKUDS/ViMax.git

cd ViMax

# 安装依赖（uv自动管理虚拟环境）

uv sync

“`

步骤二：配置API密钥

编辑configs/idea2video.yaml，配置三个核心组件：

“`yaml

chat_model:

init_args:

model: google/gemini-2.5-flash-lite-preview-09-2025

model_provider: openai

api_key: “你的API密钥”

base_url: https://openrouter.ai/api/v1

image_generator:

class_path: tools.ImageGeneratorNanobananaGoogleAPI

init_args:

api_key: “你的API密钥”

video_generator:

class_path: tools.VideoGeneratorVeoGoogleAPI

init_args:

api_key: “你的API密钥”

working_dir: .working_dir/idea2video

“`

温馨提示：也可以用MiniMax作为聊天模型替代方案，配置详见
configs/idea2video_minimax.yaml。

步骤三：修改创意脚本

在main_idea2video.py中设置你的创意：

“`python

idea = “””如果一只猫和一只狗是最好的朋友，遇到一只新猫会发生什么？”””

user_requirement = “””面向儿童，不超过3个场景。”””

style = “Cartoon”

“`

步骤四：运行

“`bash

# Idea2Video 模式

python main_idea2video.py

# Script2Video 模式

python main_script2video.py

“`

运行后，ViMax会自动完成从创意到视频的整个流程，最终输出完整的视频文件。

常见问题排查

问题解决方法

API调用失败检查API密钥是否正确、余额是否充足

视频生成超时长视频生成耗时较长，耐心等待或减少场景数

依赖安装报错确认Python版本≥3.10，uv版本最新

七、ViMax到底改变了什么？

ViMax代表了一种新范式：不是让AI只负责生成画面，而是让AI理解故事、规划镜头、保持一致性，真正成为创作伙伴。

它解决了AI视频生成领域的几个核心难题：片段短、一致性差、缺乏叙事深度。

更值得关注的是它的工程思路——把复杂的视频制作流程拆解为可并行的子任务，用专业智能体各司其职，再通过中央调度系统统筹。

这种思路不仅适用于视频生成，也为其他AI自动化工作流提供了参考。

当然，目前的技术还在快速发展中，生成速度、视频质量、硬件要求等方面都还有提升空间。

但可以预见，随着底层视频生成模型能力的持续突破，这类“多智能体调度框架”的价值会越来越大——它让普通人也能拥有一个24小时待命的AI导演团队。

如果你觉得这篇文章对你有协助，欢迎点赞、收藏、转发！关注我，获取更多AI工具的深度解读和实战指南。你还想了解哪些AI视频生成工具？评论区告知我！

内容分享

文章版权归作者所有，未经允许请勿转载。

当我把B站视频链接导入AI软件后…

9个月前

020

本地部署 DeepSeek Janus Pro 文生图大模型

内容分享

8个月前

6180

读Delphi面向对象编程思想一

内容分享

3个月前

840

display: none和visibility: hidden的区别

内容分享

8个月前

170

1 条评论

暂无评论...

港大开源炸裂神器ViMax：一句话自动拍短片，剪辑师真要失业了？

一、项目介绍：不止是工具，这是一个AI制作团队

二、四大核心创作模式

三、技术架构：中央调度 + 专业分工

四、优点和不足

五、适用人群、使用场景

六、保姆级安装教程

七、ViMax到底改变了什么？

半年内流量增长5倍，又一个华人创建的生图产品月访问量上千万？

Google Veo 3做到了一件其他AI视频工具都没做到的事

相关文章

当我把B站视频链接导入AI软件后…

本地部署 DeepSeek Janus Pro 文生图大模型

读Delphi面向对象编程思想一

display: none和visibility: hidden的区别

1 条评论

热门网站

3699小游戏

中国版首页

盼之代售

小苹果网页助手

商丘网 —— 商丘网络第一媒体

Shopee

热门文章

前端人必看！10 个 Vue3 救命技巧，专治性能差、代码乱

常用的电脑操作系统快捷键，有没有你喜欢的

deepseek又被遥遥领先了？

前端基础：从输入URL到看到页面发生了什么？详细描述整个过程

苹果备份文件在哪里？iPhone使用技巧

前端框架LayUI介绍及用法

港大开源炸裂神器ViMax：一句话自动拍短片，剪辑师真要失业了？

一、项目介绍：不止是工具，这是一个AI制作团队

二、四大核心创作模式

三、技术架构：中央调度 + 专业分工

四、优点和不足

五、适用人群、使用场景

六、保姆级安装教程

七、ViMax到底改变了什么？

半年内流量增长5倍，又一个华人创建的生图产品月访问量上千万？

Google Veo 3做到了一件其他AI视频工具都没做到的事

相关文章

热门网站

3699小游戏

中国版首页

盼之代售

小苹果网页助手

商丘网 —— 商丘网络第一媒体

Shopee

热门文章

标签云