GPT图像生成 × Seedance 2.0:零基础做AI动漫剧的完整工作流
不会画画、不会动画、不会剪辑——但目前,你可以在一个下午做出3分钟的AI动漫短片。
AI 视频生成在过去一年里卷出了新高度。从 Runway 到 Sora,从可灵到 Seedance,每隔几个月就有一个更强的模型冒出来。
但单个模型的”文生视频”总有天花板:画面一致性差、角色容易崩、场景切换生硬。
最近,日本开发者 @onofumi_AI 分享了一套被大量验证的”铁板组合”——GPT 图像生成 + Seedance 2.0。核心思路一句话:先让 GPT 画出完整故事板,再让 Seedance 逐格动起来。
这篇文章把整个工作流拆开揉碎讲清楚。
为什么是 GPT + Seedance?
先理解各自的角色:
|
环节 |
工具 |
它做什么 |
|
视觉设计 |
GPT (4o 图像生成) |
一次性生成 3×3 故事板,9个格子共享统一画风、色调、角色特征 |
|
动态演绎 |
Seedance 2.0 (豆包/即梦) |
对故事板中的每一格分别生成视频片段,保持视觉连贯 |
|
后期合成 |
剪映 / Premiere / FFmpeg |
拼接片段、添加配音和字幕 |
这个组合的核心优势:
- 1. 角色一致性:GPT 在一张图中生成 9 个格子,所有格子天然共享同一套视觉参数——人脸、服装、场景风格不会跳来跳去。
- 2. 分镜可控:你可以在 prompt 里准确描述每一格的内容和构图,而不是让 AI 随机发挥。
- 3. 效率极高:一张图 = 9 个分镜,几分钟出完整故事板。视频生成环节再并行处理。
对比传统的”逐帧手搓 prompt”方式,这套流程把可控性提升了一个数量级。
四步实操:从想法到成片
第一步:写好你的”一句话故事”
这不是 prompt——这是种子。写清楚三件事:
- • 主角是谁(性别、年龄、外形特征、穿着)
- • 故事是什么(核心冲突或情感弧线,一两句话)
- • 想要什么风格(日漫/美漫/吉卜力/新海诚/赛博朋克)
列如:
一个戴圆框眼镜的短发女孩,在雨夜的东京街头寻找失踪的猫。吉卜力风格,暖黄色调,情感细腻。
越具体越好。AI 不擅长”猜测”,但它超级擅长”执行”。
第二步:让 GPT 生成 3×3 故事板
这是整个流程中最关键的环节。把上面的”一句话故事”加上这个魔法提示词:
以 3×3 网格形式创建故事板。
[这里粘贴你的故事描述]
每个格子标注格子编号(1-9),每个格子是一个独立的分镜画面。
要求:
- 所有格子保持统一的角色形象和画风
- 覆盖开场→发展→高潮→结尾的完整叙事弧线
- 镜头景别要有变化(特写、中景、远景交替)
- 画面构图留出适当空间,便于后续转视频
GPT 会生成一张包含 9 个格子的故事板图片。每个格子是一个独立的分镜,但整体色调、角色、风格保持一致。
拿到这张图后,你的”导演工作”才刚开始:
- • 检查角色是否在每个格子里长得一样
- • 检查叙事节奏是否合理
- • 检查镜头语言是否有起伏
- • 不好的格子可以单独让 GPT 重新生成
第三步:为每一格写视频提示词
有了故事板之后,不要急着直接拿去生成视频。先基于每一格的内容,补充视频动作描述。
格式参考:
格子1(开场):镜头从城市全景缓慢推入,雨水顺着霓虹招牌滑落,镜头下摇至湿漉漉的街道,女孩从远处走入画面,撑透明雨伞。
动作:推镜头 + 下摇
时长:约5秒
格子2(中景):女孩蹲在便利店门口,手伸向角落里的橙色小猫。猫咪警惕地往后缩。头发被雨水打湿贴在脸上。
动作:轻微推近,猫咪有微小的后退动作
时长:约4秒
要点:
- • 补充 镜头运动(推拉摇移)
- • 补充 画面内动素(雨滴、头发飘动、猫咪动作)
- • 控制 节奏(安静的画面 4-5 秒,冲突画面 2-3 秒)
- • 保持 风格标签 一致(”吉卜力风,暖黄调”在每格里都要出现)
第四步:Seedance 逐格生成视频
Seedance 2.0 支持图生视频 + 参考图模式。这一步的配置:
- 1. 上传参考图:上传 GPT 生成的 3×3 故事板原图作为角色/风格参考
- 2. 输入动作提示词:粘贴第三步写好的动作描述
- 3. 调整参数:• 运动幅度:中偏小(太大容易崩角色)• 时长:4-5 秒/段(太长一致性会下降)• 分辨率:1080P 起步
逐格生成 9 段视频后,用剪映或 Premiere 拼接,加上配音和字幕,成品就出来了。
常见问题与解决方案
Q1:角色在不同格子里长得不完全一样怎么办?
缘由:3×3 网格的 prompt 对角色一致性有必定容忍度,但不是 100% 保证。
解决方案:
- • 在生成故事板之前,先单独让 GPT 生成一张 角色设定图(正面、侧面、全身),确保一次成型
- • 然后把这张角色设定图作为 GPT 图像生成的参考上传(GPT 4o 支持参考图模式)
- • 网格数量可以思考缩减到 2×2 或 1×3,减少一致性压力
Q2:Seedance 生成的视频”量产感”太重怎么办?
@onofumi_AI 在推文中也提到了这个局限——画面自由度不高,容易显得千篇一律。
解决方案:
- • 减少网格数量:3×3 的镜头语言天然趋同,试试分两次做 2×2
- • 手动注入变化:在视频 prompt 里加入强制的镜头变化——”急推”、”手持晃动感”、”跳切”这些比”缓慢推近”更有个性
- • 后期调色:所有片段统一调色可以弥补风格上的细微差异
Q3:场景多的时候镜头调度很差?
缘由:故事板是静态图像,Seedance 对复杂的摄像机运动理解有限。
解决方案:
- • 让 GPT 单独生成场景概念图(不包含在故事板网格里),作为 Seedance 的额外参考
- • 在视频 prompt 中明确排除复杂镜头:”固定机位,仅画面内元素运动,无摄像机运动”
- • 必要时放弃 Seedance,改用可灵或 Runway 处理运动复杂的场景
进阶思路:不止于 3×3
这个工作流的核心并不是”3×3 网格”这个具体形式,而是 “先锁定视觉,再注入运动” 的思路。
你可以把它扩展到:
- • 角色一致性:用 GPT 生成角色的 6 个情绪表情 → 作为 Seedance 的角色表情参考库
- • 场景切换:用 GPT 生成同一场景的日夜/晴雨变体 → Seedance 生成场景过渡
- • 开场/结尾:单独用高分辨率图 + Seedance 做出电影级片头片尾
- • 音画同步:先做视频,再根据画面节奏选择 BGM,反过来又可以根据 BGM 节拍调整视频剪辑
工具链一览
|
环节 |
工具 |
费用 |
|
故事板生成 |
GPT-4o / ChatGPT Plus |
$20/月 |
|
视频生成 |
Seedance 2.0(火山引擎/即梦) |
按量付费,新用户有免费额度 |
|
AI 配音 |
Edge TTS / Azure Speech / ElevenLabs |
免费到付费不等 |
|
音频后期 |
FFmpeg / Audacity |
免费 |
|
视频剪辑 |
剪映 / Premiere / DaVinci Resolve |
免费到付费 |
如果你持有 ChatGPT Plus 订阅,整个流程的边际成本几乎为零——Seedance 的新用户免费额度足够你试 2-3 条短片。
写在最后
@onofumi_AI 这个工作流的价值在于,它把 AI 视频从”抽卡”变成了”导演”。
你不再是给 AI 丢一个 prompt 然后祈祷结果能用。你在控制叙事,控制角色,控制节奏。AI 做的只是最枯燥的渲染工作。
当然,它产出的东西离”电影级”还有距离——但作为个人创作者,从零到有这个跨越,已经足够大了。
你试过用 AI 做动漫短片吗?用了什么工具组合?评论区聊聊
Seedance 体验:
https://console.volcengine.com/ark/