GPT图像生成 × Seedance 2.0：零基础做AI动漫剧的完整工作流

内容分享2小时前发布

0 1 0

全能 AI 聚合平台免费

一站式接入主流 AI 大模型，支持对话 · 生图 · 生视频，即开即用

ChatGPT Claude Gemini Grok DeepSeek 通义千问 Ollama

AI对话 AI生图 AI视频

免费使用 →

GPT图像生成 × Seedance 2.0：零基础做AI动漫剧的完整工作流

不会画画、不会动画、不会剪辑——但目前，你可以在一个下午做出3分钟的AI动漫短片。

AI 视频生成在过去一年里卷出了新高度。从 Runway 到 Sora，从可灵到 Seedance，每隔几个月就有一个更强的模型冒出来。

但单个模型的”文生视频”总有天花板：画面一致性差、角色容易崩、场景切换生硬。

最近，日本开发者 @onofumi_AI 分享了一套被大量验证的”铁板组合”——GPT 图像生成 + Seedance 2.0。核心思路一句话：先让 GPT 画出完整故事板，再让 Seedance 逐格动起来。

这篇文章把整个工作流拆开揉碎讲清楚。

为什么是 GPT + Seedance？

先理解各自的角色：

环节	工具	它做什么
视觉设计	GPT (4o 图像生成)	一次性生成 3×3 故事板，9个格子共享统一画风、色调、角色特征
动态演绎	Seedance 2.0 (豆包/即梦)	对故事板中的每一格分别生成视频片段，保持视觉连贯
后期合成	剪映 / Premiere / FFmpeg	拼接片段、添加配音和字幕

这个组合的核心优势：

1. 角色一致性：GPT 在一张图中生成 9 个格子，所有格子天然共享同一套视觉参数——人脸、服装、场景风格不会跳来跳去。
2. 分镜可控：你可以在 prompt 里准确描述每一格的内容和构图，而不是让 AI 随机发挥。
3. 效率极高：一张图 = 9 个分镜，几分钟出完整故事板。视频生成环节再并行处理。

对比传统的”逐帧手搓 prompt”方式，这套流程把可控性提升了一个数量级。

四步实操：从想法到成片

第一步：写好你的”一句话故事”

这不是 prompt——这是种子。写清楚三件事：

• 主角是谁（性别、年龄、外形特征、穿着）
• 故事是什么（核心冲突或情感弧线，一两句话）
• 想要什么风格（日漫/美漫/吉卜力/新海诚/赛博朋克）

列如：

一个戴圆框眼镜的短发女孩，在雨夜的东京街头寻找失踪的猫。吉卜力风格，暖黄色调，情感细腻。

越具体越好。AI 不擅长”猜测”，但它超级擅长”执行”。

第二步：让 GPT 生成 3×3 故事板

这是整个流程中最关键的环节。把上面的”一句话故事”加上这个魔法提示词：

              以 3×3 网格形式创建故事板。

[这里粘贴你的故事描述]

每个格子标注格子编号（1-9），每个格子是一个独立的分镜画面。
要求：
- 所有格子保持统一的角色形象和画风
- 覆盖开场→发展→高潮→结尾的完整叙事弧线
- 镜头景别要有变化（特写、中景、远景交替）
- 画面构图留出适当空间，便于后续转视频

GPT 会生成一张包含 9 个格子的故事板图片。每个格子是一个独立的分镜，但整体色调、角色、风格保持一致。

拿到这张图后，你的”导演工作”才刚开始：

• 检查角色是否在每个格子里长得一样
• 检查叙事节奏是否合理
• 检查镜头语言是否有起伏
• 不好的格子可以单独让 GPT 重新生成

第三步：为每一格写视频提示词

有了故事板之后，不要急着直接拿去生成视频。先基于每一格的内容，补充视频动作描述。

格式参考：

              格子1（开场）：镜头从城市全景缓慢推入，雨水顺着霓虹招牌滑落，镜头下摇至湿漉漉的街道，女孩从远处走入画面，撑透明雨伞。
动作：推镜头 + 下摇
时长：约5秒

格子2（中景）：女孩蹲在便利店门口，手伸向角落里的橙色小猫。猫咪警惕地往后缩。头发被雨水打湿贴在脸上。
动作：轻微推近，猫咪有微小的后退动作
时长：约4秒

要点：

• 补充 镜头运动（推拉摇移）
• 补充 画面内动素（雨滴、头发飘动、猫咪动作）
• 控制节奏（安静的画面 4-5 秒，冲突画面 2-3 秒）
• 保持 风格标签 一致（”吉卜力风，暖黄调”在每格里都要出现）

第四步：Seedance 逐格生成视频

Seedance 2.0 支持图生视频 + 参考图模式。这一步的配置：

1. 上传参考图：上传 GPT 生成的 3×3 故事板原图作为角色/风格参考
2. 输入动作提示词：粘贴第三步写好的动作描述
3. 调整参数：• 运动幅度：中偏小（太大容易崩角色）• 时长：4-5 秒/段（太长一致性会下降）• 分辨率：1080P 起步

逐格生成 9 段视频后，用剪映或 Premiere 拼接，加上配音和字幕，成品就出来了。

常见问题与解决方案

Q1：角色在不同格子里长得不完全一样怎么办？

缘由：3×3 网格的 prompt 对角色一致性有必定容忍度，但不是 100% 保证。

解决方案：

• 在生成故事板之前，先单独让 GPT 生成一张 角色设定图（正面、侧面、全身），确保一次成型
• 然后把这张角色设定图作为 GPT 图像生成的参考上传（GPT 4o 支持参考图模式）
• 网格数量可以思考缩减到 2×2 或 1×3，减少一致性压力

Q2：Seedance 生成的视频”量产感”太重怎么办？

@onofumi_AI 在推文中也提到了这个局限——画面自由度不高，容易显得千篇一律。

解决方案：

• 减少网格数量：3×3 的镜头语言天然趋同，试试分两次做 2×2
• 手动注入变化：在视频 prompt 里加入强制的镜头变化——”急推”、”手持晃动感”、”跳切”这些比”缓慢推近”更有个性
• 后期调色：所有片段统一调色可以弥补风格上的细微差异

Q3：场景多的时候镜头调度很差？

缘由：故事板是静态图像，Seedance 对复杂的摄像机运动理解有限。

解决方案：

• 让 GPT 单独生成场景概念图（不包含在故事板网格里），作为 Seedance 的额外参考
• 在视频 prompt 中明确排除复杂镜头：”固定机位，仅画面内元素运动，无摄像机运动”
• 必要时放弃 Seedance，改用可灵或 Runway 处理运动复杂的场景

进阶思路：不止于 3×3

这个工作流的核心并不是”3×3 网格”这个具体形式，而是 “先锁定视觉，再注入运动” 的思路。

你可以把它扩展到：

• 角色一致性：用 GPT 生成角色的 6 个情绪表情 → 作为 Seedance 的角色表情参考库
• 场景切换：用 GPT 生成同一场景的日夜/晴雨变体 → Seedance 生成场景过渡
• 开场/结尾：单独用高分辨率图 + Seedance 做出电影级片头片尾
• 音画同步：先做视频，再根据画面节奏选择 BGM，反过来又可以根据 BGM 节拍调整视频剪辑

工具链一览

环节	工具	费用
故事板生成	GPT-4o / ChatGPT Plus	$20/月
视频生成	Seedance 2.0（火山引擎/即梦）	按量付费，新用户有免费额度
AI 配音	Edge TTS / Azure Speech / ElevenLabs	免费到付费不等
音频后期	FFmpeg / Audacity	免费
视频剪辑	剪映 / Premiere / DaVinci Resolve	免费到付费