前面几篇我们搞定了文档处理、图片生成。
目前,短视频是最有传播力的内容形式。
不需要剪映、不需要PR,一句话生成视频。
本篇我们来玩视频生成——让AI成为你的视频创作助手!
一、先看效果:一句话生成视频
之前我们展示了办公四件套,能一句话处理各种文档。
这一篇,我们把前面所有能力串联起来,输出完整视频:
文字/链接输入
↓
深度调研内容(deep-research)
↓
撰写解说词文案
↓
拆分场景,批量生图(image-service)
↓
生成配音+时间戳(tts)
↓
合成视频+字幕+片尾(video-creator)
↓
输出.mp4文件
一句话触发
帮我把这篇文章做成1分钟的短视频,讲清楚学了啥、能干啥、咋用
根据这个链接的内容,生成一个产品介绍视频
把这个故事做成儿童动画视频,风格可爱
执行过程
AI会自动调用多个Skill协作:
Step 1:理解内容
正在阅读文章/链接内容...
提取核心要点...
Step 2:撰写解说词
生成1分钟解说词文案...
约180字,覆盖:学了啥、能干啥、咋用、场景
Step 3:拆分场景,批量生图(image-service)
拆分为8个场景...
并发生成8张配图(16:9横版)
- 01_opening.png
- 02_problem.png
- ...
- 08_ending.png
Step 4:生成配音(tts_generator)
生成配音: narration.mp3
生成时间戳: narration.json
音频时长: 52秒
Step 5:计算时长,合成视频
根据时间戳计算每张图的duration...
生成视频配置: video_config.yaml
合成视频(带转场)...
烧录字幕...
拼接片尾...
添加BGM...
Step 6:输出结果
完成: output.mp4 (57.6秒)
二、核心能力
|
能力 |
说明 |
对应脚本 |
|
TTS配音 |
文字转语音,支持多种音色 |
tts_generator.py |
|
时间戳提取 |
准确到每句话的起止时间 |
tts_generator.py |
|
视频合成 |
图片+音频视频,带转场 |
video_maker.py |
|
字幕烧录 |
SRT/ASS字幕,底部居中 |
video_maker.py |
|
片尾拼接 |
自动拼接品牌片尾 |
video_maker.py |
|
BGM混合 |
背景音乐,可调音量 |
video_maker.py |
三、适用场景
|
场景 |
输入 |
产出 |
|
产品介绍 |
产品文档/链接 |
1-3分钟介绍视频 |
|
流程教学 |
教程文章 |
步骤讲解视频 |
|
动漫制作 |
故事剧本 |
风格统一的动画 |
|
插画解读 |
知识点 |
配图讲解视频 |
|
新闻播报 |
新闻列表 |
视频早报 |
|
绘本动画 |
儿童故事 |
有声绘本视频 |
四、视频生成流程
4.1 套娃流程(故事类视频)
对于故事/剧情类视频,采用三层套娃生成:
第一层:故事 拆分场景 并发生成场景主图(文生图)
第二层:每个场景主图 图生图拆出细镜头(保持角色一致)
第三层:生成配音 + 字幕 + 合成视频
4.2 简化流程(讲解类视频)
对于讲解/介绍类视频,可以简化为:
文案 批量生图 配音 合成视频
不需要细镜头拆分,每个知识点对应一张图即可。
五、支持的视频比例
|
比例 |
分辨率 |
适用场景 |
|
1:1 |
1024×1024 |
朋友圈、正方形 |
|
3:4 |
1080×1440 |
小红书、朋友圈 |
|
4:3 |
1440×1080 |
传统显示器 |
|
9:16 |
1080×1920 |
抖音、视频号、竖屏 |
|
16:9 |
1920×1080 |
B站、YouTube、横屏 |
六、实战案例
案例1:文章转视频
需求:把技术教程文章做成1分钟短视频。
操作:
把第四篇文章做成1分钟的视频简介,讲清楚:
- 学了啥
- 能干啥
- 咋用
- 场景是啥
用OpenCode风格配图,16:9横版
执行流程:
读取文章内容
↓
撰写180字解说词
↓
拆分8个场景,并发生图
↓
生成配音+时间戳
↓
计算时长分配
↓
合成视频+字幕+片尾
产出: output.mp4 (约60秒)
案例2:产品介绍视频
需求:根据产品文档生成介绍视频。
操作:
根据这个产品文档,生成一个2分钟的产品介绍视频:
- 核心功能亮点
- 使用场景
- 操作演示
风格:科技感,16:9横版
案例3:儿童绘本动画
需求:把儿童故事做成有声动画。
操作:
把这个小故事做成儿童动画视频:
故事:小兔子找萝卜
第1页:小兔子在森林里醒来
第2页:小兔子遇到了小松鼠
...
要求:
- 可爱水彩风格
- 角色一致(白色小兔子,穿蓝色背带裤)
- 9:16竖版
- 温柔女声配音
七、常用命令
TTS配音
# 基本用法
python tts_generator.py --text "文本内容" --output audio.mp3
# 带时间戳
python tts_generator.py --text "文本内容" --output audio.mp3 --timestamps
# 指定音色
python tts_generator.py --text "文本内容" --output audio.mp3
--voice zh-CN-XiaoxiaoNeural
视频合成
# 基本用法
python video_maker.py config.yaml
# 带字幕
python video_maker.py config.yaml --srt subtitles.srt
# 自定义转场
python video_maker.py config.yaml --fade 0.8
# 不加片尾
python video_maker.py config.yaml --no-outro
八、常见问题
Q1:视频音画不同步?
缘由:图片duration分配不准确。
解决:
- 必须先读取 narration.json 时间戳
- 按句子语义边界划分,不要平均分配
- 生成配置前校验总时长
Q2:字幕位置不对?
缘由:字幕样式未正确设置。
解决:使用ASS格式字幕,强制底部居中。
Q3:角色风格不一致?
缘由:批量生图时没有保持角色描述一致。
解决:
- 先生成角色设定图
- 每张图都带完整的角色描述
- 使用图生图(以主图为参考)保持一致性
九、下篇预告
视频生成搞定了!
下篇,我们来搭个知识库:
- Obsidian知识库搭建
- 双链笔记自动关联
- 提示词库管理
- 技术沉淀工作流
让AI成为你的第二大脑,越用越机智!
下篇预告:搭个知识库,让AI帮我记东西,打造第二大脑!


