第9篇：AI视频生成——从文字到视频一条龙，无需API

内容分享2个月前发布无聊至极的发明家

前面几篇我们搞定了文档处理、图片生成。

目前，短视频是最有传播力的内容形式。

不需要剪映、不需要PR，一句话生成视频。

本篇我们来玩视频生成——让AI成为你的视频创作助手！

一、先看效果：一句话生成视频

之前我们展示了办公四件套，能一句话处理各种文档。

这一篇，我们把前面所有能力串联起来，输出完整视频：

文字/链接输入
       ↓
深度调研内容（deep-research）
       ↓
撰写解说词文案
       ↓
拆分场景，批量生图（image-service）
       ↓
生成配音+时间戳（tts）
       ↓
合成视频+字幕+片尾（video-creator）
       ↓
输出.mp4文件

一句话触发

帮我把这篇文章做成1分钟的短视频，讲清楚学了啥、能干啥、咋用

根据这个链接的内容，生成一个产品介绍视频

把这个故事做成儿童动画视频，风格可爱

执行过程

AI会自动调用多个Skill协作：

Step 1：理解内容

正在阅读文章/链接内容...
提取核心要点...

Step 2：撰写解说词

生成1分钟解说词文案...
约180字，覆盖：学了啥、能干啥、咋用、场景

Step 3：拆分场景，批量生图（image-service）

拆分为8个场景...
并发生成8张配图（16:9横版）
- 01_opening.png
- 02_problem.png
- ...
- 08_ending.png

Step 4：生成配音（tts_generator）

生成配音: narration.mp3
生成时间戳: narration.json
音频时长: 52秒

Step 5：计算时长，合成视频

根据时间戳计算每张图的duration...
生成视频配置: video_config.yaml
合成视频（带转场）...
烧录字幕...
拼接片尾...
添加BGM...

Step 6：输出结果

完成: output.mp4 (57.6秒)

二、核心能力

能力	说明	对应脚本
TTS配音	文字转语音，支持多种音色	tts_generator.py
时间戳提取	准确到每句话的起止时间	tts_generator.py
视频合成	图片+音频视频，带转场	video_maker.py
字幕烧录	SRT/ASS字幕，底部居中	video_maker.py
片尾拼接	自动拼接品牌片尾	video_maker.py
BGM混合	背景音乐，可调音量	video_maker.py

三、适用场景

场景	输入	产出
产品介绍	产品文档/链接	1-3分钟介绍视频
流程教学	教程文章	步骤讲解视频
动漫制作	故事剧本	风格统一的动画
插画解读	知识点	配图讲解视频
新闻播报	新闻列表	视频早报
绘本动画	儿童故事	有声绘本视频

四、视频生成流程

4.1 套娃流程（故事类视频）

对于故事/剧情类视频，采用三层套娃生成：

第一层：故事 拆分场景 并发生成场景主图（文生图）

第二层：每个场景主图  图生图拆出细镜头（保持角色一致）

第三层：生成配音 + 字幕 + 合成视频

4.2 简化流程（讲解类视频）

对于讲解/介绍类视频，可以简化为：

文案 批量生图 配音 合成视频

不需要细镜头拆分，每个知识点对应一张图即可。

五、支持的视频比例

比例	分辨率	适用场景
1:1	1024×1024	朋友圈、正方形
3:4	1080×1440	小红书、朋友圈
4:3	1440×1080	传统显示器
9:16	1080×1920	抖音、视频号、竖屏
16:9	1920×1080	B站、YouTube、横屏

六、实战案例

案例1：文章转视频

需求：把技术教程文章做成1分钟短视频。

操作：

把第四篇文章做成1分钟的视频简介，讲清楚：
- 学了啥
- 能干啥
- 咋用
- 场景是啥
用OpenCode风格配图，16:9横版

执行流程：

读取文章内容
    ↓
撰写180字解说词
    ↓
拆分8个场景，并发生图
    ↓
生成配音+时间戳
    ↓
计算时长分配
    ↓
合成视频+字幕+片尾

产出: output.mp4 (约60秒)

案例2：产品介绍视频

需求：根据产品文档生成介绍视频。

操作：

根据这个产品文档，生成一个2分钟的产品介绍视频：
- 核心功能亮点
- 使用场景
- 操作演示
风格：科技感，16:9横版

案例3：儿童绘本动画

需求：把儿童故事做成有声动画。

操作：

把这个小故事做成儿童动画视频：

故事：小兔子找萝卜
第1页：小兔子在森林里醒来
第2页：小兔子遇到了小松鼠
...

要求：
- 可爱水彩风格
- 角色一致（白色小兔子，穿蓝色背带裤）
- 9:16竖版
- 温柔女声配音

七、常用命令

TTS配音

# 基本用法
python tts_generator.py --text "文本内容" --output audio.mp3

# 带时间戳
python tts_generator.py --text "文本内容" --output audio.mp3 --timestamps

# 指定音色
python tts_generator.py --text "文本内容" --output audio.mp3 
                       --voice zh-CN-XiaoxiaoNeural

视频合成

# 基本用法
python video_maker.py config.yaml

# 带字幕
python video_maker.py config.yaml --srt subtitles.srt

# 自定义转场
python video_maker.py config.yaml --fade 0.8

# 不加片尾
python video_maker.py config.yaml --no-outro

八、常见问题

Q1：视频音画不同步？

缘由：图片duration分配不准确。

解决：

必须先读取 narration.json 时间戳
按句子语义边界划分，不要平均分配
生成配置前校验总时长

Q2：字幕位置不对？

缘由：字幕样式未正确设置。

解决：使用ASS格式字幕，强制底部居中。

Q3：角色风格不一致？

缘由：批量生图时没有保持角色描述一致。

解决：

先生成角色设定图
每张图都带完整的角色描述
使用图生图（以主图为参考）保持一致性

九、下篇预告

视频生成搞定了！

下篇，我们来搭个知识库：

Obsidian知识库搭建
双链笔记自动关联
提示词库管理
技术沉淀工作流

让AI成为你的第二大脑，越用越机智！

下篇预告：搭个知识库，让AI帮我记东西，打造第二大脑！

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

AI 电商作图完整流程，收藏备用高效变现

AI 电商作图完整流程，收藏备用高效变现

2周前

030

浙江：超6亿元！中铁十局中标铁路项目！

浙江：超6亿元！中铁十局中标铁路项目！

3个月前

050

IDEA 开发效率翻倍？这 9 个隐藏的骚操作才真是生产力神器！

IDEA 开发效率翻倍？这 9 个隐藏的骚操作才真是生产力神器！

5个月前

180

【双语】The Ancestor Worship Ceremony of the Yellow Emperor in the Year of Bingwu Was Grandly Held丙午年黄帝故里拜祖大典隆重举行

【双语】The Ancestor Worship Ceremony of the Yellow Emperor in the Year of Bingwu Was Grandly Held丙午年黄帝故里拜祖大典隆重举行

2个月前

020

暂无评论

none

暂无评论...