第9篇:AI视频生成——从文字到视频一条龙,无需API

全能 AI 聚合平台 免费

一站式接入主流 AI 大模型,支持对话 · 生图 · 生视频,即开即用

ChatGPT Claude Gemini Grok DeepSeek 通义千问 Ollama
AI对话 AI生图 AI视频
免费使用 →

前面几篇我们搞定了文档处理、图片生成。

目前,短视频是最有传播力的内容形式

不需要剪映、不需要PR,一句话生成视频。

本篇我们来玩视频生成——让AI成为你的视频创作助手!


一、先看效果:一句话生成视频

之前我们展示了办公四件套,能一句话处理各种文档。

这一篇,我们把前面所有能力串联起来,输出完整视频:

文字/链接输入
       ↓
深度调研内容(deep-research)
       ↓
撰写解说词文案
       ↓
拆分场景,批量生图(image-service)
       ↓
生成配音+时间戳(tts)
       ↓
合成视频+字幕+片尾(video-creator)
       ↓
输出.mp4文件

一句话触发

帮我把这篇文章做成1分钟的短视频,讲清楚学了啥、能干啥、咋用

根据这个链接的内容,生成一个产品介绍视频

把这个故事做成儿童动画视频,风格可爱

执行过程

AI会自动调用多个Skill协作:

Step 1:理解内容

正在阅读文章/链接内容...
提取核心要点...

Step 2:撰写解说词

生成1分钟解说词文案...
约180字,覆盖:学了啥、能干啥、咋用、场景

Step 3:拆分场景,批量生图(image-service)

拆分为8个场景...
并发生成8张配图(16:9横版)
- 01_opening.png
- 02_problem.png
- ...
- 08_ending.png

Step 4:生成配音(tts_generator)

生成配音: narration.mp3
生成时间戳: narration.json
音频时长: 52秒

Step 5:计算时长,合成视频

根据时间戳计算每张图的duration...
生成视频配置: video_config.yaml
合成视频(带转场)...
烧录字幕...
拼接片尾...
添加BGM...

Step 6:输出结果

完成: output.mp4 (57.6秒)

二、核心能力

能力

说明

对应脚本

TTS配音

文字转语音,支持多种音色

tts_generator.py

时间戳提取

准确到每句话的起止时间

tts_generator.py

视频合成

图片+音频视频,带转场

video_maker.py

字幕烧录

SRT/ASS字幕,底部居中

video_maker.py

片尾拼接

自动拼接品牌片尾

video_maker.py

BGM混合

背景音乐,可调音量

video_maker.py


三、适用场景

场景

输入

产出

产品介绍

产品文档/链接

1-3分钟介绍视频

流程教学

教程文章

步骤讲解视频

动漫制作

故事剧本

风格统一的动画

插画解读

知识点

配图讲解视频

新闻播报

新闻列表

视频早报

绘本动画

儿童故事

有声绘本视频


四、视频生成流程

4.1 套娃流程(故事类视频)

对于故事/剧情类视频,采用三层套娃生成:

第一层:故事 拆分场景 并发生成场景主图(文生图)

第二层:每个场景主图  图生图拆出细镜头(保持角色一致)

第三层:生成配音 + 字幕 + 合成视频

4.2 简化流程(讲解类视频)

对于讲解/介绍类视频,可以简化为:

文案 批量生图 配音 合成视频

不需要细镜头拆分,每个知识点对应一张图即可。


五、支持的视频比例

比例

分辨率

适用场景

1:1

1024×1024

朋友圈、正方形

3:4

1080×1440

小红书、朋友圈

4:3

1440×1080

传统显示器

9:16

1080×1920

抖音、视频号、竖屏

16:9

1920×1080

B站、YouTube、横屏


六、实战案例

案例1:文章转视频

需求:把技术教程文章做成1分钟短视频。

操作

把第四篇文章做成1分钟的视频简介,讲清楚:
- 学了啥
- 能干啥
- 咋用
- 场景是啥
用OpenCode风格配图,16:9横版

执行流程

读取文章内容
    ↓
撰写180字解说词
    ↓
拆分8个场景,并发生图
    ↓
生成配音+时间戳
    ↓
计算时长分配
    ↓
合成视频+字幕+片尾

产出: output.mp4 (约60秒)

案例2:产品介绍视频

需求:根据产品文档生成介绍视频。

操作

根据这个产品文档,生成一个2分钟的产品介绍视频:
- 核心功能亮点
- 使用场景
- 操作演示
风格:科技感,16:9横版

案例3:儿童绘本动画

需求:把儿童故事做成有声动画。

操作

把这个小故事做成儿童动画视频:

故事:小兔子找萝卜
第1页:小兔子在森林里醒来
第2页:小兔子遇到了小松鼠
...

要求:
- 可爱水彩风格
- 角色一致(白色小兔子,穿蓝色背带裤)
- 9:16竖版
- 温柔女声配音

七、常用命令

TTS配音

# 基本用法
python tts_generator.py --text "文本内容" --output audio.mp3

# 带时间戳
python tts_generator.py --text "文本内容" --output audio.mp3 --timestamps

# 指定音色
python tts_generator.py --text "文本内容" --output audio.mp3 
                       --voice zh-CN-XiaoxiaoNeural

视频合成

# 基本用法
python video_maker.py config.yaml

# 带字幕
python video_maker.py config.yaml --srt subtitles.srt

# 自定义转场
python video_maker.py config.yaml --fade 0.8

# 不加片尾
python video_maker.py config.yaml --no-outro

八、常见问题

Q1:视频音画不同步?

缘由:图片duration分配不准确。

解决

  • 必须先读取 narration.json 时间戳
  • 按句子语义边界划分,不要平均分配
  • 生成配置前校验总时长

Q2:字幕位置不对?

缘由:字幕样式未正确设置。

解决:使用ASS格式字幕,强制底部居中。

Q3:角色风格不一致?

缘由:批量生图时没有保持角色描述一致。

解决

  • 先生成角色设定图
  • 每张图都带完整的角色描述
  • 使用图生图(以主图为参考)保持一致性

九、下篇预告

视频生成搞定了!

下篇,我们来搭个知识库:

  • Obsidian知识库搭建
  • 双链笔记自动关联
  • 提示词库管理
  • 技术沉淀工作流

让AI成为你的第二大脑,越用越机智!


下篇预告:搭个知识库,让AI帮我记东西,打造第二大脑!

© 版权声明

相关文章

暂无评论

none
暂无评论...