一句话让AI帮你做视频播客:video-podcast-maker 完全上手指南
不需要剪辑,不需要配音,甚至不需要写稿——你只需要一个想法。
你有没有想过,做一期专业的视频播客能有多简单?
我的答案:跟 AI 说一句话就够了。
今天给大家介绍一个最近在 GitHub 上很火的开源项目——video-podcast-maker。它能让你用一句话,零代码、零基础,制作出 4K 画质、多语种配音、带进度条字幕的专业视频。
它是什么?
video-podcast-maker 是一套跑在 Claude Code、Codex、OpenCode 等编码助手上的自动化技能(Skill)。它的工作流覆盖了从选题研究、脚本撰写、TTS 配音、Remotion 视频渲染,到最终压制输出的全过程。
简单理解:你告知它一个主题,它帮你从零到一搞出一期视频。
全程你只需要做三件事:
- 1. 提供主题或灵感方向
- 2. 审核并润色生成的脚本(这是最关键的一步)
- 3. 预览效果,确认输出
剩下的——研究资料、生成旁白、合成语音、渲染画面、混音配乐——全是自动的。
六大核心功能,每一个都戳中痛点
️ 6 种 TTS 引擎任你选
配音是视频播客的灵魂。video-podcast-maker 接入了 6 种 TTS 后端:
|
引擎 |
特点 |
费用 |
|
Edge TTS |
开箱即用,无需 API Key |
免费 |
|
Azure Speech |
中文发音最自然,支持音素校正 |
按量付费 |
|
豆包 TTS |
火山引擎,国内网络友善 |
按量付费 |
|
CosyVoice |
阿里云出品,中英双语 |
按量付费 |
|
ElevenLabs |
英文最佳,情感丰富 |
付费 |
|
OpenAI TTS |
API 简洁,质量稳定 |
按量付费 |
如果你只是想试试,Edge TTS 完全免费、无需注册,效果也够用。
Remotion 4K 视频渲染
画面部分基于 Remotion(React 驱动的视频框架)渲染,原生支持 3840×2160 4K 分辨率,上传 B 站、YouTube 清晰度拉满。
自带组件库包括:数据柱状图、时间线卡片、代码块、流程图、统计计数器、Lottie 动画、音频波形可视化等——这些全部可以用在视频里,不用你写一行代码。
五大平台,独立适配
每个平台的要求都不一样。video-podcast-maker 做了全平台适配:
- • Bilibili:章节时间戳自动生成、一键三连 CTA、16:9 + 4:3 双版缩略图
- • YouTube:SEO 标题优化、自动章节标记、英文脚本支持
- • 小红书:3:4 竖版缩略图、200-500 字种草体描述、双井号标签
- • 抖音:9:16 竖屏、轻快对话文案
- • 微信视频号:知识分享风、转发引导
双语 TTS + 发音校正
中英文混合旁白不再是痛点。Azure Speech 和 CosyVoice 支持双语音色自动切换。遇到多音字(列如”银行” vs “步行”),可以在 phonemes.json 中配置全局发音词典,一劳永逸。
Remotion Studio 实时预览
正式渲染之前,可以用 npx remotion studio 打开浏览器编辑器:
- • 拖拽时间轴逐帧查看
- • 右侧面板直接改配色、字号、字体
- • 修改组件后实时刷新
先确认效果,再花时间渲染——这个逻辑省掉大量返工。
章节进度条 + 字幕嵌入
视频上方自带章节进度条,观众可以一眼看到当前处于哪个章节。字幕可以选择硬编码嵌入(烧录)或作为独立 SRT 文件输出。
快速上手:三步跑通第一个视频
第一步:环境准备
# macOS
brew install ffmpeg node python3
# Windows (WSL 或直接安装)
# 1. 安装 Python 3.8+、Node.js 18+、FFmpeg 4.0+
# 2. 安装 Python 依赖
pip install azure-cognitiveservices-speech dashscope edge-tts requests
# 创建 Remotion 项目骨架
npx create-video@latest my-video-project
cd my-video-project
npm i
第二步:配置 TTS(可选,默认用免费 Edge TTS)
# 如果只想免费试,跳过这一步
# 如果用 Azure:
export AZURE_SPEECH_KEY="你的密钥"
export AZURE_SPEECH_REGION="eastasia"
# 如果用豆包:
export VOLCENGINE_APPID="你的AppId"
export VOLCENGINE_ACCESS_TOKEN="你的Token"
Edge TTS 默认免费可用,无需配置。提议先用 Edge 跑通整个流程,后续再升级到更高质量的 TTS 引擎。
第三步:一句话启动
在 Claude Code 或 Codex 中输入:
制作一个关于"人工智能如何改变内容创作"的视频播客
AI 会引导你完成:
- 1. 主题定义 → 确定方向和角度
- 2. 素材研究 → 搜索相关数据和案例
- 3. 脚本生成 → 结构化的旁白脚本(这是你需要重点审校的环节)
- 4. TTS 配音 → 自动合成音频
- 5. Remotion 渲染 → 生成 4K 画面
- 6. 背景音乐混音 → FFmpeg 叠加 BGM
- 7. 字幕嵌入 → 烧录或导出 SRT
- 8. 最终输出 → final_video.mp4
⚠️ 最重大的一步(写给人类)
项目文档里有一段话我超级认同:
AI 生成的脚本草稿只是一个起点,仅此而已。以下工作请你自己完成,不要交给 AI:
1. 出声朗读每一句话,感受呼吸节奏2. 至少修改三遍:第一遍改错字和绕口令,第二遍删废话和重复,第三遍调节奏3. 逐段检查章节过渡是否自然4. 单独审核数字、专有名词和英文术语的发音5. 控制时长——中文约 280 字/分钟,5-10 分钟 = 1400-2800 字
糟糕的脚本渲染出来只是 4K 画质的垃圾。 这句话虽狠,但很真实。
哪些人适合用它?
|
适合 |
不太适合 |
|
想做视频但不会剪辑 |
追求极致手调每一个关键帧 |
|
知识类/科普类博主 |
实拍类 Vlog |
|
需要批量产出内容 |
对视觉有独特美学要求的艺术创作者 |
|
想低成本试水视频播客 |
— |
|
技术教程、行业分析类内容 |
— |
最适合的场景:技术科普、行业分析、读书分享、产品评测,这类”重脚本、轻画面”的内容。
写在最后
video-podcast-maker 解决的问题很明确:把视频制作的技术门槛压到零,让你专注于内容本身。
它不会替代专业的视频团队——但能让你在只有一个人的情况下,做出远超”PPT 转视频”水平的内容。
目前项目还在积极迭代中,路线图上的功能(竖屏模板、YouTube 自动发布、设计风格学习)都值得期待。
你试过用 AI 做视频吗?体验如何?欢迎在评论区聊聊
项目地址:
https://github.com/agents365-ai/video-podcast-maker
中文文档:
https://github.com/Agents365-ai/video-podcast-maker/blob/main/README_CN.md