一句话让AI帮你做视频播客：video-podcast-maker 完全上手指南

内容分享2小时前发布苏某没睡醒

0 0 0

全能 AI 聚合平台免费

一站式接入主流 AI 大模型，支持对话 · 生图 · 生视频，即开即用

ChatGPT Claude Gemini Grok DeepSeek 通义千问 Ollama

AI对话 AI生图 AI视频

免费使用 →

一句话让AI帮你做视频播客：video-podcast-maker 完全上手指南

不需要剪辑，不需要配音，甚至不需要写稿——你只需要一个想法。

你有没有想过，做一期专业的视频播客能有多简单？

我的答案：跟 AI 说一句话就够了。

今天给大家介绍一个最近在 GitHub 上很火的开源项目——video-podcast-maker。它能让你用一句话，零代码、零基础，制作出 4K 画质、多语种配音、带进度条字幕的专业视频。

它是什么？

video-podcast-maker 是一套跑在 Claude Code、Codex、OpenCode 等编码助手上的自动化技能（Skill）。它的工作流覆盖了从选题研究、脚本撰写、TTS 配音、Remotion 视频渲染，到最终压制输出的全过程。

简单理解：你告知它一个主题，它帮你从零到一搞出一期视频。

全程你只需要做三件事：

1. 提供主题或灵感方向
2. 审核并润色生成的脚本（这是最关键的一步）
3. 预览效果，确认输出

剩下的——研究资料、生成旁白、合成语音、渲染画面、混音配乐——全是自动的。

六大核心功能，每一个都戳中痛点

️ 6 种 TTS 引擎任你选

配音是视频播客的灵魂。video-podcast-maker 接入了 6 种 TTS 后端：

引擎	特点	费用
Edge TTS	开箱即用，无需 API Key	免费
Azure Speech	中文发音最自然，支持音素校正	按量付费
豆包 TTS	火山引擎，国内网络友善	按量付费
CosyVoice	阿里云出品，中英双语	按量付费
ElevenLabs	英文最佳，情感丰富	付费
OpenAI TTS	API 简洁，质量稳定	按量付费

如果你只是想试试，Edge TTS 完全免费、无需注册，效果也够用。

Remotion 4K 视频渲染

画面部分基于 Remotion（React 驱动的视频框架）渲染，原生支持 3840×2160 4K 分辨率，上传 B 站、YouTube 清晰度拉满。

自带组件库包括：数据柱状图、时间线卡片、代码块、流程图、统计计数器、Lottie 动画、音频波形可视化等——这些全部可以用在视频里，不用你写一行代码。

五大平台，独立适配

每个平台的要求都不一样。video-podcast-maker 做了全平台适配：

• Bilibili：章节时间戳自动生成、一键三连 CTA、16:9 + 4:3 双版缩略图
• YouTube：SEO 标题优化、自动章节标记、英文脚本支持
• 小红书：3:4 竖版缩略图、200-500 字种草体描述、双井号标签
• 抖音：9:16 竖屏、轻快对话文案
• 微信视频号：知识分享风、转发引导

双语 TTS + 发音校正

中英文混合旁白不再是痛点。Azure Speech 和 CosyVoice 支持双语音色自动切换。遇到多音字（列如”银行” vs “步行”），可以在 phonemes.json 中配置全局发音词典，一劳永逸。

Remotion Studio 实时预览

正式渲染之前，可以用 npx remotion studio 打开浏览器编辑器：

• 拖拽时间轴逐帧查看
• 右侧面板直接改配色、字号、字体
• 修改组件后实时刷新

先确认效果，再花时间渲染——这个逻辑省掉大量返工。

章节进度条 + 字幕嵌入

视频上方自带章节进度条，观众可以一眼看到当前处于哪个章节。字幕可以选择硬编码嵌入（烧录）或作为独立 SRT 文件输出。

快速上手：三步跑通第一个视频

第一步：环境准备

              # macOS
brew install ffmpeg node python3

# Windows (WSL 或直接安装)
# 1. 安装 Python 3.8+、Node.js 18+、FFmpeg 4.0+
# 2. 安装 Python 依赖
pip install azure-cognitiveservices-speech dashscope edge-tts requests

# 创建 Remotion 项目骨架
npx create-video@latest my-video-project
cd my-video-project
npm i

第二步：配置 TTS（可选，默认用免费 Edge TTS）

              # 如果只想免费试，跳过这一步
# 如果用 Azure：
export AZURE_SPEECH_KEY="你的密钥"
export AZURE_SPEECH_REGION="eastasia"

# 如果用豆包：
export VOLCENGINE_APPID="你的AppId"
export VOLCENGINE_ACCESS_TOKEN="你的Token"

Edge TTS 默认免费可用，无需配置。提议先用 Edge 跑通整个流程，后续再升级到更高质量的 TTS 引擎。

第三步：一句话启动

在 Claude Code 或 Codex 中输入：

              制作一个关于"人工智能如何改变内容创作"的视频播客

AI 会引导你完成：

1. 主题定义 → 确定方向和角度
2. 素材研究 → 搜索相关数据和案例
3. 脚本生成 → 结构化的旁白脚本（这是你需要重点审校的环节）
4. TTS 配音 → 自动合成音频
5. Remotion 渲染 → 生成 4K 画面
6. 背景音乐混音 → FFmpeg 叠加 BGM
7. 字幕嵌入 → 烧录或导出 SRT
8. 最终输出 → final_video.mp4

⚠️ 最重大的一步（写给人类）

项目文档里有一段话我超级认同：

AI 生成的脚本草稿只是一个起点，仅此而已。以下工作请你自己完成，不要交给 AI：

1. 出声朗读每一句话，感受呼吸节奏2. 至少修改三遍：第一遍改错字和绕口令，第二遍删废话和重复，第三遍调节奏3. 逐段检查章节过渡是否自然4. 单独审核数字、专有名词和英文术语的发音5. 控制时长——中文约 280 字/分钟，5-10 分钟 = 1400-2800 字

糟糕的脚本渲染出来只是 4K 画质的垃圾。 这句话虽狠，但很真实。

哪些人适合用它？

适合	不太适合
想做视频但不会剪辑	追求极致手调每一个关键帧
知识类/科普类博主	实拍类 Vlog
需要批量产出内容	对视觉有独特美学要求的艺术创作者
想低成本试水视频播客	—
技术教程、行业分析类内容	—