开篇:当”语音合成”还在念课文,它已经会演戏了
还在为短视频配音发愁?找声优太贵,自己配太尬,AI配音一听就是”机器人念PPT”……
更崩溃的是,好不容易找到个像样点的TTS工具,要么只支持中英文,克隆出来像”塑料普通话”;要么需要喂几十分钟的音频素材,还得手动调参数调到头秃
直到小编刷到这个项目——VoxCPM2,直接瞳孔地震:
30种语言随意切、5秒音频就能克隆、还能用文字”捏”出一个全新声音?
关键是,这玩意儿完全开源、可商用!GitHub上已经狂揽11.5K Stars,HuggingFace热榜常客,连Discord社区都挤爆了……

基础信息:清华系出品,20亿参数的”语音大模型”
|
项目 |
详情 |
|
GitHub |
https://github.com/OpenBMB/VoxCPM |
|
Star数 |
11.5K ⭐ |
|
核心语言 |
Python |
|
模型规模 |
2B参数(20亿) |
|
训练数据 |
200万+小时多语言语音 |
|
出品方 |
OpenBMB(清华系AI团队) |
|
许可证 |
Apache-2.0(可商用) |
背后技术架构叫**”无Tokenizer扩散自回归”**——说人话就是:不用把语音切成离散的小碎片,直接端到端生成连续的声音信号,所以更自然、更有”人味儿”。
核心功能:一个模型,三种”玩声音”的姿势
姿势一:Voice Design(凭空造人)
不需要任何参考音频,纯靠打字描述就能生成声音:
wav = model.generate(
text="(A young woman, gentle and sweet voice)Hello, welcome to VoxCPM2!",
)
括号里写人设,括号外写台词。性别、年龄、语气、情绪、语速……全凭你脑洞。想要”温柔甜妹”还是”磁性大叔”?键盘敲一敲,声优请回家
️ 姿势二:Controllable Cloning(克隆+微调)
喂它5-10秒参考音频,克隆音色后,还能继续”遥控”:
wav = model.generate(
text="(slightly faster, cheerful tone)This is a cloned voice with style control.",
reference_wav_path="path/to/voice.wav",
)
原声是沉稳的?可以改成欢快的。原版语速慢?加速安排。音色保留,风格随你改——这操作,专业调音师看了都沉默。
️ 姿势三:Ultimate Cloning(像素级复刻)
终极玩法:提供参考音频+完整转录文本,模型会无缝续写,把原声的呼吸节奏、情感起伏、甚至换气口都复制得明清楚白。
适合那种”念一半接一半”的长文本场景,或者对还原度有偏执要求的强迫症用户
技术亮点:为什么是它,不是别的?
|
特性 |
VoxCPM2 |
其他开源TTS |
|
输出音质 |
48kHz 录音棚级别 |
一般16-44.1kHz |
|
语言支持 |
30种语言+9种中国方言 |
大多中英双语 |
|
实时性 |
RTF 0.13(4090+Nano-VLLM加速) |
普遍0.3以上 |
|
可控克隆 |
✅ 支持风格指令 |
❌ 多数只能硬克隆 |
|
语音设计 |
✅ 纯文本生成音色 |
❌ 极少支持 |
|
商业授权 |
✅ Apache-2.0 |
部分限制商用 |
最骚的是它的**”方言大礼包”**——四川话、粤语、吴语、东北话、河南话、陕西话、山东话、天津话、闽南话……
想象一下:用郭德纲的音色说天津话相声,或者用TVB腔念粤语台词,这代入感直接拉满 ️
实测体验:从安装到出声的”丝滑流程”
安装就一行:
pip install voxcpm
Python调用简单到离谱:
from voxcpm import VoxCPM
import soundfile as sf
model = VoxCPM.from_pretrained("openbmb/VoxCPM2")
wav = model.generate(text="你好,这是VoxCPM2生成的语音。")
sf.write("output.wav", wav, 48000)
不想写代码?直接上Web界面:
python app.py --port 8808
浏览器打开 http://localhost:8808,拖音频、打字、点生成,三步完事儿。
还有Nano-VLLM加速版,RTX 4090上推理速度压到0.13倍实时——说人话就是:你说1秒的话,它0.13秒就合成完了,比你还急 ⚡
适用人群:谁该立刻马上去试试?
|
人群 |
应用场景 |
|
短视频创作者 |
多角色配音、方言整活、避免自己出镜 |
|
游戏/动画制作 |
NPC语音批量生成、剧情配音 |
|
有声书主播 |
一人分饰N角、音色快速切换 |
|
跨境电商 |
30种语言本地化,告别机械翻译腔 |
|
AI开发者 |
搭建语音Agent、客服机器人、数字人 |
|
整活网友 |
让老板的声音说”今天放假”(误) |
⚠️ 特别提醒:项目方明确禁止用于冒充、诈骗、虚假信息传播。AI语音是把双刃剑,玩梗可以,违法不行。
生态与社区:开源的力量
VoxCPM的周边已经卷疯了:
- VoxCPM.cpp:CPU/Vulkan推理,没显卡也能跑
- VoxCPM-ONNX:ONNX格式导出,边缘设备部署
- ComfyUI-VoxCPM:节点化工作流,可视化调参
- Rust重实现:纯Rust版本,极致性能党狂喜
甚至还有人做了Apple Neural Engine适配,M系列芯片MacBook直接本地跑,果粉落泪
结尾:声音的未来,已经来了
从”机械合成音”到”以假乱真”,TTS技术这几年卷得飞快。但像VoxCPM2这样开源、可商用、多语言、高可控的全能选手,的确 不多见。
11.5K Stars的背后,是开发者们对”AI声音自由”的真实需求——不需要昂贵的API调用,不需要担心版权纠纷,更不需要忍受”人工智障”级别的合成效果。

目前VoxCPM2已登上GitHub热榜,HuggingFace上的Demo页面也被挤爆。如果你也对AI语音感兴趣,不妨去
https://github.com/OpenBMB/VoxCPM 点个Star,或者直接在浏览器里体验:
https://huggingface.co/spaces/OpenBMB/VoxCPM-Demo
毕竟,让你的声音”数字永生”这件事,目前只需要几行代码
本文部分技术细节参考VoxCPM官方文档,项目持续更新中,最新动态请关注OpenBMB官方仓库。