狂揽11.5K Stars！这个AI语音克隆神器让你秒变”声优”

内容分享3个月前发布

10 0 0

开篇：当”语音合成”还在念课文，它已经会演戏了

还在为短视频配音发愁？找声优太贵，自己配太尬，AI配音一听就是”机器人念PPT”……

更崩溃的是，好不容易找到个像样点的TTS工具，要么只支持中英文，克隆出来像”塑料普通话”；要么需要喂几十分钟的音频素材，还得手动调参数调到头秃

直到小编刷到这个项目——VoxCPM2，直接瞳孔地震：

30种语言随意切、5秒音频就能克隆、还能用文字”捏”出一个全新声音？

关键是，这玩意儿完全开源、可商用！GitHub上已经狂揽11.5K Stars，HuggingFace热榜常客，连Discord社区都挤爆了……

狂揽11.5K Stars！这个AI语音克隆神器让你秒变"声优"

基础信息：清华系出品，20亿参数的”语音大模型”

项目	详情
GitHub	https://github.com/OpenBMB/VoxCPM
Star数	11.5K ⭐
核心语言	Python
模型规模	2B参数（20亿）
训练数据	200万+小时多语言语音
出品方	OpenBMB（清华系AI团队）
许可证	Apache-2.0（可商用）

背后技术架构叫**”无Tokenizer扩散自回归”**——说人话就是：不用把语音切成离散的小碎片，直接端到端生成连续的声音信号，所以更自然、更有”人味儿”。

核心功能：一个模型，三种”玩声音”的姿势

姿势一：Voice Design（凭空造人）

不需要任何参考音频，纯靠打字描述就能生成声音：

wav = model.generate(
    text="(A young woman, gentle and sweet voice)Hello, welcome to VoxCPM2!",
)

括号里写人设，括号外写台词。性别、年龄、语气、情绪、语速……全凭你脑洞。想要”温柔甜妹”还是”磁性大叔”？键盘敲一敲，声优请回家

️ 姿势二：Controllable Cloning（克隆+微调）

喂它5-10秒参考音频，克隆音色后，还能继续”遥控”：

wav = model.generate(
    text="(slightly faster, cheerful tone)This is a cloned voice with style control.",
    reference_wav_path="path/to/voice.wav",
)

原声是沉稳的？可以改成欢快的。原版语速慢？加速安排。音色保留，风格随你改——这操作，专业调音师看了都沉默。

️ 姿势三：Ultimate Cloning（像素级复刻）

终极玩法：提供参考音频+完整转录文本，模型会无缝续写，把原声的呼吸节奏、情感起伏、甚至换气口都复制得明清楚白。

适合那种”念一半接一半”的长文本场景，或者对还原度有偏执要求的强迫症用户

技术亮点：为什么是它，不是别的？

特性	VoxCPM2	其他开源TTS
输出音质	48kHz 录音棚级别	一般16-44.1kHz
语言支持	30种语言+9种中国方言	大多中英双语
实时性	RTF 0.13（4090+Nano-VLLM加速）	普遍0.3以上
可控克隆	✅ 支持风格指令	❌ 多数只能硬克隆
语音设计	✅ 纯文本生成音色	❌ 极少支持
商业授权	✅ Apache-2.0	部分限制商用

最骚的是它的**”方言大礼包”**——四川话、粤语、吴语、东北话、河南话、陕西话、山东话、天津话、闽南话……

想象一下：用郭德纲的音色说天津话相声，或者用TVB腔念粤语台词，这代入感直接拉满 ️

实测体验：从安装到出声的”丝滑流程”

安装就一行：

pip install voxcpm

Python调用简单到离谱：

from voxcpm import VoxCPM
import soundfile as sf

model = VoxCPM.from_pretrained("openbmb/VoxCPM2")
wav = model.generate(text="你好，这是VoxCPM2生成的语音。")
sf.write("output.wav", wav, 48000)

不想写代码？直接上Web界面：

python app.py --port 8808

浏览器打开 http://localhost:8808，拖音频、打字、点生成，三步完事儿。

还有Nano-VLLM加速版，RTX 4090上推理速度压到0.13倍实时——说人话就是：你说1秒的话，它0.13秒就合成完了，比你还急 ⚡

适用人群：谁该立刻马上去试试？

人群	应用场景
短视频创作者	多角色配音、方言整活、避免自己出镜
游戏/动画制作	NPC语音批量生成、剧情配音
有声书主播	一人分饰N角、音色快速切换
跨境电商	30种语言本地化，告别机械翻译腔
AI开发者	搭建语音Agent、客服机器人、数字人
整活网友	让老板的声音说”今天放假”（误）