狂揽11.5K Stars!这个AI语音克隆神器让你秒变”声优”

内容分享30分钟前发布
0 0 0

开篇:当”语音合成”还在念课文,它已经会演戏了

还在为短视频配音发愁?找声优太贵,自己配太尬,AI配音一听就是”机器人念PPT”……

更崩溃的是,好不容易找到个像样点的TTS工具,要么只支持中英文,克隆出来像”塑料普通话”;要么需要喂几十分钟的音频素材,还得手动调参数调到头秃

直到小编刷到这个项目——VoxCPM2,直接瞳孔地震:

30种语言随意切、5秒音频就能克隆、还能用文字”捏”出一个全新声音?

关键是,这玩意儿完全开源、可商用!GitHub上已经狂揽11.5K Stars,HuggingFace热榜常客,连Discord社区都挤爆了……

狂揽11.5K Stars!这个AI语音克隆神器让你秒变"声优"


基础信息:清华系出品,20亿参数的”语音大模型”

项目

详情

GitHub

https://github.com/OpenBMB/VoxCPM

Star数

11.5K ⭐

核心语言

Python

模型规模

2B参数(20亿)

训练数据

200万+小时多语言语音

出品方

OpenBMB(清华系AI团队)

许可证

Apache-2.0(可商用)

背后技术架构叫**”无Tokenizer扩散自回归”**——说人话就是:不用把语音切成离散的小碎片,直接端到端生成连续的声音信号,所以更自然、更有”人味儿”。


核心功能:一个模型,三种”玩声音”的姿势

姿势一:Voice Design(凭空造人)

不需要任何参考音频,纯靠打字描述就能生成声音:

wav = model.generate(
    text="(A young woman, gentle and sweet voice)Hello, welcome to VoxCPM2!",
)

括号里写人设,括号外写台词。性别、年龄、语气、情绪、语速……全凭你脑洞。想要”温柔甜妹”还是”磁性大叔”?键盘敲一敲,声优请回家

️ 姿势二:Controllable Cloning(克隆+微调)

喂它5-10秒参考音频,克隆音色后,还能继续”遥控”:

wav = model.generate(
    text="(slightly faster, cheerful tone)This is a cloned voice with style control.",
    reference_wav_path="path/to/voice.wav",
)

原声是沉稳的?可以改成欢快的。原版语速慢?加速安排。音色保留,风格随你改——这操作,专业调音师看了都沉默。

️ 姿势三:Ultimate Cloning(像素级复刻)

终极玩法:提供参考音频+完整转录文本,模型会无缝续写,把原声的呼吸节奏、情感起伏、甚至换气口都复制得明清楚白。

适合那种”念一半接一半”的长文本场景,或者对还原度有偏执要求的强迫症用户


技术亮点:为什么是它,不是别的?

特性

VoxCPM2

其他开源TTS

输出音质

48kHz 录音棚级别

一般16-44.1kHz

语言支持

30种语言+9种中国方言

大多中英双语

实时性

RTF 0.13(4090+Nano-VLLM加速)

普遍0.3以上

可控克隆

✅ 支持风格指令

❌ 多数只能硬克隆

语音设计

✅ 纯文本生成音色

❌ 极少支持

商业授权

✅ Apache-2.0

部分限制商用

最骚的是它的**”方言大礼包”**——四川话、粤语、吴语、东北话、河南话、陕西话、山东话、天津话、闽南话……

想象一下:用郭德纲的音色说天津话相声,或者用TVB腔念粤语台词,这代入感直接拉满 ️


实测体验:从安装到出声的”丝滑流程”

安装就一行:

pip install voxcpm

Python调用简单到离谱:

from voxcpm import VoxCPM
import soundfile as sf

model = VoxCPM.from_pretrained("openbmb/VoxCPM2")
wav = model.generate(text="你好,这是VoxCPM2生成的语音。")
sf.write("output.wav", wav, 48000)

不想写代码?直接上Web界面:

python app.py --port 8808

浏览器打开 http://localhost:8808,拖音频、打字、点生成,三步完事儿。

还有Nano-VLLM加速版,RTX 4090上推理速度压到0.13倍实时——说人话就是:你说1秒的话,它0.13秒就合成完了,比你还急 ⚡


适用人群:谁该立刻马上去试试?

人群

应用场景

短视频创作者

多角色配音、方言整活、避免自己出镜

游戏/动画制作

NPC语音批量生成、剧情配音

有声书主播

一人分饰N角、音色快速切换

跨境电商

30种语言本地化,告别机械翻译腔

AI开发者

搭建语音Agent、客服机器人、数字人

整活网友

让老板的声音说”今天放假”(误)

⚠️ 特别提醒:项目方明确禁止用于冒充、诈骗、虚假信息传播。AI语音是把双刃剑,玩梗可以,违法不行。


生态与社区:开源的力量

VoxCPM的周边已经卷疯了:

  • VoxCPM.cpp:CPU/Vulkan推理,没显卡也能跑
  • VoxCPM-ONNX:ONNX格式导出,边缘设备部署
  • ComfyUI-VoxCPM:节点化工作流,可视化调参
  • Rust重实现:纯Rust版本,极致性能党狂喜

甚至还有人做了Apple Neural Engine适配,M系列芯片MacBook直接本地跑,果粉落泪


结尾:声音的未来,已经来了

从”机械合成音”到”以假乱真”,TTS技术这几年卷得飞快。但像VoxCPM2这样开源、可商用、多语言、高可控的全能选手,的确 不多见。

11.5K Stars的背后,是开发者们对”AI声音自由”的真实需求——不需要昂贵的API调用,不需要担心版权纠纷,更不需要忍受”人工智障”级别的合成效果。

狂揽11.5K Stars!这个AI语音克隆神器让你秒变"声优"

目前VoxCPM2已登上GitHub热榜,HuggingFace上的Demo页面也被挤爆。如果你也对AI语音感兴趣,不妨去
https://github.com/OpenBMB/VoxCPM 点个Star,或者直接在浏览器里体验:

https://huggingface.co/spaces/OpenBMB/VoxCPM-Demo

毕竟,让你的声音”数字永生”这件事,目前只需要几行代码


本文部分技术细节参考VoxCPM官方文档,项目持续更新中,最新动态请关注OpenBMB官方仓库。

© 版权声明

相关文章

暂无评论

none
暂无评论...