微软把语音 AI 玩出“Stable Diffusion 时刻”了?
我试了下 Vibing 这款语音输入法, 转录速度跟翻译速度都很快,无需本地模型,毕竟安装包就 1.3MB
VibeVoice 可以直接本地跑: ✅实时 TTS,300ms 就出声 ✅一口气生成 90 分钟、多说话人对话 ✅长音频转录还能标谁什么时候说的啥 可以省掉 ElevenLabs 的费用了哈哈
代码地址:
https://github.com/microsoft/VibeVoice


© 版权声明
文章版权归作者所有,未经允许请勿转载。
[db:评论]