3.3Kstar！AI实时语音转文本库，自动检测说话的开始与结束！

内容分享8个月前发布

全能 AI 聚合平台免费

一站式接入主流 AI 大模型，支持对话 · 生图 · 生视频，即开即用

ChatGPT Claude Gemini Grok DeepSeek 通义千问 Ollama

AI对话 AI生图 AI视频

免费使用 →

RealtimeSTT是开源的实时语音转文本库，专为低延迟应用设计。有强劲的语音活动检测功能，可自动识别说话的开始与结束，通过WebRTCVAD和SileroVAD进行精准检测。同时支持唤醒词激活，借助PorcupineOpenWakeWord检测特定唤醒词来启动。核心转录功能由Faster Whisper实现，可将语音实时转换为文本，适用于语音助手、实时字幕等场景，为开发者提供了一种高效、易用的语音转文本解决方案，助力打造流畅的语音交互体验。

3.3Kstar！AI实时语音转文本库，自动检测说话的开始与结束！

技术原理：

初步检测:使用WebRTCVAD进行初步的语音活动检测，能快速识别音频流中的语音段和非语音段，确定何时开始和停止录音。

准确验证:使用SileroVAD进行更准确的验证。SileroVAD基于深度学习模型，能更准确地区分语音与非语音时段提高语音活动检测的准确性。

转录模型:采用Faster_Whisper进行即时转录。Faster_Whisper是一个高效的语音转文本模型,支持GPU加速，能大幅提升转录速度，确保语音内容能实时转换为文本。

唤醒词检测:支持使用Porcupine或OpenWakeWord进行唤醒词检测。能识别特定的唤醒词,激活系统，使设备能在待机状态下被唤醒并开始工作。

GitHub地址：
https://github.com/KoljaB/RealtimeSTT

#AI开源项目推荐##github##AI技术##TTS模型

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

AMD暴跌13%，三星利润首次下滑，全球芯片产业进入下行周期

AMD暴跌13%，三星利润首次下滑，全球芯片产业进入下行周期

7个月前

1820

全网良心总结！内容简单易懂！50个AI实操妙招，看完记得收藏！

新全网良心总结！内容简单易懂！50个AI实操妙招，看完记得收藏！

22小时前

000

巨头下场，Stable Diffusion、Midjourney们还好吗？

新巨头下场，Stable Diffusion、Midjourney们还好吗？

23小时前

100

从 0 到生产，用这个方法让 AI Agent 少走了 3 个月弯路！

从 0 到生产，用这个方法让 AI Agent 少走了 3 个月弯路！

1个月前

040

5 条评论

我要成为煎饼侠投稿者

科技真的强大

8个月前无记录

回复
年轻帅气的袁老师读者

这功能超赞的

8个月前无记录

回复
妞妞哟哟哟读者

收藏了，感谢分享

8个月前无记录

回复
來世是苏打水投稿者

功能全面，从检测到转录整体较可靠。

8个月前无记录

回复
财古古投稿者

这玩意我早实现了，用的funasr，准备做个工具，鼠标焦点在哪，就写到哪

8个月前无记录

回复