26、语音转换与翻译后处理技术研究

语音转换与翻译后处理技术研究

在语音技术领域,语音转换(VC)和语音到语音翻译(S2ST)是两个重要的研究方向。本文将介绍这两个方向的相关研究,包括数据集、实验设置、性能评估以及提出的改进模型。

语音到语音翻译(S2ST)实验
数据集描述

为了进行实验评估,在实验室环境下录制了数据。针对DS2ST工作,记录了来自单个说话者的印地语和英语的平行数据,将印地语作为目标语言,英语作为源语言。总共收集了7.76小时的数据,每种语言有7000个话语。所有7000个话语具有相同的语言内容,其中500个用于推理,剩余数据中10%用于开发,其余用于训练。录制的话语以16kHz的采样率和单声道进行采样。

实验设置

数据预处理 :使用端点检测算法清理数据,去除话语开头和结尾的非语音元素。通过动态时间规整(DTW)对齐源和目标话语并填充零来估计映射函数。
特征提取 :将语音信号以20ms加窗并进行5ms的帧移,提取25维的MFCC特征。
模型构建 :使用四层Bi – LSTM网络设置DS2ST系统,该网络总共有[25, 256, 256, 256, 256, 25]个单元。在训练前,将训练数据修改为每个维度具有零均值和单位方差。采用学习率为1.0 * 10⁻⁵和动量为0.9的BPTT进行训练,使用支持CUDA的深度学习工具训练Bi – LSTM模型,大约需要12小时。使用Matlab工具进行10阶LP分析,用于极点修改和后处理中的加权LP残差。

© 版权声明

相关文章

暂无评论

none
暂无评论...