本申请提出一种基于文本感知的语音端点检测方法和系统,方法包括步骤:S1,获取原始音频,提取原始音频的浅层声学特征和文本特征;S2,将浅层声学特征和文本特征进行自适应加权融合,获得融合音频特征;S3,将融合音频特征进行上下文编码,获得时序特征;S4,对时序特征进行二分类预测,获得语音帧概率和非语音帧概率;S5,对二分类预测的结果进行判决,并将原始音频的各帧判决结果拼接,获得语音端点检测结果。该方法能够有效利用音频中的文本信息,通过融合浅层声学特征和文本特征,可以提高后端语音端点检测模型的准确度和稳定性。在缺乏目标域训练数据的情况下,借助预训练的文本特征提取子网络能够保证语音端点检测模型的鲁棒性。性。性。
【技术实现步骤摘要】
一种基于文本感知的语音端点检测方法和系统
[0001]本申请属于语音处理
,具体的涉及一种基于文本感知的语音端点检测方法和系统。
技术介绍
[0002]语音端点检测(VAD,Voice Activity Detection)是语音处理技术中重要的分支,在自动语音识别(ASR,Automatic Speech Recognition)、说话人识别(ASV,Automatic Speech Recognition)和说话人日志(SD,Speaker Diarization)等语音任务中起到关键性作用。语音端点检测的目的是识别出原始音频中的语音时间片段和非语音时间片段。语音端点检测结果错误往往会对下游的语音任务造成严重的干扰,影响语音系统的性能与稳定性。精确的语音端点检测方法能够有效的降低噪声干扰,提高后端语音系统的鲁棒性。
[0003]当前语音端点检测方法可以分为无监督与有监督。早期的语音端点检测模型以无监督的启发式算法为主。无监督语音端点检测模型在真实环境中缺乏鲁棒性,例如,基于能量特征与过零率(ZCR,Zero
‑
crossing Rate)的语音端点检测算法容易受到环境噪声的干扰。随着语音处理技术的广泛应用,语音端点检测技术在应用场景趋于多样和复杂,传统算法难以预测非线性关系,无法满足实际落地需求。在复杂场景中音频具有低信噪比的特点,伴随着背景噪声,前景噪声,室内混响等干扰。例如,在脱口秀场景中观众的笑声与掌声、在电视节目中转场的音乐声、户外场景中汽车的鸣笛声等,诸如此类都属于非语音片段。这就要求语音端点检测模型需要具备高的噪声鲁棒性和检测准确率。近年来,提出了许多基于神经网络的框架用于语音端点检测任务。Pyannote是当前常用的有监督语音端点检测框架,利用前端特征提取模块提取浅层声学特征,传入长短时记忆网络(LSTM,Long Short
‑
term Memory)进行上下文信息编码,网络输出帧级别静音与非静音判别结果。然而,基于神经网络的语音端点检测框架依赖大量的目标域数据进行训练模型参数。在实际应用场景中,目标域的训练数据依赖大量人工标注。在缺乏匹配的目标域训练数据的情况下,基于神经网络的语音端点检测模型在噪声环境中性能会急剧变差。
[0004]申请号为CN201910917881.6的中国专利公开了一种基于深度学习的语音端点检测方法,其包括步骤:收集的音频数据进行分帧处理,划分为包含语音的非噪声语音帧和不包含语音的噪声语音帧,以此生成训练数据;利用卷积神经网络提取音频特征向量,依次输入长短时记忆层和全连接层,最终模型输出每一帧音频属于非噪声语音帧和噪声语音帧的概率。上述基于深度学习的语音端点检测模型的性能依赖于大量的带时间戳标签的语料,然而带时间戳标注的目标域数据往往是很稀缺的。当缺少域内训练数据的时候,传统的基于深度学习的语音端点检测模型性能会急剧变差。
技术实现思路
[0005]针对上述问题,本申请第一方面提出一种基于文本感知的语音端点检测方法,包括步骤:
[0006]S1,获取原始音频,提取原始音频的浅层声学特征和文本特征;
[0007]S2,将浅层声学特征和文本特征进行自适应加权融合,获得融合音频特征;
[0008]S3,将融合音频特征进行上下文编码,获得时序特征;
[0009]S4,对时序特征进行二分类预测,获得语音帧概率和非语音帧概率;
[0010]S5,对二分类预测的结果进行判决,并将原始音频的各帧判决结果拼接,获得语音端点检测结果。
[0011]上述方法通过融合文本特征,能有效检测出音频中存在的说话人文本片段,实现了高准确率的语音端点检测模型。
[0012]进一步地,浅层声学特征利用卷积神经网络提取。
[0013]进一步地,文本特征利用端到端语音识别模型的前端子网络提取,端到端语音识别模型包括卷积神经网络层、Transformer编码模块和若干层全连接层,前端子网络为端到端语音识别模型除最后一层全连接层外的网络,文本特征为前端子网络的输出结果。
[0014]进一步地,全连接层的最后一层的节点数与对应语言模型的字典的字符数量保持一致。
[0015]进一步地,自适应加权融合的过程中,原始音频的信噪比越低时,浅层声学特征的权重越大。采用自适应加权融合机制,在不同场景中自适应地调整不同特征的权重值,能够提高语音端点检测模型在不同环境的稳定性。
[0016]进一步地,时序特征通过时序感知的神经网络取得。
[0017]进一步地,S5中采用双状态双阈值翻转机制进行判决。不同状态对应不同的翻转阈值,能够进一步抑制噪声信号的干扰。
[0018]本申请第二方面提出一种语音端点检测系统,包括语音端点检测子模型和二值化器,其中,
[0019]语音端点检测子模型包括:
[0020]特征提取子网络,配置用于获取原始音频,提取原始音频的浅层声学特征和文本特征;
[0021]特征融合子网络,配置用于将浅层声学特征和文本特征进行自适应加权融合,获得融合音频特征;
[0022]时序建模子网络,配置用于将融合音频特征进行上下文编码,获得时序特征;
[0023]以及,
[0024]二分类预测子网络,配置用于对时序特征进行二分类预测,获得语音帧概率和非语音帧概率;
[0025]二值化器,配置用于对二分类预测的结果进行判决,并将原始音频的各帧判决结果拼接,获得语音端点检测结果。
[0026]进一步地,语音端点检测子模型的训练过程中包含步骤:
[0027]S901,采用二分类交叉熵函数对预测结果和人工标签进行损失函数的计算;
[0028]S902,根据损失函数计算得到的损失值对语音端点检测子模型进行反向传播,得到每层网络参数的梯度值;
[0029]S903,依据梯度值对每层网络参数进行梯度更新,得到优化的模型参数;
[0030]S904,重复S901
‑
S903直至计算得到的损失值收敛。
[0031]进一步地,二值化器采用双状态双阈值翻转机制进行判决,其中阈值通过网格搜索确定。
[0032]本申请提出一种基于文本感知的语音端点检测方法,能够提高模型在噪声环境下的准确率,并且能够有效缓解有监督模型在缺乏匹配的目标域训练数据问题。该方法是一种帧级别的序列转序列(sequence
‑
to
‑
sequence)的端到端语音端点检测方法,输入原始音频,输出帧级别语音或非语音的标签序列,其能够有效利用音频中的文本信息,在音频帧中存在说话人语音文本时,该帧属于语音帧的概率相应地增高。通过融合浅层声学特征和文本特征,可以提高后端语音端点检测模型的准确度和稳定性。在缺乏目标域训练数据的情况下,借助预训练的文本特征提取子网络能够保证语言端点检测模型的鲁棒性。
附图说明
[0033]附图帮助进一步理解本申请。附图的元件不一定是相互按照本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于文本感知的语音端点检测方法,其特征在于,包括步骤:S1,获取原始音频,提取所述原始音频的浅层声学特征和文本特征;S2,将所述浅层声学特征和所述文本特征进行自适应加权融合,获得融合音频特征;S3,将所述融合音频特征进行上下文编码,获得时序特征;S4,对所述时序特征进行二分类预测,获得语音帧概率和非语音帧概率;以及,S5,对所述二分类预测的结果进行判决,并将原始音频的各帧判决结果拼接,获得语音端点检测结果。2.根据权利要求1所述的语音端点检测方法,其特征在于,所述浅层声学特征利用卷积神经网络提取。3.根据权利要求1所述的语音端点检测方法,其特征在于,所述文本特征利用端到端语音识别模型的前端子网络提取,所述端到端语音识别模型包括卷积神经网络层、Transformer编码模块和若干层全连接层,所述前端子网络为端到端语音识别模型除最后一层全连接层外的网络,所述文本特征为前端子网络的输出结果。4.根据权利要求3所述的语音端点检测方法,其特征在于,所述全连接层的最后一层的节点数与对应语言模型的字典的字符数量保持一致。5.根据权利要求1所述的语音端点检测方法,其特征在于,所述自适应加权融合的过程中,原始音频的信噪比越低时,所述浅层声学特征的权重越大。6.根据权利要求1所述的语音端点检测方法,其特征在于,所述时序特征通过时序感知的神经网络取得。7.根据权利要求1所述的语音端点...
【专利技术属性】
技术研发人员:李琳,王捷,洪青阳,
申请(专利权)人:厦门大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。