一种基于文本感知的语音端点检测方法和系统技术方案

技术编号：37516788 阅读：29 留言：0更新日期：2023-05-12 15:38

本申请提出一种基于文本感知的语音端点检测方法和系统，方法包括步骤：S1，获取原始音频，提取原始音频的浅层声学特征和文本特征；S2，将浅层声学特征和文本特征进行自适应加权融合，获得融合音频特征；S3，将融合音频特征进行上下文编码，获得时序特征；S4，对时序特征进行二分类预测，获得语音帧概率和非语音帧概率；S5，对二分类预测的结果进行判决，并将原始音频的各帧判决结果拼接，获得语音端点检测结果。该方法能够有效利用音频中的文本信息，通过融合浅层声学特征和文本特征，可以提高后端语音端点检测模型的准确度和稳定性。在缺乏目标域训练数据的情况下，借助预训练的文本特征提取子网络能够保证语音端点检测模型的鲁棒性。性。性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于文本感知的语音端点检测方法和系统

[0001]本申请属于语音处理
，具体的涉及一种基于文本感知的语音端点检测方法和系统。

技术介绍

[0002]语音端点检测(VAD,Voice Activity Detection)是语音处理技术中重要的分支，在自动语音识别(ASR,Automatic Speech Recognition)、说话人识别(ASV,Automatic Speech Recognition)和说话人日志(SD,Speaker Diarization)等语音任务中起到关键性作用。语音端点检测的目的是识别出原始音频中的语音时间片段和非语音时间片段。语音端点检测结果错误往往会对下游的语音任务造成严重的干扰，影响语音系统的性能与稳定性。精确的语音端点检测方法能够有效的降低噪声干扰，提高后端语音系统的鲁棒性。
[0003]当前语音端点检测方法可以分为无监督与有监督。早期的语音端点检测模型以无监督的启发式算法为主。无监督语音端点检测模型在真实环境中缺乏鲁棒性，例如，基于能量特征与过零率(ZCR,Zero
‑
crossing Rate)的语音端点检测算法容易受到环境噪声的干扰。随着语音处理技术的广泛应用，语音端点检测技术在应用场景趋于多样和复杂，传统算法难以预测非线性关系，无法满足实际落地需求。在复杂场景中音频具有低信噪比的特点，伴随着背景噪声，前景噪声，室内混响等干扰。例如，在脱口秀场景中观众的笑声与掌声、在电视节目中转场的音乐声、户外场景中汽车的鸣笛声等，诸如此类都属于非语音...

【技术保护点】

【技术特征摘要】
1.一种基于文本感知的语音端点检测方法，其特征在于，包括步骤：S1，获取原始音频，提取所述原始音频的浅层声学特征和文本特征；S2，将所述浅层声学特征和所述文本特征进行自适应加权融合，获得融合音频特征；S3，将所述融合音频特征进行上下文编码，获得时序特征；S4，对所述时序特征进行二分类预测，获得语音帧概率和非语音帧概率；以及，S5，对所述二分类预测的结果进行判决，并将原始音频的各帧判决结果拼接，获得语音端点检测结果。2.根据权利要求1所述的语音端点检测方法，其特征在于，所述浅层声学特征利用卷积神经网络提取。3.根据权利要求1所述的语音端点检测方法，其特征在于，所述文本特征利用端到端语音识别模型的前端子网络提取，所述端到端语音识别模型包括卷积神经网络层、Transformer编码模块和若干层全连接层，所述前端子网络为端到端语音识别模型除最后一层全连接层外的网络，所述文本特征为前端子网络的输出结果。4.根据权利要求3所述的语音端点检测方法，其特征在于，所述全连接层的最后一层的节点数与对应语言模型的字典的字符数量保持一致。5.根据权利要求1所述的语音端点检测方法，其特征在于，所述自适应加权融合的过程中，原始音频的信噪比越低时，所述浅层声学特征的权重越大。6.根据权利要求1所述的语音端点检测方法，其特征在于，所述时序特征通过时序感知的神经网络取得。7.根据权利要求1所述的语音端点...

【专利技术属性】
技术研发人员：李琳，王捷，洪青阳，
申请(专利权)人：厦门大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人