基于动态时间归整算法的离线语音端点检测的方法和装置制造方法及图纸

技术编号：10531797 阅读：184 留言：0更新日期：2014-10-15 12:20

本发明专利技术公开了一种基于动态时间归整算法的离线语音端点检测的方法和装置，包括：提取语音数据的特征参数和语音能量值，并获取具有最大的语音能量值的语音数据帧；依次选择参考模板，根据所选参考模板的长度和语音数据帧，确定语音数据中孤立词语音的搜索范围及搜索窗长度的范围，进而对每个搜索起点按照多个搜索窗长度分别进行搜索，从而获取多个相应的测试模板；利用DTW算法，计算每一测试模板与所选参考模板的匹配距离得分；识别其中匹配距离得分最小的测试模板的搜索窗的起点和终点为孤立词语音端点。

全部详细技术资料下载

【技术实现步骤摘要】
基于动态时间归整算法的离线语音端点检测的方法和装置
本专利技术涉及语音识别
，尤其涉及一种基于动态时间归整算法的离线语音端点检测的方法和装置。
技术介绍
随着语音识别技术的不断发展,特定人孤立词语音识别技术已经基本成熟，并逐渐开始应用于社会众多领域。例如，在蓝牙芯片中使用特定人孤立词语音识别，可以方便用户通过语音对终端设备进行相应操作，为用户带来极大方便。在语音识别应用系统的实际环境中，输入信号包括用户说话的语音信号和背景的噪音信号等等，在输入信号中将用户说话的语音信号抽出的过程成为端点检测(VoiceActivityDetector,VAD)。端点检测在语音识别应用系统中具有重要的作用。好的端点检测算法能够提供好的系统鲁棒性，无论用户在何种环境下使用，系统的语音识别率都能维持在同一水平上几乎保持不变。目前，孤立词语音识别通常采用实时端点检测算法。采用实时语音端点检测，可以在用户讲话完毕之后马上进行识别，感觉不到延迟。但该方法对噪声比较敏感，当外界环境存在非平稳噪声，例如人声、音乐声等干扰较强的噪声时，对孤立词端点检测算法影响很大，错误判定孤立词起点和终点概率很高。因此采用实时端点检测算法很难在这种情况下准确检测到孤立词的语音端点。
技术实现思路
有鉴于此，本专利技术实施例提供了一种基于动态时间归整算法的离线语音端点检测的方法和装置，能够准确有效的检测孤立词的语音端点。第一方面，本专利技术实施例提供了一种基于动态时间归整算法的离线语音端点检测的方法，包括：获取多帧连续的语音数据；提取每帧语音数据的特征参数和语音能量值；获取所述多帧的语音数据中具有最大的语...
基于动态时间归整算法的离线语音端点检测的方法和装置

【技术保护点】
一种基于动态时间归整算法的离线语音端点检测的方法，其特征在于，所述方法包括：获取多帧连续的语音数据；提取每帧语音数据的特征参数和语音能量值；获取所述多帧的语音数据中具有最大的语音能量值的语音数据帧；依次从提供的参考模板库中选择一个参考模板直到所述参考模板库中的所有参考模板都被选择过；其中，所述参考模板是对参考语音经过训练而形成的有关所述参考语音的一组参考特征矢量序列；根据具有最大的语音能量值的语音数据帧、以及当前选择的参考模板的长度确定在所述多帧的语音数据中的搜索范围及搜索窗长度的范围，在确定的搜索范围内按照第一搜索步长逐步改变搜索起点，在每个搜索起点按照第二搜索步长逐步改变搜索窗长度，根据搜索起点和搜索窗长度的每个组合获取一个测试模板，利用动态时间归整算法计算每个测试模板与所述当前选择的参考模板的匹配距离得分，记录与当前选择的参考模板的匹配距离得分最小的测试模板及基于当前选择的参考模板的最小的匹配距离得分；从记录的与各个选择的参考模板的匹配距离得分最小的测试模板中选择匹配距离得分最小的测试模板，将所述选择的测试模板的搜索窗的起点和终点作为孤立词语音的端点。

【技术特征摘要】
1.一种基于动态时间归整算法的离线语音端点检测的方法，其特征在于，所述方法包括：获取多帧连续的语音数据；提取每帧语音数据的特征参数和语音能量值；获取所述多帧的语音数据中具有最大的语音能量值的语音数据帧；依次从提供的参考模板库中选择一个参考模板直到所述参考模板库中的所有参考模板都被选择过；其中，所述参考模板是对参考语音经过训练而形成的有关所述参考语音的一组参考特征矢量序列；根据具有最大的语音能量值的语音数据帧、以及当前选择的参考模板的长度确定在所述多帧的语音数据中的搜索范围及搜索窗长度的范围，在确定的搜索范围内按照第一搜索步长逐步改变搜索起点，在每个搜索起点按照第二搜索步长逐步改变搜索窗长度，根据搜索起点和搜索窗长度的每个组合获取一个测试模板，利用动态时间归整算法计算每个测试模板与所述当前选择的参考模板的匹配距离得分，记录与当前选择的参考模板的匹配距离得分最小的测试模板及基于当前选择的参考模板的最小的匹配距离得分；从各个所述参考模板对应的匹配距离得分最小的测试模板中，选择得分最小的测试模板，将所述选择的测试模板的搜索窗的起点和终点作为孤立词语音的端点。2.根据权利要求1所述的方法，其特征在于，在获取所述多帧的语音数据中具有最大的语音能量值的语音数据帧之后，所述方法还包括：判断所述最大的语音能量值是否低于第一门限值；如果是，则直接结束此次离线语音端点检测；如果否，则继续进行所述离线语音端点检测。3.根据权利要求1所述的方法，其特征在于，在利用动态时间归整算法计算每个测试模板与所述当前选择的参考模板的匹配距离得分之后，所述方法还包括：判断与当前选择的参考模板的匹配距离得分最小的测试模板的语音能量平均值是否低于第二门限值；如果是，则跳过后续的记录与当前选择的参考模板的匹配距离得分最小的测试模板及基于当前选择的参考模板的最小的匹配距离得分，并选择下一参考模板以确定新的测试模板；如果否，则进行后续的记录与当前选择的参考模板的匹配距离得分最小的测试模板及基于当前选择的参考模板的最小的匹配距离得分。4.根据权利要求1所述的方法，其特征在于，所述特征参数包括参考特征矢量，所述参考特征矢量具体包括：梅尔频率倒谱系数MFCC或线性预测系数LPC；所述利用动态时间归整算法计算每个测试模板与所述选择的参考模板的匹配距离得分具体为：利用动态时间归整算法，对每个所述测试模板中每一帧对应的参考特征矢量，与所述选择的参考模板中相应帧对应的参考特征矢量进行特征匹配，计算得到所述匹配距离得分。5.根据权利要求1所述的方法，其特征在于，所述第一搜索步长为n帧,第二搜索步长为m帧，所述n、m分别为大于1的整数；记录与当前选择的参考模板的匹配距离得分最小的测试模板及基于当前选择的参考模板的最小的匹配距离得分之前，所述方法还包括：确定与当前选择的参考模板的匹配距离得分最小的测试模板；基于确定的测试模板的搜索窗的起点和终点、第一搜索步长确定精细搜索范围，基于确定的测试模板的搜索窗的起点和终点、第二搜索步长确定精细搜索窗长度的范围；在确定的精细搜索范围内按照第三搜索步长逐步改变搜索起点，在每个搜索起点按照第四搜索步长逐步改变搜索窗长度，根据搜索起点和搜索窗长度的每个组合获取一个测试模板，利用动态时间归整算法计算每个测试模板与所述当前选择的参考模板的匹配距...

【专利技术属性】
技术研发人员：冯宇红，
申请(专利权)人：无锡中星微电子有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人