语音中的领域词的识别方法、系统、设备和介质技术方案

技术编号:34128576 阅读:10 留言:0更新日期:2022-07-14 14:50
本发明专利技术公开了一种语音中的领域词的识别方法、系统、设备及介质。该方法包括:将原始语音数据转换为原始文本数据;对原始文本数据进行预处理,生成候选新词数据;计算候选新词数据的自由度信息,确定第一领域词概率;根据原始语音数据对应的声学特征和原始文本数据对应的向量特征生成融合特征向量,并将融合特征向量输入序列预测模型中,输出第二领域词概率;根据第一领域词概率和第二领域词概率,确定原始语音数据所对应的领域词的概率值。本发明专利技术根据计算自由度信息而得到的第一领域词概率和利用序列预测模型计算得到的第二领域词概率共同确定领域词的概率值,改善了领域词识别的准确性,提高了预测的精度。提高了预测的精度。提高了预测的精度。

【技术实现步骤摘要】
语音中的领域词的识别方法、系统、设备和介质


[0001]本专利技术涉及语音识别
,尤其涉及一种语音中的领域词的识别方法、系统、设备和介质。

技术介绍

[0002]近年来,伴随着语音识别技术的不断发展,语音识别技术被运用在越来越多的场景中。然而,语音识别的场景中,因原始的语料库不足,导致缺乏很多领域词,造成词汇无法识别的情况。
[0003]现有技术中,通常将语音事先转写成文本形式再进行领域词判断。但是在语音转文字的过程中,会出现因翻译错误,造成后续的领域词判断产生误差积累的现象。
[0004]因此,随着应用场景的增多,用户对语音识别系统在不同领域上的领域词识别准确率的要求越来越高。

技术实现思路

[0005]本专利技术要解决的技术问题是为了克服现有技术中领域词的识别准确率低的缺陷,提供一种语音中的领域词的识别方法、系统、设备和介质。
[0006]本专利技术是通过下述技术方案来解决上述技术问题:
[0007]第一方面,本专利技术提供一种语音中的领域词的识别方法,所述识别方法包括:
[0008]将原始语音数据转换为原始文本数据;
[0009]对所述原始文本数据进行预处理,生成候选新词数据;
[0010]计算所述候选新词数据的自由度信息,确定第一领域词概率;
[0011]根据所述原始语音数据对应的声学特征和所述原始文本数据对应的向量特征生成融合特征向量,并将所述融合特征向量输入序列预测模型中,输出第二领域词概率;
[0012]基于所述第一领域词概率和所述第二领域词概率,确定所述原始语音数据所对应的领域词的概率值;
[0013]其中,所述序列预测模型是根据待训练的样本语音数据和标注后的样本语音数据基于循环神经网络训练而得到的,所述标柱后的样本语音数据的每一帧具有领域词标签或者非领域词标签。
[0014]较佳地,所述计算所述候选新词数据的自由度信息,确定第一领域词概率的步骤,包括:
[0015]确定所述候选新词数据的自由度衡量指标;
[0016]计算所述候选新词数据的凝聚度指标;
[0017]基于所述自由度衡量指标和所述凝聚度指标,计算出所述第一领域词概率。
[0018]较佳地,所述对所述原始文本数据进行预处理,生成候选新词数据的步骤,包括:
[0019]对所述原始文本数据进行分词处理,生成若干个原始词汇;
[0020]将所述原始词汇中的预设词频的词汇和语气词汇进行清洗,生成所述候选新词数
据。
[0021]较佳地,所述基于所述第一领域词概率和所述第二领域词概率,确定所述原始语音数据所对应的成词概率的步骤,包括:
[0022]根据所述第一领域词概率和所述第二领域词概率的加权结果或者求和结果,计算得到所述领域词的概率值。
[0023]第二方面,本专利技术提供一种语音中的领域词的识别系统,所述识别系统包括:
[0024]转换模块,用于将原始语音数据转换为原始文本数据;
[0025]预处理模块,用于对所述原始文本数据进行预处理,生成候选新词数据;
[0026]计算模块,用于计算所述候选新词数据的自由度信息,确定出第一领域词概率;
[0027]模型预测模块,用于根据所述原始语音数据对应的声学特征和所述原始文本数据对应的向量特征生成融合特征向量,并将所述融合特征向量输入序列预测模型中,输出第二领域词概率;
[0028]确定模块,用于基于所述第一领域词概率和所述第二领域词概率,确定所述原始语音数据所对应的领域词的概率值;
[0029]其中,所述序列预测模型是根据待训练的样本语音数据和标注后的样本语音数据基于循环神经网络训练而得到的,所述标柱后的样本语音数据的每一帧具有领域词标签或者非领域词标签。
[0030]较佳地,所述计算模块,包括:
[0031]确定单元,用于确定所述候选新词数据的自由度衡量指标;
[0032]第一计算单元,用于计算所述候选新词数据的凝聚度指标;
[0033]第二计算单元,用于基于所述自由度衡量指标和所述凝聚度指标,计算出所述第一领域词概率。
[0034]较佳地,所述预处理模块,包括:
[0035]第一处理单元,用于对所述原始文本数据进行分词处理,生成若干个原始词汇;
[0036]第二处理单元,用于将所述原始词汇中的特殊词频的词汇和语气词汇进行清洗,生成所述候选新词数据。
[0037]较佳地,所述确定模块,包括:
[0038]第三计算单元,用于根据所述第一领域词概率和所述第二领域词概率的加权结果或者求和结果,计算得到所述领域词的概率值。
[0039]第三方面,本专利技术提供一种电子设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现第一方面所述的语音中的领域词的识别方法。
[0040]第四方面,本专利技术提供一种计算机可读存储介质,所述计算机可读存储介质上计算机程序,所述计算机程序被处理器执行时实现第一方面所述的语音中的领域词的识别方法。
[0041]本专利技术的积极进步效果在于:提供一种语音中的领域词的识别方法、系统、设备和介质,该识别方法计算自由度信息而得到第一领域词概率和由序列预测模型计算得到第二领域词概率共同确定领域词的概率值,改善了领域词识别的准确性,提高了领域词预测的精度大小;通过对原始语音数据进行声学特征提取后,再对原始文本数据进行向量特征提
取,将两者进行特征融合后使用序列预测模型计算出第二领域词概率,防止了大量非领域词被挖掘,从而提高了预测的精确度。
附图说明
[0042]图1为本专利技术实施例1的语音中的领域词的识别方法的流程图。
[0043]图2为本专利技术实施例1的语音中的领域词的识别方法的步骤S13的流程图。
[0044]图3为本专利技术实施例1的语音中的领域词的识别方法的步骤S12的流程图。
[0045]图4为本专利技术实施例1的语音中的领域词的识别方法的多级策略机制的领域词挖掘流程图。
[0046]图5为本专利技术实施例2的语音中的领域词的识别系统的模块示意图。
[0047]图6为本专利技术实施例3的电子设备的硬件结构示意图。
具体实施方式
[0048]下面通过实施例的方式进一步说明本专利技术,但并不因此将本专利技术限制在所述的实施例范围之中。
[0049]实施例1
[0050]本实施例中,提供一种语音中的领域词的识别方法,如图1所示,该识别方法包括:
[0051]S11、将原始语音数据转换为原始文本数据。
[0052]S12、对原始文本数据进行预处理,生成候选新词数据。
[0053]S13、计算候选新词数据的自由度信息,确定第一领域词概率。
[0054]S14、根据原始语音数据对应的声学特征和原始文本数据对应的向量特征生成融合特征向量,并将融合特征向量输入序列预测模型本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音中的领域词的识别方法,其特征在于,所述识别方法包括:将原始语音数据转换为原始文本数据;对所述原始文本数据进行预处理,生成候选新词数据;计算所述候选新词数据的自由度信息,确定第一领域词概率;根据所述原始语音数据对应的声学特征和所述原始文本数据对应的向量特征生成融合特征向量,并将所述融合特征向量输入序列预测模型中,输出第二领域词概率;基于所述第一领域词概率和所述第二领域词概率,确定所述原始语音数据所对应的领域词的概率值;其中,所述序列预测模型是根据待训练的样本语音数据和标注后的样本语音数据基于循环神经网络训练而得到的,所述标柱后的样本语音数据的每一帧具有领域词标签或者非领域词标签。2.如权利要求1所述的语音中的领域词的识别方法,其特征在于,所述计算所述候选新词数据的自由度信息,确定第一领域词概率的步骤,包括:确定所述候选新词数据的自由度衡量指标;计算所述候选新词数据的凝聚度指标;基于所述自由度衡量指标和所述凝聚度指标,计算出所述第一领域词概率。3.如权利要求1所述的语音中的领域词的识别方法,其特征在于,所述对所述原始文本数据进行预处理,生成候选新词数据的步骤,包括:对所述原始文本数据进行分词处理,生成若干个原始词汇;将所述原始词汇中的预设词频的词汇和语气词汇进行清洗,生成所述候选新词数据。4.如权利要求1所述的语音中的领域词的识别方法,其特征在于,所述基于所述第一领域词概率和所述第二领域词概率,确定所述原始语音数据所对应的领域词的概率值的步骤,包括:根据所述第一领域词概率和所述第二领域词概率的加权结果或者求和结果,计算得到所述领域词的概率值。5.一种语音中的领域词的识别系统,其特征在于,所述识别系统包括:转换模块,用于将原始语音数据转换为原始文本数据;预处理模块,用于对所述原始文本数据进行预处理,生成候选新词数据;计算模块,用于计算所述候选新词数据的自由度信息,...

【专利技术属性】
技术研发人员:陈文浩罗超邹宇郝竹林张启祥
申请(专利权)人:携程旅游信息技术上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1