语音识别方法和装置、计算机可读存储介质制造方法及图纸

技术编号:33091332 阅读:30 留言:0更新日期:2022-04-15 11:05
本申请公开了一种语音识别方法和装置、计算机可读存储介质,属于语音交互技术领域。所述语音识别方法先根据语音信息获取第一文本,并获取第一语义;其中第一文本包括第一实体文本序列,第一语义包括与第一实体文本序列对应的第一实体语义,且第一实体语义有对应的实体类型标签;再判断第一语义是否符合预设标准;若是,将第一语义作为语音识别结果;否则,将第一文本中的第一实体文本序列替换为对应的发音编码序列,并为发音编码序列添加实体类型标签,以获得纠错文本;根据发音编码序列获得第二实体文本序列,并使实体类型标签与第二实体文本序列相匹配,以获得第二文本;利用第二文本获取语音识别结果。本申请提高语音识别及语义理解的准确性。义理解的准确性。义理解的准确性。

【技术实现步骤摘要】
语音识别方法和装置、计算机可读存储介质


[0001]本申请涉及语音交互
,特别是涉及一种语音识别方法和装置、计算机可读存储介质。

技术介绍

[0002]随着语音交互技术的发展,相关的语音交互应用越来越广泛。语音交互中,需要根据用户输入的语音信息获得语义信息,从而根据语义信息对用户做出响应。但是如果用户输入的语音信息中部分关键信息有错误,则会获得错误的语义信息,后端在接收到错误的语义信息后无法给出用户期望的响应,造成交互失败。

技术实现思路

[0003]本申请主要解决的技术问题是提供一种语音识别方法和装置、计算机可读存储介质,能够提高语音识别及语义理解的准确性。
[0004]为解决上述技术问题,本申请采用的一个技术方案是:提供一种语音识别方法,包括:
[0005]根据语音信息获取第一文本,并根据所述第一文本获取第一语义;其中,所述第一文本包括第一实体文本序列,所述第一语义包括与所述第一实体文本序列对应的第一实体语义,且所述第一实体语义具有对应的实体类型标签;
[0006]判断所述第一语义是否符合预设标准;
[0007]若是,则将所述第一语义作为所述语音识别结果;
[0008]否则,将所述第一文本中的所述第一实体文本序列替换为对应的发音编码序列,并为所述发音编码序列添加所述实体类型标签,以获得纠错文本;根据所述发音编码序列获得第二实体文本序列,并使所述实体类型标签与所述第二实体文本序列相匹配,以获得第二文本;利用所述第二文本获取所述语音识别结果。
[0009]其中,所述根据所述发音编码序列获得第二实体文本序列,并使所述实体类型标签与所述第二实体文本序列相匹配,以获得第二文本的步骤,包括:
[0010]对纠错模型进行训练;
[0011]将所述纠错文本输入所述纠错模型,并将所述纠错模型的输出作为所述第二文本。
[0012]其中,所述对纠错模型进行训练的步骤,包括:
[0013]提供第一训练文本,所述第一训练文本中包括发音编码样本序列,且所述发音编码样本序列带有与之匹配的文本标注样本序列和类型标注样本序列;
[0014]将所述第一训练文本输入至所述纠错模型中获得第一预测结果;
[0015]基于所述第一训练文本和所述第一预测结果调整所述纠错模型中参数的值,以使得所述第一预测结果向第一期望文本靠近,所述第一期望文本包括所述文本标注样本序列和所述类型标注样本序列。
[0016]其中,所述对纠错模型进行训练的步骤之前,还包括:
[0017]对预训练语言模型进行训练;
[0018]利用训练后的所述预训练语言模型的参数初始化所述纠错模型中编码层的参数。
[0019]其中,所述对预训练语言模型进行训练的步骤,包括:
[0020]提供初始文本,所述初始文本中包含多个文字,且所述初始文本表达正确的语义;
[0021]获得所述初始文本中每个文字被替换为预设集合内任一其他文字的第一概率,并以所述第一概率将所述初始文本中至少一个文字替换为所述预设集合内的其他文字,以获得第二训练文本;
[0022]将所述第二训练文本输入至所述预训练语言模型中获得第二预测结果;
[0023]基于所述初始文本和所述第二预测结果调整所述预训练语言模型中参数的值,以使得所述第二预测结果向所述初始文本靠近。
[0024]其中,所述获得所述初始文本中每个文字被替换为预设集合内任一其他文字的第一概率的步骤,包括:
[0025]针对所述初始文本中的每一文字,获得当前文字与所述预设集合内任一其他文字之间的发音相似度和含义相似度;
[0026]获得与所述当前文字相关的所有所述发音相似度的第一和值、以及与所述当前文字相关的所有所述含义相似度的第二和值;
[0027]获得所述当前文字与另一文字之间的发音相似度与所述第一和值的第一比值、以及所述当前文字与所述另一文字之间的含义相似度与所述第二和值的第二比值;
[0028]获得所述第一比值与第一概率的第一乘积、以及所述第二比值与第二概率的第二乘积,并将所述第一乘积和所述第二乘积之和作为所述第一概率;其中,所述第一概率和所述第二概率之和小于1。
[0029]其中,所述第一实体语义属于集合类实体或者特征类实体,所述第一实体文本序列包括第一集合实体文本序列和第一特征实体文本序列,所述第一集合实体文本序列的语义理解结果为属于所述集合类实体的第一实体语义,所述第一特征实体文本序列的语义理解结果为属于所述特征类实体的第一实体语义;所述利用所述第二文本获取所述语音识别结果的步骤,包括:
[0030]根据所述第二文本获取第二语义,并判断所述第二文本与所述第一文本之间的差异是否仅与所述第一特征实体文本序列相关;
[0031]若是,则将所述第二语义作为所述语音识别结果;
[0032]否则,响应于所述第二语义符合所述预设标准,将所述第二语义作为所述语音识别结果,响应于所述第二语义不符合所述预设标准,将所述第一语义作为所述语音识别结果。
[0033]其中,所述第一语义还包括第一意图语义,所述第一意图语义是对所述第一文本进行意图语义理解获得的,所述根据所述第二文本获取第二语义的步骤,包括:
[0034]对所述第二文本进行意图语义理解以获得第二意图语义,以及根据相互匹配的所述第二实体文本序列和所述实体类型标签获得第二实体语义;
[0035]将所述第二意图语义和所述第二实体语义组合以获得所述第二语义。
[0036]其中,所述第一语义包括第一意图语义和所述第一实体语义的组合,所述第一实
体语义属于集合类实体或者特征类实体;所述判断所述第一语义是否符合预设标准的步骤,包括:
[0037]判断所述第一语义包括的组合是否在预设的合理组合列表中;
[0038]若不在,则判定所述第一语义不符合所述预设标准;
[0039]若在,则进一步判断是否同时满足,所述第一实体语义均属于所述集合类实体,且所述第一实体语义在预设的集合类实体列表中;若同时满足,则判定所述第一语义符合所述预设标准;若不是同时满足,则判定所述第一语义不符合所述预设标准。
[0040]其中,所述利用所述第二文本获取语音识别结果的步骤之前,还包括:
[0041]判断所述第二文本中的字符及字符顺序是否与所述第一文本匹配;
[0042]若是,则不执行所述利用所述第二文本获取语音识别结果的步骤,并将所述第一语义作为所述语音识别结果;
[0043]否则,执行所述利用所述第二文本获取语音识别结果的步骤。
[0044]为解决上述技术问题,本申请采用的另一个技术方案是:提供一种语音识别装置,包括:
[0045]第一语义获取模块,用于根据语音信息获取第一文本,并根据所述第一文本获取第一语义;其中,所述第一文本包括第一实体文本序列,所述第一语义包括与所述第一实体文本序列对应的第一实体语义,且所述第一实体语义具有对应的实本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:根据语音信息获取第一文本,并根据所述第一文本获取第一语义;其中,所述第一文本包括第一实体文本序列,所述第一语义包括与所述第一实体文本序列对应的第一实体语义,且所述第一实体语义具有对应的实体类型标签;判断所述第一语义是否符合预设标准;若是,则将所述第一语义作为所述语音识别结果;否则,将所述第一文本中的所述第一实体文本序列替换为对应的发音编码序列,并为所述发音编码序列添加所述实体类型标签,以获得纠错文本;根据所述发音编码序列获得第二实体文本序列,并使所述实体类型标签与所述第二实体文本序列相匹配,以获得第二文本;利用所述第二文本获取所述语音识别结果。2.根据权利要求1所述的语音识别方法,其特征在于,所述根据所述发音编码序列获得第二实体文本序列,并使所述实体类型标签与所述第二实体文本序列相匹配,以获得第二文本的步骤,包括:对纠错模型进行训练;将所述纠错文本输入所述纠错模型,并将所述纠错模型的输出作为所述第二文本。3.根据权利要求2所述的语音识别方法,其特征在于,所述对纠错模型进行训练的步骤,包括:提供第一训练文本,所述第一训练文本中包括发音编码样本序列,且所述发音编码样本序列带有与之匹配的文本标注样本序列和类型标注样本序列;将所述第一训练文本输入至所述纠错模型中获得第一预测结果;基于所述第一训练文本和所述第一预测结果调整所述纠错模型中参数的值,以使得所述第一预测结果向第一期望文本靠近,所述第一期望文本包括所述文本标注样本序列和所述类型标注样本序列。4.根据权利要求2所述的语音识别方法,其特征在于,所述对纠错模型进行训练的步骤之前,还包括:对预训练语言模型进行训练;利用训练后的所述预训练语言模型的参数初始化所述纠错模型中编码层的参数。5.根据权利要求4所述的语音识别方法,其特征在于,所述对预训练语言模型进行训练的步骤,包括:提供初始文本,所述初始文本中包含多个文字,且所述初始文本表达正确的语义;获得所述初始文本中每个文字被替换为预设集合内任一其他文字的第一概率,并以所述第一概率将所述初始文本中至少一个文字替换为所述预设集合内的其他文字,以获得第二训练文本;将所述第二训练文本输入至所述预训练语言模型中获得第二预测结果;基于所述初始文本和所述第二预测结果调整所述预训练语言模型中参数的值,以使得所述第二预测结果向所述初始文本靠近。6.根据权利要求5所述的语音识别方法,其特征在于,所述获得所述初始文本中每个文字被替换为预设集合内任一其他文字的第一概率的步骤,包括:针对所述初始文本中的每一文字,获得当前文字与所述预设集合内任一其他文字之间
的发音相似度和含义相似度;获得与所述当前文字相关的所有所述发音相似度的第一和值、以及与所述当前文字相关的所有所述含义相似度的第二和值;获得所述当前文字与另一文字之间的发音相似度与所述第一和值的第一比值、以及所述当前文字与所述另一文字之间的含义相似度与所述第二和值的第二比值;获得所述第一比值与第一概率的第一乘积、以及所述第二比值与第二概率的第二乘积,并将所述第一乘积和所述第二乘积之和作为所述第一概率;其中,所述第一概率和所述第二概率之和小于1。7.根据权利要求1所述的语音识别方法,其特征在于,所述第一实体语义属于集合类实体或者特征类实体,所述第一实体文本序列包括第一集合实体文本序列和第一特征实体文本序...

【专利技术属性】
技术研发人员:艾坤梅林海刘权陈志刚王智国胡国平
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1