语音文本实体纠错方法、装置、电子设备及存储介质制造方法及图纸

技术编号:37772440 阅读:16 留言:0更新日期:2023-06-06 13:38
本申请涉及一种语音文本实体纠错方法、装置、电子设备及存储介质,其中,方法包括:获取当前时刻抽取的当前实体当前意图、和当前环境状态,并进行拼音标注得到标注实体;基于当前意图,从预设的意图实体映射库中匹配对应的映射实体候选集,并计算标注实体与映射实体候选集中每个候选实体之间的拼音相似度;将大于第一预设阈值的候选实体按照预设排列规则生成实体召回集,并将多组向量集合输入至预设的评分模型,得到得分;若实体召回集中候选实体的最高分与各个实体对应拼接向量的最高分的差值大于或等于第二预设阈值,则将实体召回集中候选实体的最高分对应的实体替换当前实体,得到最终实体。由此,解决了通用领域候选词数量巨大纠错难度高的问题。巨大纠错难度高的问题。巨大纠错难度高的问题。

【技术实现步骤摘要】
语音文本实体纠错方法、装置、电子设备及存储介质


[0001]本申请涉及智能驾驶
,特别涉及一种语音文本实体纠错方法、装置、电子设备及存储介质。

技术介绍

[0002]在智能语音助手控制架构中,自然语言理解模型(NLU)是极其重要的一环,其中有两个最主要的任务是意图识别和实体抽取。而在语音转文本(ASR)中因为音色、环境、设备的因素,导致语音转文本的时候某些关键实体转换可能出现误差。目前大多数处理这个转换错误的方式是在NLU之前,通过词语的拼音结合语法和概率模型通篇纠错,这种方式的纠错词候选集面向整个通用领域,对于专有领域和低频词的纠错效果并不好。而在自然语音理解模型中,需重点考虑意图和实体的准确性,结合意图识别结果来辅助实体的纠错能极大减小纠错词候选集提高专有领域和低频词的纠错准确性。
[0003]相关技术中提出一种基于拼音相同或相似的中文文本纠错方法,通过在传统ngrams语言模型基础上做调整,建立粒度为单个中文字符的中文字结构语言模型,并对待纠错语句进行候选处理,生成候选序列,并基于混淆集和MAD(Mean Absolute Differences,平均绝对差算法)算法对候选序列进行检错,获得待纠错语句候选序列,并基于中文字结构语言模型的最大后验概率,使用双选Viterbi算法解码输出纠错结果;另一种提出一种特定领域的语音识别文本纠错方法,通过获取待纠错的文本序列,并使用通用领域语料模型和特定领域语料模型识别文本序列中的每一个文本序列,得到通用领域判定结果和特定领域判定结果,并当所述通用领域判定结果和所述特定领域判定结果是否都是存在错误字词且所述错误字词同一时,根据通用领域判定结果和特定领域判定结果确定候选词清单,并将候选词依次代入文本序列中得到纠正序列,并使用通用领域语料模型和特定领域语料模型验证纠正序列,若验证通过,输出纠正序列作为纠正结果。
[0004]然而,相关技术中存在使用通用领域语料需要验证的候选词数量巨大,纠错准确率较低,对于低频词纠错困难等问题。

技术实现思路

[0005]本申请提供一种语音文本实体纠错方法、装置、电子设备及存储介质,以解决相关技术中使用通用领域语料需要验证的候选词数量巨大,纠错准确率较低,对于低频词纠错困难等问题,提升纠错准确率。
[0006]本申请第一方面实施例提供一种语音文本实体纠错方法,包括以下步骤:获取当前时刻抽取的当前实体、当前意图和当前环境状态,并对所述当前实体进行拼音标注,得到标注实体;基于所述当前意图,从预设的意图实体映射库中匹配对应的映射实体候选集,并计算所述标注实体与所述映射实体候选集中每个候选实体之间的拼音相似度;将所述拼音相似度大于第一预设阈值的候选实体按照预设排列规则生成实体召回集,并将由所述当前实体、所述当前意图、所述当前环境状态和所述实体召回集得到的多组向量集合输入至预
设的评分模型,得到当前实体对应拼接向量的得分和所述实体召回集中候选实体对应拼接向量的得分;以及所述实体召回集中候选实体对应拼接向量的得分中的最高分与所述当前实体对应拼接向量的得分差值大于或等于第二预设阈值,则将实体召回集中候选实体对应拼接向量的得分中的最高分对应的实体替换所述当前实体,得到最终实体。
[0007]根据上述技术手段,本申请可以解决相关技术中使用通用领域语料需要验证的候选词数量巨大,纠错准确率较低,对于低频词纠错困难等问题,提升纠错准确率。
[0008]可选地,在一些实施例中,在将所述实体召回集中候选实体对应拼接向量的得分中的最高分对应的实体替换所述当前实体之后,还包括:判断所述最终实体是否被纠错,且所述最终实体是否在所述预设的意图实体映射库中;若所述最终实体未被纠错,且所述最终实体未在所述预设的意图实体映射库中,则将所述最终实体添加至所述预设的意图实体映射库。
[0009]根据上述技术手段,本申请可以更新意图实体映射库,提升后续纠错准确率。
[0010]可选地,在一些实施例中,所述由所述当前实体、所述当前意图、当前环境状态和所述实体召回集得到多组向量集合,包括:将所述当前意图进行embedding得到当前意图embedding;将所述当前实体、所述当前环境状态与所述实体召回集中的候选实体分别进行embedding,得到当前实体embedding和实体召回集embedding;将所述当前实体embedding、所述实体召回集embedding中的候选实体embedding分别与所述当前意图embedding、上一时刻的意图状态向量、上一时刻的实体状态向量和所述当前环境状态的embeding进行向量拼接,得到所述多组向量集合。
[0011]根据上述技术手段,本申请可以丰富纠错模型,提升纠错准确率。
[0012]可选地,在一些实施例中,在将所述最终实体添加至所述预设的意图实体映射库之后,还包括:基于预设的lstm算法,将所述上一时刻的意图状态向量作为隐藏状态输入,将所述当前意图进行embedding作为Xt输入,输出所述当前时刻的意图状态向量,以在下一时刻用于得到所述多组向量集合;基于预设的lstm(Long short

term memory,长短期记忆)算法,将所述上一时刻的实体状态向量作为隐藏状态输入,将所述当前实体进行embedding作为Xt输入,输出所述当前时刻的实体状态向量,以在下一时刻用于得到所述多组向量集合。
[0013]根据上述技术手段,本申请可以解决相关技术中通用领域语料需要验证的候选词数量巨大的问题,提升纠错准确率。
[0014]可选地,在一些实施例中,在将由所述当前实体、所述当前意图和所述实体召回集得到的多组向量集合输入至所述预设的评分模型之前,还包括:基于满足预设要求的意图和实体向量拼接历史状态得到正样本;基于所述当前实体和所述当前意图,将所述实体召回集中的候选实体分别进行向量拼接操作得到负样本;基于所述预设的lstm算法,利用所述正样本和所述负样本训练初始评分模型,得到所述预设的评分模型。
[0015]根据上述技术手段,本申请可以根据评分模型,解决纠错准确率低,对低频词纠错困难的问题,提升纠错准确率。
[0016]可选地,在一些实施例中,在获取所述当前时刻抽取的所述当前实体之前,还包括:获取意图实体识别结果,并基于所述意图实体识别结果和预设的数据集得到所述预设的意图实体映射库;对所述预设的意图实体映射库进行拼音标注,并基于预设的浏览量对
拼音标注后的所述实体映射库进行权重标注处理。
[0017]根据上述技术手段,本申请可以通过意图实体映射库进行权重处理,提升纠错准确率。
[0018]可选地,在一些实施例中,在计算所述标注实体与所述映射实体候选集中每个候选实体之间的拼音相似度之后,还包括:若所述拼音相似度均小于所述第一预设阈值,则将所述当前实体作为所述最终实体。
[0019]根据上述技术手段,本申请可以解决相关技术中使用通用领域语料需要验证的候选词数量巨大,对于低频词纠错困难等问题,提升纠错准确率本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音文本实体纠错方法,其特征在于,包括以下步骤:获取当前时刻抽取的当前实体、当前意图和当前环境状态,并对所述当前实体进行拼音标注,得到标注实体;基于所述当前意图,从预设的意图实体映射库中匹配对应的映射实体候选集,并计算所述标注实体与所述映射实体候选集中每个候选实体之间的拼音相似度;将所述拼音相似度大于第一预设阈值的候选实体按照预设排列规则生成实体召回集,并将由所述当前实体、所述当前意图、所述当前环境状态和所述实体召回集得到的多组向量集合输入至预设的评分模型,得到当前实体对应拼接向量的得分和所述实体召回集中候选实体对应拼接向量的得分;若所述实体召回集中候选实体对应拼接向量的得分中的最高分与所述当前实体对应拼接向量的得分的差值大于或等于第二预设阈值,则将所述实体召回集中候选实体对应拼接向量的得分中的最高分对应的实体替换所述当前实体,得到最终实体。2.根据根据权利要求1所述的方法,其特征在于,在将所述实体召回集中候选实体对应拼接向量的得分中的最高分对应的实体替换所述当前实体之后,还包括:判断所述最终实体是否被纠错,且所述最终实体是否在所述预设的意图实体映射库中;若所述最终实体未被纠错,且所述最终实体未在所述预设的意图实体映射库中,则将所述最终实体添加至所述预设的意图实体映射库。3.根据权利要求2所述的方法,其特征在于,所述由所述当前实体、所述当前意图、当前环境状态和所述实体召回集得到多组向量集合,包括:将所述当前意图进行embedding得到当前意图embedding;将所述当前实体、所述当前环境状态与所述实体召回集中的候选实体分别进行embedding,得到当前实体embedding、当前环境状态的embeding和实体召回集embedding;将所述当前实体embedding、所述实体召回集embedding中的候选实体embedding分别与所述当前意图embedding、上一时刻的意图状态向量、上一时刻的实体状态向量和所述当前环境状态的embeding进行向量拼接,得到所述多组向量集合。4.根据权利要求3所述的方法,其特征在于,在将所述最终实体添加至所述预设的意图实体映射库之后,还包括:基于预设的lstm算法,将所述上一时刻的意图状态向量作为隐藏状态输入,将所述当前意图进行embedding作为Xt输入,输出所述当前时刻的意图状态向量,以在下一时刻用于得到所述多组向量集合;基于预设的lstm算法,将所述上一时刻的实体状态向量作为隐藏状态输入,将所述当前实体进行embedding作为Xt输入,输出所述当前时刻的实体状态向量,以在下一时刻用于得到所述多组向量集合。5.根据权利要求1所述的方法,其特征在于,在将由所述当前实体、所述当前意图和所述实体召回集得到的多组向量集合输入至所述预设的评分模型之前,还包括:基于满足预设要求的意图和实体向量拼接历史状态得到正样本;基于所述当前实体和所述当前意图,将所述实体召回集中的候选实体分别进行向量拼接操作得到负样本;
基于所述预设的lstm算法,利用所述正样本和所述负样本训练初始评分模型,得到所述预设的评分模型。6.根据权利要求1所述的方法,其特征在于,在获取所述当前时刻抽取的所述当前实体之前,还包括:获取意图实体识别结果,并基于所述意图实体识别结果和预设的数据集得到所述预设的意图实体映射库;对所述预设的意图实体映射库进行拼音标注,并基于预设的浏览量对拼音标注后的所述实体映射库进行权重标注处理。7.根据权利要求1所述的方法,其特征在于,在计算所述标注实体与所述映射实体候选集中每个候选实体之间的拼音相似度之后,还包括:若所述拼音相似度均小于所述第一预设阈值,则将所述当前实体作为所述最终实体。8.根据权利要求1所述的方法,其特征在于,在得到所述当前实体对应拼接向量的得分和所述实体召回集中候选实体对应拼接向量的得分之后,还包括:若所述实体召回集中候选实体对应拼接向量的得分中的最高分与所述当前实体对应拼接向量的得分的差值小于所述第二预设阈值,则将所述当前实体作为所述最终实体。9.一种语音文本实体纠错装置,其特征在于,包括:获取模块,用于获取当前时刻抽取的当前实体、当前意图和当前环境状态,并对所述当前实体进行拼音标注,得到标注实体;匹配模块,用于基于所述当前意图,从预设的意图实体映射库中匹配对应的映射实体候选集,并计算所述标注实体与所述映射实体候选集中每个候选实体之间的拼音相似度;生成模块,用于将所述拼音相似度大于...

【专利技术属性】
技术研发人员:罗川罗咏刚谭瑞杨俱成赵天棋
申请(专利权)人:重庆长安汽车股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1