一种利用话术语句提升语音识别准确率的识别方法技术

技术编号:25712029 阅读:15 留言:0更新日期:2020-09-23 02:58
本发明专利技术公开了一种利用话术语句提升语音识别准确率的识别方法,涉及语音识别技术领域,提出用话术中配置的语句动态更新语言模型提高语音识别的准确率;在构建语音识别系统过程中,仍然以通用性的文本资源训练第一语言模型;在自定义对话机器人的话术之后,用对话语句文本训练第二语言模型;最终的语言模型融合第一语言模型和第二语言模型,使得语音识别系统对自定义场景下的语音有更好的准确率。

【技术实现步骤摘要】
一种利用话术语句提升语音识别准确率的识别方法
本专利技术涉及语音识别
,特别是一种利用话术语句提升语音识别准确率的识别方法。
技术介绍
语音识别、语义理解和语音合成技术的发展,让智能语音对话机器人进入日常生活,为用户提供越来越便捷的智能语音对话服务。用户可以根据自身场景的需求,编写自定义的话术,创建符合自己需求的智能语音对话机器人。语音识别把用户说的语音转化为对应的文本,然后语义理解依据用户定义的话术语句判断用户的意图并产生应答的文本,最后语音合成应答的文本转化为语音并播放给用户。现有智能语音对话机器人系统中的语音识别具有通用性,可用于各种各样的场景,与智能语音对话机器人的类型、应用领域和交互话术的配置无关。为了能够用于多种场景,语音识别系统需要在这些场景下的准确率达到一个平衡,这导致语音识别系统在特定场景下的准确率不会太高。在实际智能语音对话机器人中,用户预设了机器人的对话场景和说话语义范围,在通用性语音识别中并没有这个假设。利用智能语音对话机器人话术中配置的候选语料增强语音识别系统,对于提高语音识别准确率和人机对话质量有重要的意义。
技术实现思路
本专利技术所要解决的技术问题是克服现有技术的不足而提供一种利用话术语句提升语音识别准确率的识别方法,本专利技术提出用话术中配置的语句动态更新语言模型提高语音识别的准确率。本专利技术为解决上述技术问题采用以下技术方案:根据本专利技术提出的一种利用话术语句提升语音识别准确率的识别方法,包括以下步骤:步骤1、使用通用性文本训练第一语言模型;训练第一语言模型具体如下:设i为正在统计的序列的长度,i为大于等于1的整数;当i等于1时,首先统计词语序列的第1个词语w1出现的次数C(w1),然后统计w1按顺序出现之后连接任一词语w的次数之和∑wC(w1,w);当i大于1时,首先统计通用型文本中词语序列w1、w2、…、wi按顺序出现的次数C(w1,w2,...,wi),然后统计文本中词语序列w1、w2、…、wi-1按顺序出现之后连接任一词语w的次数之和∑wC(w1,w2,...,wi-1,w);ws为词语序列的第s个词语,s为大于0小于(i+1)的整数;对于由词语序列w1,w2,...,wn组成的句子,n为该句子中词语的个数,其序列概率Pgeneral通过下面的公式计算得到:其中,P(wi|w1,w2,...,wi-1)为第i个词出现的条件概率,P(w1)为第1个词出现的条件概率,P(w2|w1)为第2个词出现的条件概率;C(w1,w2,...,wi)为文本中词语序列w1、w2、…、wi按顺序出现的次数,∑wC(w1,w2,...,wi-1,w)为文本中词语序列w1、w2、…、wi-1按顺序出现之后连接任一词语w的次数之和;步骤2、定义对话机器人的话术,采用话术语句训练语言模型得到第二语言模型;第二语言模型是话术语句的序列概率,具体为:对于由词语序列w1,w2,...,wn组成的话术语句,其序列概率Pdialogue通过下面的公式计算得到:其中,P(wi|w1,w2,...,wi-1)为第i个词出现的条件概率,P(w1)为第1个词出现的条件概率,P(w2|w1)为第2个词出现的条件概率;步骤3、将第一语言模型和第二语言模型融合生成最终的语言模型;最终的语言模型为:由词语序列w1,w2,...,wn组成的句子,其序列概率Pfinal(w1w2...wn)通过下面的公式计算得到;Pfinal(w1w2...wn)=λ1Pgeneral+λ2Pdialogue其中,λ1和λ2为插值系数,用于调节第一语言模型和第二语言模型在Pfinal(w1w2...wn)中的权重;步骤4、使用所述最终的语音模型生成语音识别系统,通过该语音识别系统来提升语音识别准确率。本专利技术采用以上技术方案与现有技术相比,具有以下技术效果:本专利技术提出用话术中配置的语句动态更新语言模型提高语音识别的准确率;在构建语音识别系统过程中,仍然以通用性的文本资源训练第一语言模型;在自定义对话机器人的话术之后,用对话语句文本训练第二语言模型;最终的语言模型融合第一语言模型和第二语言模型,使得语音识别系统对自定义场景下的语音有更好的准确率。具体实施方式下面对本专利技术的技术方案做进一步的详细说明:当前语音识别系统中使用的语言模型主要有统计语言模型和神经网络语言模型。需要注意的是本专利技术提出的方法不仅适用于统计语言模型也适用于神经网络语言模型。1.使用通用性文本训练第一语言模型语音识别系统通常会有大量的来自各个领域的文本语料用于训练语言模型。通用性语言模型的训练使用这些与对话系统无关的各个领域文本语料库进行训练。为了能够适应各种场景,语音识别系统通常会用来自各种场景的大量文本语料训练语言模型,这些文本与具体的对话系统无关的文本,称为通用性文本。下面以统计语言模型中最为常见的n-gram语言模型为例,说明第一语言模型训练和计算的步骤。设i为大于1的正整数,在语音识别系统的具体实现中,i通常设置为3或者4。当i=3时,称为3-gram语言模型,当i=4时称为为4-gram语言模型。首先统计通用型文本中词语w1、w2、…、wi按顺序出现的次数C(w1,w2,...,wi),然后统计文本中词语w1、w2、…、wi-1按顺序出现之后连接任一词语w的次数之和∑wC(w1,w2,...,wi-1,w)。对于句子w1,w2,...,wn,其序列概率通过下面的公式计算得到:其中,P(wi|w1,w2,...,wi-1)为每个词出现的条件概率,它可以通过统计上述统计方法计算得到:2.使用话术中配置的用户语句训练第二语言模型首先统计通用型文本中词语w1、w2、…、wi按顺序出现的次数C(w1,w2,...,wi),然后统计文本中词语w1、w2、…、wi-1按顺序出现之后连接任一词语w的次数之和∑wC(w1,w2,...,wi-1,w)。对于句子w1,w2,...,wn,其序列概率通过下面的公式计算得到:其中,P(wi|w1,w2,...,wi-1)为每个词出现的条件概率,它可以通过统计上述统计方法计算得到:3.融合第一语言模型和第二语言模型最终的语言模型由第一语言模型和第二语言模型融合得到。具体地对于句子w1,w2,...,wn,其序列概率通过下面的公式计算得到Pfinal(w1w2...wn)=λ1Pgeneral(w1w2...wn)+λ2Pdialogue(w1w2...wn)λ1和λ2为插值系数,用于调节通用语言模型和会话语言模型在Pfinal(w1w2...wn)中的权重。在具体实现中λ1和λ2的值随话术的不同而不同。以上所述,仅为本专利技术的具体实施方式,但本专利技术的保护范围并不局本文档来自技高网...

【技术保护点】
1.一种利用话术语句提升语音识别准确率的识别方法,其特征在于,包括以下步骤:/n步骤1、使用通用性文本训练第一语言模型;训练第一语言模型具体如下:/n设i为正在统计的序列的长度,i为大于等于1的整数;/n当i等于1时,首先统计词语序列的第1个词语w

【技术特征摘要】
1.一种利用话术语句提升语音识别准确率的识别方法,其特征在于,包括以下步骤:
步骤1、使用通用性文本训练第一语言模型;训练第一语言模型具体如下:
设i为正在统计的序列的长度,i为大于等于1的整数;
当i等于1时,首先统计词语序列的第1个词语w1出现的次数C(w1),然后统计w1按顺序出现之后连接任一词语w的次数之和∑wC(w1,w);
当i大于1时,首先统计通用型文本中词语序列w1、w2、…、wi按顺序出现的次数C(w1,w2,...,wi),然后统计文本中词语序列w1、w2、…、wi-1按顺序出现之后连接任一词语w的次数之和∑wC(w1,w2,...,wi-1,w);ws为词语序列的第s个词语,s为大于0小于(i+1)的整数;
对于由词语序列w1,w2,...,wn组成的句子,n为该句子中词语的个数,其序列概率Pgeneral通过下面的公式计算得到:



其中,P(wi|w1,w2,...,wi-1)为第i个词出现的条件概率,P(w1)为第1个词出现的条件概率,P(w2|w1)为第2个词出现的条件概率;



C(w1,w2,...,wi)为文本中词语序列w1、w2、…、wi按顺...

【专利技术属性】
技术研发人员:高洋洋
申请(专利权)人:升智信息科技南京有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1