自动语音识别方法和系统技术方案

技术编号:10291919 阅读:172 留言:0更新日期:2014-08-06 19:23
本申请公开了一种自动语音识别方法和系统,包括:对生语料进行语料分类计算,得到一个以上不同类别的分类语料;针对所述每个分类语料进行训练得到一个以上对应的分类语言模型;依据分类的生僻程度为所述各个分类语言模型进行加权插值处理,其中各分类的生僻程度与该分类对应的加权值成正相关关系,将加权插值处理后的分类语言模型合并,得到插值语言模型;依据声学模型和所述插值语言模型构建解码资源;依据所述解码资源,对输入的语音进行解码,输出概率值最高的字符串作为所述输入语音的识别结果。利用本发明专利技术,可以提高对生僻词语的语音的识别准确率。

【技术实现步骤摘要】
【专利摘要】本申请公开了一种自动语音识别方法和系统,包括:对生语料进行语料分类计算,得到一个以上不同类别的分类语料;针对所述每个分类语料进行训练得到一个以上对应的分类语言模型;依据分类的生僻程度为所述各个分类语言模型进行加权插值处理,其中各分类的生僻程度与该分类对应的加权值成正相关关系,将加权插值处理后的分类语言模型合并,得到插值语言模型;依据声学模型和所述插值语言模型构建解码资源;依据所述解码资源,对输入的语音进行解码,输出概率值最高的字符串作为所述输入语音的识别结果。利用本专利技术,可以提高对生僻词语的语音的识别准确率。【专利说明】自动语音识别方法和系统
本申请涉及自动语音识别(ASR, Automatic Speech Recognition)
,尤其涉及一种自动语音识别方法和系统。
技术介绍
自动语音识别技术是将人类的语音中的词汇内容转换为计算机可读的输入字符的一项技术。语音识别具有复杂的处理流程,主要包括声学模型训练、语言模型训练、解码资源构建、以及解码四个过程。图1为现有自动语音识别系统的一种主要处理流程的示意图。参见图1,主要处理过程包括:步骤101和102,需要根据声学原料进行声学模型训练得到声学模型,以及根据生语料进行语言模型训练得到语言模型。所述声学模型是语音识别系统中最为重要的部分之一,目前的主流语音识别系统多采用隐马尔科夫模型(HMM,Hidden Markov Model)进行建模,隐马尔可夫模型是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。在隐马尔可夫模型中,状态并不是直接可见的,但受状态影响的某些变量则是可见的。在声学模型中描述了语音与音素的对应概率。所述音素是根据语音的自然属性划分出来的最小语音单位。从声学性质来看,音素是从音质角度划分出来的最小语音单位;从生理性质来看,一个发音动作形成一个音素。 所述语言模型主要构建为字符串s的概率分布P (S),反映了字符串s作为一个句子出现的概率。假设W为字符串S中的每个词,则:P (s) =p (W1W2W3...wn) =p (W1) p (w21W1) p (w31W1W2)...p (wk | W1W2..W^1)步骤103,依据所述声学模型和语言模型,以及预设的词典,构建相应的解码资源。所述解码资源为加权优先转换机(WFST, weighted finite state transducer)网络。步骤104、将语音输入到解码器,解码器依据所构建的解码资源对所述语音进行解码,输出概率值最高的字符串作为所述输入语音的识别结果。但是,现有的语音识别技术多基于普适性的语音识别应用,即针对常用说话识别来进行模型搭建,这种情况下,语言模型的训练语料主要根据数据采集以及实际用户的输入,虽然从某种程度上较好地反映了用户的说话习惯,针对日常用语往往有较好的识别效果;但是,由于语言模型的训练语料中关于生僻词语较少出现,例如医药名和地名等,不能形成有效的概率统计模型,语言模型中生僻词语对应字符串的概率值非常低,因此当需要识别用户说出的较为生僻的词语的时候,往往会发生数据偏移问题,即识别出的字符串不是用户说出的词语,也就是说对于生僻词语的语音的识别准确率较低,难以取得较好的识别结果。
技术实现思路
有鉴于此,本专利技术的主要目的在于提供一种自动语音识别方法和系统,以提高对生僻词语的语音的识别准确率。本专利技术的一种技术方案是这样实现的:一种自动语音识别方法,包括:对生语料进行语料分类计算,得到一个以上不同类别的分类语料;针对所述每个分类语料进行语言模型训练计算,得到一个以上对应的分类语言模型;依据分类的生僻程度为所述各个分类语言模型进行加权插值处理,其中各分类的生僻程度与该分类对应的加权值成正相关关系,将加权插值处理后的分类语言模型合并,得到插值语言模型;依据声学模型和所述插值语言模型构建解码资源;依据所述解码资源,对输入的语音进行解码,输出概率值最高的字符串作为所述输入语音的识别结果。一种自动语音识别系统,包括:分类处理模块,用于对生语料进行语料分类计算,得到一个以上不同类别的分类语料;分类语言模型训练模块,用于针对所述每个分类语料进行语言模型训练计算,得到一个以上对应的分类语言模型;加权合并模块,用于依据分类的生僻程度为所述各个分类语言模型进行加权插值处理,其中各分类的生僻程度与该分类对应的加权值成正相关关系,将加权插值处理后的分类语言模型合并,得到插值语言模型;资源构建模块,用于依据声学模型和所述插值语言模型构建解码资源;解码器,用于依据所述解码资源,对输入的语音进行解码,输出概率值最高的字符串作为所述输入语音的识别结果。与现有技术相比,本专利技术的上述技术方案对生语料进行语料分类计算和训练,得到一个以上对应的分类语言模型,从而使得生僻词语可以被分类到某一个或某几个分类语言模板中,然后依据分类的生僻程度为所述各个分类语言模型进行加权插值处理,其中各分类的生僻程度与该分类对应的加权值成正相关关系,即生僻程度越高,则对应的加权值越高,将加权插值处理后的分类语言模型合并,得到插值语言模型。这样在插值语言模板中,生僻词语所对应的字符串的概率值就会相应提高,从而减少与常用词语对应字符串的概率值的差距,后续解码过程中,当需要识别用户说出的较为生僻的词语的时候,由于生僻词语对应的字符串的概率值显著提高,因此会降低发生数据偏移的几率,提高了对于生僻词语的语音的识别准确率。本专利技术的再一种技术方案是这样实现的:一种自动语音识别方法,包括:根据生语料进行语言模型训练计算,得到主语言模型;对生语料进行语料分类计算,得到一个以上不同类别的分类语料;针对所述每个分类语料进行语言模型训练计算,得到一个以上对应的分类语言模型;依据声学模型和所述主语言模型构建主解码资源,依据所述各分类语言模型构建对应的分类解码资源;依据所述主解码资源对输入的语音进行解码,输出概率值I (W)排在前η名的η个字符串;依次根据所述各个分类语言模型对应的各分类解码资源,分别对所述η个字符串进行解码,得到每个字符串在每个分类语言模型中的概率值n (w);将每个字符串在每个分类语言模型中的概率值n (w)乘以该字符串在主语言模型中的概率值I (w)得到复合概率P (?),输出复合概率P (?)最高的字符串作为所述输入语音的识别结果。一种自动语音识别系统,包括:主语言模型训练模块,用于根据生语料进行语言模型训练计算,得到主语言模型;分类处理模块,用于对生语料进行语料分类计算,得到一个以上不同类别的分类语料;分类语言模型训练模块,用于针对所述每个分类语料进行语言模型训练计算,得到一个以上对应的分类语言模型;主资源构建模块,用于依据声学模型和所述主语言模型构建主解码资源;分类资源构建模块,用于依据所述各分类语言模型构建对应的分类解码资源;第一解码器,用于依据所述主解码资源对输入的语音进行解码,输出概率值I (W)排在前η名的η个字符串;第二解码器,用于依次根据所述各个分类语言模型对应的各分类解码资源,分别对所述η个字符串进行解码,得到每个字符串在每个分类语言模型中的概率值n (w);将每个字符串在每个分类语言模型中的概率值n (w)乘以该字符串在主语言模型中的概率值I(w本文档来自技高网
...

【技术保护点】
一种自动语音识别方法,其特征在于,包括:对生语料进行语料分类计算,得到一个以上不同类别的分类语料;针对所述每个分类语料进行语言模型训练计算,得到一个以上对应的分类语言模型;依据分类的生僻程度为所述各个分类语言模型进行加权插值处理,其中各分类的生僻程度与该分类对应的加权值成正相关关系,将加权插值处理后的分类语言模型合并,得到插值语言模型;依据声学模型和所述插值语言模型构建解码资源;依据所述解码资源,对输入的语音进行解码,输出概率值最高的字符串作为所述输入语音的识别结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:饶丰卢鲤陈波岳帅张翔王尔玉谢达东李露陆读羚
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1