一种语音识别方法、系统、计算设备及存储介质技术方案

技术编号:33545804 阅读:9 留言:0更新日期:2022-05-26 22:39
本申请提供了一种语音识别方法及系统。该方法接收上传的自定义热词和相似度配置后,将所述自定义热词转换成第一音素序列,根据基于聚类算法模型获得的扩展规则对所述第一音素序列进行扩展,获得扩展后的第一音素序列,再将接收到的音频数据转换为第二音素序列,通过计算所述扩展后的第一音素序列与所述第二音素序列之间的相似度,根据所述相似度配置和所述相似度,确定所述音频数据的语音识别结果。所述语音识别方法通过基于聚类算法模型扩展了所述自定义热词,更有效的利用了上传的自定义热词,从而提升了语音识别结果的精确度。从而提升了语音识别结果的精确度。从而提升了语音识别结果的精确度。

【技术实现步骤摘要】
一种语音识别方法、系统、计算设备及存储介质


[0001]本申请涉及语音识别领域,特别涉及一种语音识别方法及系统。

技术介绍

[0002]语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。
[0003]目前,热词被广泛应用于语音识别技术中。尤其是在中文环境下,同音不同字的情况较多,而地方性语言习惯又较为复杂,热词的引入可以在一定程度上解决这一问题,用户通过上传自定义热词,可以使得热词在语音识别中被识别的概率增大,进而提高语音识别的准确率。
[0004]针对用户上传的自定义热词,如何进行更准确的音素匹配成为了业界重点关注的问题。

技术实现思路

[0005]本申请提供了一种语音识别方法及系统,可以提升热词的识别精读。
[0006]本申请的第一方面提供了一种语音识别方法,该方法应用于语音识别系统,该语音识别方法包括:语音识别系统接收上传的自定义热词和相似度配置后,将该自定义热词转换成自定义音素序列,并将该自定义热词音素序列作为第一音素序列。根据基于聚类算法获得的扩展规则对该第一音素序列进行扩展后,得到扩展后的第一音素序列。语音识别系统接收上传的音频数据后,将该音频数据转换为音频数据音素序列,并将该音频数据音素序列作为第二音素序列。然后计算该扩展后的第一音素序列与该第二音素序列之间的相似度,根据该相似度与相似度配置的关系,确定音频数据的语音识别结果。
[0007]该语音识别方法基于聚类算法模型扩展自定义热词,其中聚类算法模型的建立综合考虑了语种、方言等语言特征,扩展了例如人名、地名或专有名词等词语的匹配音素序列,有效提升了语音识别结果的精确度。
[0008]该语音识别系统可以通过同一指令接收自定义热词、相似度配置和音频数据,也可以通过不同指令接收自定义热词、相似度配置和音频数据。
[0009]在一些可能的设计中,该聚类算法模型包括二叉决策树模型。
[0010]在一些可能的设计中,该方法还包括:将音素集合输入该二叉决策树模型,该音素集合中包括多个音素。该音素集合可以是由语言学家根据语种、方言等因素构建的音素的集合。可选的,该音素集合还可以是需要定制的训练语料中音频数据对应的音素的集合。将该音素集合中的各个音素划分入该二叉决策树模型的叶子节点后,确定该音素集合中各个音素之间的距离。该各个音素之间的距离指示两个音素被划分入的叶子节点在该二叉决策树内的距离。然后根据该音素集合中各个音素之间的距离,获得该扩展规则。该扩展规则包括该音素集合中各个音素和各个音素的扩展音素的对应关系。
[0011]在一些可能的设计中,该扩展规则的获得可以在接收自定义热词和相似度配置之前,也可以在接收需要定制的训练语料之后。
[0012]在一些可能的设计中,根据一个音素所在的叶子节点到另一个音素所在叶子节点的路径中包含的分支节点数量,计算两个音素被划分入的叶子节点在该二叉决策树内的距离。比较该距离与距离阈值的关系,若该距离不超过距离阈值,将所述第二音素作为所述第一音素的扩展音素写入所述扩展规则。
[0013]在一些可能的设计中,将该扩展后的第一音素序列中的音素拟合为模型;将该第二音素序列中的音素拟合为模型。计算该扩展后的第一音素序列中的音素拟合出的模型和该第二音素序列中的音素拟合出的模型之间的模型距离。根据该模型距离,获得所述扩展后的第一音素序列中的音素和所述第二音素序列中的音素之间的相似度。
[0014]该方法通过将音素拟合为模型并精确计算模型距离后,根据模型距离获得了两个音素序列之间的相似度,进一步提高了语音识别结果的精确度。
[0015]本申请的第二方面提供了一种语音识别系统,该系统用于执行第一方面提供的方法。具体的,该系统包括交互模块、处理模块和存储模块。该交互模块用于接收上传的自定义热词、相似度配置和音频数据。该存储模块用于储存该自定义热词、该相似度配置和该音频数据。该处理模块用于根据基于聚类算法模型获得扩展规则,对该第一音素序列进行扩展,获得扩展后的第一音素序列。将该音频数据转换为音频数据音素序列,该音频数据音素序列为第二音素序列。计算该扩展后的第一音素序列与该第二音素序列之间的相似度。根据该相似度配置和该相似度,确定该音频数据的语音识别结果。该交互模块,还用于返回该音频数据的语音识别结果。
[0016]该语音识别系统可以部署在一个或多个服务器上,或者该语音识别系统可以一部分部署在服务器上一部分部署在终端设备上。
[0017]在一些可能的设计中,该聚类算法模型包括二叉决策树。
[0018]在一些可能的设计中,该处理模块还用于将该音素集合输入该二叉决策树,该音素集合中包括多个音素。将该音素集合中各个音素划分入该二叉决策树的叶子节点。确定该音素集合中各个音素的距离,其中,该音素集合中两个音素的距离指示该两个音素被划分入的叶子节点在该二叉决策树内的距离。根据该音素集合中各个音素之间的距离,获得该扩展规则,其中,该扩展规则包括该音素集合中各个音素和各个音素的扩展音素的对应关系。
[0019]在一些可能的设计中,该处理模块还用于根据该第一音素所在的叶子节点到该第二音素所在叶子节点的路径中包含的分支节点数量,获得该第一音素与该第二音素之间的距离。若该第一音素与该第二音素之间的距离不超过距离阈值,将该第二音素作为该第一音素的扩展音素写入所述扩展规则。
[0020]本申请的第三方面提供了一种计算设备集群,该集群包括至少一个计算设备,每个计算设备包括处理器和存储器。该至少一个计算设备的处理器用于执行该存储器中存储的指令,以使得该计算设备集群执行如第一方面或第一方面的任一种实现方式所述的方法。
[0021]本申请的第四方面提供了一种计算机可读存储介质,该计算机可读存储介质包括计算机程序指令,当该计算机程序指令由计算设备集群执行时,该计算设备集群执行如第
一方面或第一方面的任一种实现方式所述的方法。
[0022]本申请的第五方面提供了一种包含指令的计算机程序产品,当该指令在计算机设备集群上运行时,使得该计算机设备集群执行上述第一方面或第一方面的任一种实现方式所述的方法。
附图说明
[0023]为了更清楚地说明本申请实施例的技术方法,下面将对实施例中所需使用的附图作以简单地介绍。
[0024]图1为本申请实施例提供的一种语音识别系统的架构图;
[0025]图2A为本申请实施例提供的一种语音识别系统的应用场景示意图;
[0026]图2B为本申请实施例提供的另一种语音识别系统的应用场景示意图;
[0027]图3为本申请实施例提供的一种语音识别方法的流程图;
[0028]图4为本申请实施例提供的一种客户端的交互界面示意图;
[0029]图5为本申请实施例提供的一种客户端的交互界面示意图;
[0030]图6为本申请实施例提供的一种二叉决策树模型的结构示意图;
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,其特征在于,所述方法应用于语音识别系统,所述方法包括:接收上传的自定义热词和相似度配置;将所述自定义热词转换成自定义热词音素序列,所述自定义热词音素序列为第一音素序列;根据基于聚类算法模型获得的扩展规则对所述第一音素序列进行扩展,获得扩展后的第一音素序列;接收上传的音频数据;将所述音频数据转换为音频数据音素序列,所述音频数据音素序列为第二音素序列;计算所述扩展后的第一音素序列与所述第二音素序列之间的相似度;根据所述相似度配置和所述相似度,确定所述音频数据的语音识别结果。2.如权利要求1所述的方法,其特征在于,所述聚类算法模型包括二叉决策树。3.如权利要求2所述的方法,其特征在于,所述方法还包括:将音素集合输入所述二叉决策树,所述音素集合中包括多个音素;将所述音素集合中各个音素划分入所述二叉决策树的叶子节点;确定所述音素集合中各个音素的距离,其中,所述音素集合中两个音素的距离指示所述两个音素被划分入的叶子节点在所述二叉决策树内的距离;根据所述音素集合中各个音素之间的距离,获得所述扩展规则,其中,所述扩展规则包括所述音素集合中各个音素和各个音素的扩展音素的对应关系。4.如权利要求3所述的方法,其特征在于,根据所述音素集合中各个音素之间的距离,获得所述扩展规则包括:根据第一音素所在的叶子节点到第二音素所在叶子节点的路径中包含的分支节点数量,获得所述第一音素与所述第二音素之间的距离;若所述第一音素与所述第二音素之间的距离不超过距离阈值,将所述第二音素作为所述第一音素的扩展音素写入所述扩展规则。5.如权利要求1至4任一所述的方法,其特征在于,计算所述扩展后的第一音素序列与所述第二音素序列之间的相似度,包括:将所述扩展后的第一音素序列中的音素拟合为模型;将所述第二音素序列中的音素拟合为模型;计算所述扩展后的第一音素序列中的音素拟合出的模型和所述第二音素序列中的音素拟合出的模型之间的模型距离;根据所述模型距离,获得所述扩展后的第一音素序列中的音素和所述第二音素序列中的音素之间的相似度。6.一种语音识别系统,其特征在于,所述系统包括交互模块、处理模块和存储模块:所述交互模块,用于接收上传的自定义热词、相似度...

【专利技术属性】
技术研发人员:王凯李标刘杰
申请(专利权)人:华为云计算技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1