语音唤醒方法、装置、设备、存储介质及程序产品制造方法及图纸

技术编号:35096087 阅读:36 留言:0更新日期:2022-10-01 16:59
本申请公开了一种语音唤醒方法、装置、设备、存储介质及程序产品,涉及语音识别领域。该方法包括:获取语音数据,语音数据是用于进行语音唤醒的信号;对语音数据进行特征提取,得到语音特征表示;将语音特征表示与多个目标唤醒词进行匹配度预测,得到多个识别结果,其中,每个目标唤醒词对应一个识别结果,识别结果用于指示语音特征表示与目标唤醒词之间的匹配程度;对多个识别结果进行综合选择,得到唤醒词识别结果,并确定语音唤醒结果。通过以上方式,在共用特征提取部分的基础上,以多个目标唤醒词对语音数据进行单独分析,有效减少了系统的资源占比。本申请可应用于云技术、人工智能、智慧交通等各种场景。智慧交通等各种场景。智慧交通等各种场景。

【技术实现步骤摘要】
语音唤醒方法、装置、设备、存储介质及程序产品


[0001]本申请实施例涉及语音识别领域,特别涉及一种语音唤醒方法、装置、设备、存储介质及程序产品。

技术介绍

[0002]随着智能设备以及语音交互的不断普及,在越来越多的场景中需要通过唤醒词对智能设备进行唤醒,然后通过语音控制智能设备执行命令,如:打开空调等。
[0003]相关技术中,通常对每一个唤醒词单独训练一个唤醒词模型,在对目标语句进行唤醒词识别过程时,将目标语句分别输入不同唤醒词模型,基于不同唤醒词模型对应的置信度得分,确定目标语句的唤醒情况。
[0004]然而,若对每一个唤醒词单独训练一个唤醒词模型,会使得设备占用资源较大,在相同的资源占用情况下,每个唤醒词模型可用的资源量大幅减少,必然会导致设备的唤醒分析性能下降。

技术实现思路

[0005]本申请实施例提供了一种语音唤醒方法、装置、设备、存储介质及程序产品,能够减少对系统的资源占比,提升唤醒词识别模型的唤醒性能。所述技术方案如下。
[0006]一方面,提供了一种语音唤醒方法,所述方法包括:
[0007]获取语音数据,所述语音数据是用于进行语音唤醒的信号;
[0008]对所述语音数据进行特征提取,得到所述语音数据对应的语音特征表示;
[0009]将所述语音特征表示与多个目标唤醒词进行匹配度预测,得到多个识别结果,其中,每个目标唤醒词对应一个识别结果,所述识别结果用于指示所述语音特征表示与所述目标唤醒词之间的匹配程度;
[0010]对所述多个识别结果进行综合选择,得到所述语音数据对应的唤醒词识别结果,所述唤醒词识别结果用于确定语音唤醒结果。
[0011]另一方面,提供了一种语音唤醒装置,所述装置包括:
[0012]获取模块,用于获取语音数据,所述语音数据是用于进行语音唤醒的信号;
[0013]提取模块,用于对所述语音数据进行特征提取,得到所述语音数据对应的语音特征表示;
[0014]识别模块,用于将所述语音特征表示与多个目标唤醒词进行匹配度预测,得到多个识别结果,其中,每个目标唤醒词对应一个识别结果,所述识别结果用于指示所述语音特征表示与所述目标唤醒词之间的匹配程度;
[0015]选择模块,用于对所述多个识别结果进行综合选择,得到所述语音数据对应的唤醒词识别结果,所述唤醒词识别结果用于确定语音唤醒结果。
[0016]另一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至
少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中任一所述语音唤醒方法。
[0017]另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述本申请实施例中任一所述的语音唤醒方法。
[0018]另一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中任一所述的语音唤醒方法。
[0019]本申请实施例提供的技术方案带来的有益效果至少包括:
[0020]对获取得到的语音数据对应的语音特征表示与多个目标唤醒词进行匹配度预测,并输出语音特征表示对应的多个识别结果,之后通过对多个识别结果进行综合选择,并确定语音唤醒结果。通过上述方法,在对语音数据进行特征提取的基础上,利用预先确定的多个目标唤醒词,将语音数据对应的语音特征表示与多个目标唤醒词分别进行匹配,从而确定语音数据和不同目标唤醒词之间的匹配程度。在共用特征提取部分的基础上,以多个目标唤醒词对语音数据进行单独分析,在避免分析结果混淆的同时,减少了对系统的资源占比,在低成本的硬件配置下,仍然可以整体提升采用上述语音唤醒方法的设备的唤醒性能。
附图说明
[0021]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0022]图1是本申请一个示例性实施例提供的相关技术示意图;
[0023]图2是本申请另一个示例性实施例提供的相关技术示意图;
[0024]图3是本申请一个示例性实施例提供的实施环境示意图;
[0025]图4是本申请一个示例性实施例提供的语音唤醒方法的流程图;
[0026]图5是本申请另一个示例性实施例提供的语音唤醒方法的流程图;
[0027]图6是本申请一个示例性实施例提供的对语音数据进行处理的示意图;
[0028]图7是本申请另一个示例性实施例提供的语音唤醒方法的流程图;
[0029]图8是本申请另一个示例性实施例提供的语音唤醒方法的示意图;
[0030]图9是本申请一个示例性实施例提供的语音唤醒装置的结构框图;
[0031]图10是本申请另一个示例性实施例提供的语音唤醒装置的结构框图;
[0032]图11是本申请一个示例性实施例提供的服务器的结构框图。
具体实施方式
[0033]为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
[0034]首先,针对本申请实施例中涉及的名词进行简单介绍。
[0035]人工智能:人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
[0036]语音技术(Speech Technology):语音技术的关键技术有自动语音识别技术(Automatic Speech Recognition,ASR)和语音合成技术(Text

To

Speech,TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。
[0037]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音唤醒方法,其特征在于,所述方法包括:获取语音数据,所述语音数据是用于进行语音唤醒的信号;对所述语音数据进行特征提取,得到所述语音数据对应的语音特征表示;将所述语音特征表示与多个目标唤醒词进行匹配度预测,得到多个识别结果,其中,每个目标唤醒词对应一个识别结果,所述识别结果用于指示所述语音特征表示与所述目标唤醒词之间的匹配程度;对所述多个识别结果进行综合选择,得到所述语音数据对应的唤醒词识别结果,所述唤醒词识别结果用于确定语音唤醒结果。2.根据权利要求1所述的方法,其特征在于,应用于唤醒词识别模型,所述唤醒词识别模型中包括多个唤醒词识别单元,其中,不同的唤醒词识别单元对应不同的目标唤醒词;所述将所述语音特征表示与多个目标唤醒词进行匹配度预测,得到多个识别结果,包括:将所述语音特征表示输入所述多个唤醒词识别单元,通过所述多个唤醒词识别单元分别对所述语音特征表示进行唤醒词识别,输出所述多个识别结果,其中,每个唤醒词识别单元输出一个识别结果,所述识别结果用于指示所述语音特征表示与唤醒词识别单元对应的目标唤醒词之间的匹配程度。3.根据权利要求2所述的方法,其特征在于,所述唤醒词识别模型中还包括多个后验单元,每个后验单元对应一个唤醒词识别单元;所述将所述语音特征表示输入所述多个唤醒词识别单元,通过所述多个唤醒词识别单元分别对所述语音特征表示进行唤醒词识别,输出多个识别结果,包括:将所述语音特征表示输入所述多个唤醒词识别单元,输出多个音节识别结果,其中,每个唤醒词识别单元输出一个与所述目标唤醒词对应的音节识别结果;将所述唤醒词识别单元输出的音节识别结果输入与所述唤醒词识别单元对应的后验单元,输出得到所述唤醒词识别单元的目标唤醒词对应的置信度作为所述识别结果。4.根据权利要求3所述的方法,其特征在于,所述唤醒词识别单元中包括与所述目标唤醒词对应的音节子单元;所述将所述语音特征表示输入所述多个唤醒词识别单元,输出多个音节识别结果,包括:将所述语音特征表示输入所述多个唤醒词识别单元;通过所述唤醒词识别单元中的音节子单元对所述语音特征表示进行识别,得到与所述音节子单元对应的音节得分作为所述音节识别结果。5.根据权利要求4所述的方法,其特征在于,所述将所述唤醒词识别单元输出的音节识别结果输入与所述唤醒词识别单元对应的后验单元,输出得到所述唤醒词识别单元的目标唤醒词对应的置信度作为所述识别结果,包括:将所述唤醒词识别单元输出的音节识别结果输入与所述唤醒词识别单元对应的后验单元;通过所述后验单元对所述音节子单元对应的音节得分进行后验处理,得到所述唤醒词识别单元的目标唤醒词对应的置信度作为所述识别结果。6.根据权利要求5所述的方法,其特征在于,所述多个唤醒词识别单元中包括第一唤醒
词识别单元以及第二唤醒词识别单元;所述方法还包括:响应于所述第一唤醒词识别单元中的第一音节子单元,与所述第二唤醒词识别单元中的第二音节子单元相同,将所述第一音节子单元对应的音节得分作为所述第二音节子单元对应的音节得分。7.根据权利要求5所述的方法,其特征在于,所述音节子单元中包括重音节子单元和轻音节子单元;所述通过所述后验单元对所述音节子单元对应的音节得分进行后验处理,得到所述唤醒词识别单元的目标唤醒词对应...

【专利技术属性】
技术研发人员:陈杰
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1