语音唤醒方法、设备及存储介质技术

技术编号:37409376 阅读:13 留言:0更新日期:2023-04-30 09:35
本申请提供了一种语音唤醒方法、设备及存储介质。该方法通过为包括不同参数的唤醒词预先绑定对应的目标声纹阈值和目标声纹模型,使得声纹验证时能够因人、因唤醒词而选取不同的目标声纹模型和目标声纹阈值,这样在接收到语音数据时,并确定接收到的语音数据中包括预先注册的唤醒词时,通过利用该唤醒词绑定的目标声纹模型对语音数据进行声纹验证,根据该唤醒词绑定的目标声纹阈值对声纹验证结果进行判决,就能够精准的识别唤醒词和唤醒人,从而提高语音唤醒的精准度,降低误闯的情况发生。降低误闯的情况发生。降低误闯的情况发生。

【技术实现步骤摘要】
语音唤醒方法、设备及存储介质


[0001]本申请涉及语音处理
,尤其涉及一种语音唤醒方法、设备及存储介质。

技术介绍

[0002]随着语音处理技术的发展,带有语音唤醒功能的电子设备越来越普及。为了使电子设备仅根据授权用户的声音信息实现语音唤醒功能,从而避免电子设备被其他用户的声音信息误闯醒,语音唤醒技术融入了声纹验证。
[0003]然而对于一些支持对自定义唤醒词进行声纹验证的电子设备,由于自定义唤醒词的长度、覆盖的音素可能存在很大的差异,目前为了保证不同的唤醒词(系统默认和自定义)都能以较高的概率唤醒电子设备,设置的判决条件相对较松,如设置的判决阈值范围较大。这种方式虽然可以实现不同的唤醒词都能唤醒电子设备,但是会存在严重的误闯问题,如相同性别的非授权用户的声音信息也可以唤醒电子设备。

技术实现思路

[0004]为了解决上述技术问题,本申请提供一种语音唤醒方法、设备及存储介质,旨在精准的识别唤醒词和唤醒人,从而提高语音唤醒的精准度,降低误闯的情况发生。
[0005]第一方面,本申请提供一种语音唤醒方法。该方法包括:接收第一语音数据;检测第一语音数据中是否存在第一唤醒词,第一唤醒词为在第一电子设备中预先注册的唤醒词;在第一语音数据中存在第一唤醒词时,根据第一唤醒词对应的目标声纹模型对第一语音数据进行声纹验证,得到第一验证结果,第一验证结果指示第一语音数据对应的说话人表征向量与注册第一唤醒词的说话人表征向量的匹配度;根据第一验证结果和第一唤醒词对应的目标声纹阈值,得到第二验证结果,第二验证结果指示第一电子设备能否被第一语音数据唤醒;其中,目标声纹模型和目标声纹阈值分别根据第一唤醒词的参数确定,不同的参数对应不同的目标声纹模型、不同的目标声纹阈值。
[0006]其中,第一唤醒词,例如包括系统默认的唤醒词,如下文中出现的“你好YOYO”,以及用户自定义的唤醒词,如下文中出现的“芝麻开门”。
[0007]其中,第一语音数据即用户开启语音唤醒功能后,第一电子设备的麦克风或者连接的耳机拾取的语音数据。
[0008]其中,第一电子设备,即下文中所说的电子设备,可以为服务器,或者是终端。其中,终端包括但不限于智能音箱、智能手机、平板电脑、笔记本电脑、个人数字助理(personal digital assistant,PDA)或者智能穿戴设备等,此处不再一一列举。
[0009]其中,目标声纹模型和目标声纹阈值,即下文中在注册唤醒词阶段,从配置文件中匹配确定的声纹模型和声纹阈值。
[0010]其中,第一识别结果,即下文中在唤醒词验证阶段,由声纹验证模块基于目标声纹模型对唤醒词对应的语音数据进行声纹验证得到的分数。
[0011]其中,第二识别结果,即下文中在唤醒词验证阶段,由验证结果确定模块根据声纹
阈值和得到的分数确定的验证结果。
[0012]这样,通过为包括不同参数的唤醒词预先绑定对应的目标声纹阈值和目标声纹模型,使得声纹验证时能够因人、因唤醒词而选取不同的目标声纹模型和目标声纹阈值,这样在接收到语音数据时,并确定接收到的语音数据中包括预先注册的唤醒词时,通过利用该唤醒词绑定的目标声纹模型对语音数据进行声纹验证,根据该唤醒词绑定的目标声纹阈值对声纹验证结果进行判决,就能够精准的识别唤醒词和唤醒人,从而提高语音唤醒的精准度,降低误闯的情况发生。
[0013]根据第一方面,方法还包括:响应于注册唤醒词操作,获取注册的唤醒词对应的第二语音数据;识别第二语音数据中的第一唤醒词;提取第一唤醒词包括的参数;根据参数,从配置文件中查找匹配度满足设定要求的目标参数;将配置文件中目标参数对应的声纹模型作为唤醒词对应的目标声纹模型;将配置文件中目标参数对应的声纹阈值作为唤醒词对应的目标声纹阈值。
[0014]关于注册唤醒词的具体实现细节,可以参见下文注册唤醒词阶段中各个子阶段的内容,此处不再赘述。
[0015]这样,通过在注册唤醒词阶段提取注册的唤醒词的参数信息,并根据提取的参数信息从从配置文件中选择适合使用当前电子设备的注册用户的声纹模型和声纹阈值,从而使得后续声纹验证阶段的验证结果更加精准,使得语音唤醒功能更加准确、降低误闯情况发生。
[0016]根据第一方面,或者以上第一方面的任意一种实现方式,提取第一唤醒词包括的参数,包括:统计第一唤醒词的字数;基于自动语音识别技术,对第一唤醒词进行音素和音调的标注;统计标注后的第一唤醒词中包括的音素个数和每个音素的音调情况,以及每个音调所在的位置;将第一唤醒词的字数、音素个数、每个音素的音调情况,以及每个音调所在的位置,作为第一唤醒词的参数。
[0017]这样,通过根据不同的参数确定不同的声纹模型和声纹阈值,进而生成配置文件,从而能够在注册唤醒词阶段直接根据注册的唤醒词的参数从配置文件中选择适合使用当前电子设备的注册用户的声纹模型和声纹阈值,从而使得后续声纹验证阶段的验证结果更加精准,使得语音唤醒功能更加准确、降低误闯情况发生。
[0018]根据第一方面,或者以上第一方面的任意一种实现方式,方法还包括:从云端获取配置文件,配置文件中记录了不同参数对应的目标声纹阈值和目标声纹模型。
[0019]根据第一方面,或者以上第一方面的任意一种实现方式,方法还包括:收集唤醒词样本;提取每一个唤醒词样本包括的参数;基于文本转语音技术,将每一个唤醒词样本从文本转换为语音数据;根据每一个唤醒词样本包括的参数和对应的语音数据,确定每一个唤醒词样本对应的声纹阈值和声纹模型;建立每一个唤醒词样本包括的参数与确定的所示声纹阈值和声纹模型之间的对应关系,得到配置文件。
[0020]关于生成配置文件的具体实现细节,可以参见下文配置文件生成阶段中各个子阶段的内容,此处不再赘述。
[0021]根据第一方面,或者以上第一方面的任意一种实现方式,在基于文本转语音技术,将每一个唤醒词样本从文本转换为语音数据之前,方法还包括:根据唤醒词筛选标准,对收集到的唤醒词样本进行筛选,得到典型唤醒词样本;基于文本转语音技术,将每一个唤醒词
样本从文本转换为语音数据,包括:基于文本转语音技术,将每一个典型唤醒词样本从文本转换为语音数据;根据每一个唤醒词样本包括的参数和对应的语音数据,确定每一个唤醒词样本对应的声纹阈值和声纹模型,包括:根据每一个典型唤醒词样本包括的参数和对应的语音数据,确定每一个典型唤醒词样本对应的声纹阈值和声纹模型;建立每一个唤醒词样本包括的参数与确定的所示声纹阈值和声纹模型之间的对应关系,得到配置文件,包括:建立每一个典型唤醒词样本包括的参数与确定的所示声纹阈值和声纹模型之间的对应关系,得到配置文件。
[0022]关于筛选典型唤醒词样本的具体实现细节,可以参见下文配置文件生成阶段中典型唤醒词筛选子阶段的内容,此处不再赘述。
[0023]这样,通过筛选典型唤醒词样本,后续各个子阶段,如下文中提到的文本转语音子阶段,声纹阈值和声纹模型确定子阶段,参数、声纹阈值和声纹模型存储子阶段均基于筛本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音唤醒方法,其特征在于,所述语音唤醒方法包括:接收第一语音数据;检测所述第一语音数据中是否存在第一唤醒词,所述第一唤醒词为在第一电子设备中预先注册的唤醒词;在所述第一语音数据中存在所述第一唤醒词时,根据所述第一唤醒词对应的目标声纹模型对所述第一语音数据进行声纹验证,得到第一验证结果,所述第一验证结果指示所述第一语音数据对应的说话人表征向量与注册所述第一唤醒词的说话人表征向量的匹配度;根据所述第一验证结果和所述第一唤醒词对应的目标声纹阈值,得到第二验证结果,所述第二验证结果指示所述第一电子设备能否被所述第一语音数据唤醒;其中,所述目标声纹模型和所述目标声纹阈值分别根据所述第一唤醒词的参数确定,不同的参数对应不同的目标声纹模型、不同的目标声纹阈值。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:响应于注册唤醒词操作,获取注册的唤醒词对应的第二语音数据;识别所述第二语音数据中的第一唤醒词;提取所述第一唤醒词包括的参数;根据所述参数,从配置文件中查找匹配度满足设定要求的目标参数;将所述配置文件中所述目标参数对应的声纹模型作为所述第一唤醒词对应的目标声纹模型;将所述配置文件中所述目标参数对应的声纹阈值作为所述第一唤醒词对应的目标声纹阈值。3.根据权利要求2所述的方法,其特征在于,所述提取所述第一唤醒词包括的参数,包括:统计所述第一唤醒词的字数;基于自动语音识别技术,对所述第一唤醒词进行音素和音调的标注;统计标注后的所述第一唤醒词中包括的音素个数和每个音素的音调情况,以及每个音调所在的位置;将所述第一唤醒词的字数、所述音素个数、每个音素的音调情况,以及每个音调所在的位置,作为所述第一唤醒词的参数。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:从云端获取配置文件,所述配置文件中记录了不同参数对应的目标声纹阈值和目标声纹模型。5.根据权利要求1所述的方法,其特征在于,所述方法还包括:收集唤醒词样本;提取每一个所述唤醒词样本包括的参数;基于文本转语音技术,将每一个所述唤醒词样本从文本转换为语音数据;根据每一个所述唤醒词样本包括的参数和对应的语音数据,确定每一个所述唤醒词样本对应的声纹阈值和声纹模型;建立每一个所述唤醒词样本包括的参数与确定的所示声纹阈值和所述声纹模型之间的对应关系,得到配置文件。
6.根据权利要求5所述的方法,其特征在于,在基于文本转语音技术,将每一个所述唤醒词样本从文本转换为语音数据之前,所述方法还包括:根据唤醒词筛选标准,对收集到的唤醒词样本进行筛选,得到典型唤醒词样本;所述基于文本转语音技术,将每一个所述唤醒词样本从文本转换为语音数据,包括:基于文本转语音技术,将每一个所述典型唤醒词样本从文本...

【专利技术属性】
技术研发人员:吴彪夏日升
申请(专利权)人:荣耀终端有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1