合成语音识别方法、装置、设备及存储介质制造方法及图纸

技术编号:34449501 阅读:32 留言:0更新日期:2022-08-06 16:48
本发明专利技术涉及生物识别技术,揭露了一种合成语音识别方法,包括:获取待识别语音信号,并对所述待识别语音信号执行语音加窗分帧处理,得到分帧语音集;分别提取所述分帧语音集中每一帧语音信号的基音频率,并根据所述基音频率从所述分帧语音集中的语音信号中筛选出为浊音帧的语音信号;利用预构建的谐波加噪声模型提取所述分帧语音集中为浊音帧的语音信号的谐波信息及噪声信息;利用所述谐波信息及所述噪声信息计算所述待识别语音信号的子带能量比,并根据所述子带能量比判定所述待识别语音信号是否为合成语音。本发明专利技术还提出一种合成语音识别装置、设备以及存储介质。本发明专利技术可以提高合成语音识别的精准度。合成语音识别的精准度。合成语音识别的精准度。

【技术实现步骤摘要】
合成语音识别方法、装置、设备及存储介质


[0001]本专利技术涉及生物识别
,尤其涉及一种合成语音识别方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]随着声纹识别技术的发展,现如今用户可以通过声纹来表征用户的身份信息,但也随着声纹合成技术的进步,用户的声纹特征会被恶意合成,用户的身份信息得不到保障。因此,亟需一种合成声纹识别方法来识别被恶意合成的声纹,及时保障用户的信息安全。

技术实现思路

[0003]本专利技术提供一种合成语音识别方法、装置、设备及存储介质,其主要目的在于解决进行合成语音识别的精准度较低的问题。
[0004]为实现上述目的,本专利技术提供的一种合成语音识别方法,包括:
[0005]获取待识别语音信号,并对所述待识别语音信号执行语音加窗分帧处理,得到分帧语音集;
[0006]分别提取所述分帧语音集中每一帧语音信号的基音频率,并根据所述基音频率从所述分帧语音集中的语音信号中筛选出为浊音帧的语音信号;
[0007]利用预构建的谐波加噪声模型提取所述分帧语音集中为浊音帧的语音信号的谐波信息及噪声信息;
[0008]利用所述谐波信息及所述噪声信息计算所述待识别语音信号的子带能量比,并根据所述子带能量比判定所述待识别语音信号是否为合成语音。
[0009]可选地,所述对所述待识别语音信号执行语音加窗分帧处理,得到分帧语音集,包括:
[0010]对所述待识别语音信号执行交叠分段处理,得到分段语音信号;
[0011]利用预构建的加窗函数对所述分段语音信号执行加权计算,得到分帧语音集。
[0012]可选地,所述对所述待识别语音信号执行语音加窗分帧处理之前,所述方法还包括:
[0013]提取所述待识别语音信号中的高频分量;
[0014]利用预构建的语音信号加重技术对所述高频分量执行预加重处理。
[0015]可选地,所述利用预构建的语音信号加重技术对所述高频分量执行预加重处理,包括:
[0016]构建所述高频分量的连续折线图,并判断所述连续折线图中处于相邻位置的两个相邻高频分量是否相同;
[0017]在所述连续折线图中处于相邻位置的两个相邻高频分量相同时,保持两个所述相邻高频分量不变;
[0018]当所述连续折线图中处于相邻位置的两个相邻高频分量不相同时,则将两个所述
相邻高频分量中后一个高频分量增大预设倍数,相邻的前一个高频分量保持不变。
[0019]可选地,所述根据所述基音频率从所述分帧语音集中的语音信号中筛选出为浊音帧的语音信号,包括:
[0020]对所述分帧语音集中的语音信号执行降采样处理;
[0021]计算所述执行降采样处理后的所述分帧语音集中的语音信号的互相关函数的峰值点,并根据所述峰值点确定所述分帧语音集中每一帧语音信号的基音频率;
[0022]判断所述基音频率是否处于预设的基音频率区间;
[0023]当所述基音频率不处于所述基音频率区间时,判定所述基音频率对应的所述分帧语音集中当前帧语音信号不为浊音帧;
[0024]当所述基音频率处于所述基音频率区间时,判定所述基音频率对应的所述分帧语音集中当前帧语音信号为浊音帧。
[0025]可选地,所述利用预构建的谐波加噪声模型提取所述分帧语音集中为浊音帧的语音信号的谐波信号及噪声信号,包括:
[0026]利用所述谐波加噪声模型拆解所述浊音帧,得到多个拆解语音信号;
[0027]分析每个所述拆解语音信号的频率,提取所述频率呈无规律震荡的拆解语音信号,得到噪声信号;
[0028]提取去除噪声信号的剩余拆解语音信号,得到所述谐波信号。
[0029]可选地,所述利用预构建的加窗函数对所述分段语音信号执行加权计算,包括:
[0030]可采用下述加窗函数:
[0031][0032]其中,ω(n)为所述加窗函数,N为所述分段语音信号的帧长,n为第n个所述分段语音信号。
[0033]为了解决上述问题,本专利技术还提供一种合成语音识别装置,所述装置包括:
[0034]语音信号获取模块,用于获取待识别语音信号,并对所述待识别语音信号执行语音加窗分帧处理,得到分帧语音集;
[0035]语音信号处理模块,用于分别提取所述分帧语音集中每一帧语音信号的基音频率,并根据所述基音频率从所述分帧语音集中的语音信号中筛选出为浊音帧的语音信号;利用预构建的谐波加噪声模型提取所述分帧语音集中为浊音帧的语音信号的谐波信息及噪声信息;
[0036]合成语音识别模块,用于利用所述谐波信息及所述噪声信息计算所述待识别语音信号的子带能量比,并根据所述子带能量比判定所述待识别语音信号是否为合成语音。
[0037]为了解决上述问题,本专利技术还提供一种电子设备,所述电子设备包括:
[0038]至少一个处理器;以及,
[0039]与所述至少一个处理器通信连接的存储器;其中,
[0040]所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述所述的合成语音识别方法。
[0041]为了解决上述问题,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的合成语音识别方法。
[0042]本专利技术实施例通过对待识别语音信号进行语音分帧处理,可以解析整个待识别语音信号,提高合成语音识别的精准度,另外,清除分帧后的所述待识别语音信号中不为浊音帧的语音信号,可以防止待识别语音信号中非相关语音信号的干扰,再者,计算出所述待识别语音信号中为浊音帧的语音信号的子带能量比,利用语音信号中较为凸显的子带能量比这一声学特征,来识别所述识别语音信号是否为合成语音,可以提高识别结果的正确率,保证识别结果的权威性。
附图说明
[0043]图1为本专利技术一实施例提供的合成语音识别方法的流程示意图;
[0044]图2为本专利技术一实施例提供的合成语音识别装置的功能模块图;
[0045]图3为本专利技术一实施例提供的实现所述合成语音识别方法的电子设备的结构示意图。
[0046]本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
[0047]应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。
[0048]本申请实施例提供一种合成语音识别方法。所述合成语音识别方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之,所述合成语音识别方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。所述服务器可以是独立的服务器,也可以是提供云服务、云数据库、本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种合成语音识别方法,其特征在于,所述方法包括:获取待识别语音信号,并对所述待识别语音信号执行语音加窗分帧处理,得到分帧语音集;分别提取所述分帧语音集中每一帧语音信号的基音频率,并根据所述基音频率从所述分帧语音集中的语音信号中筛选出为浊音帧的语音信号;利用预构建的谐波加噪声模型提取所述分帧语音集中为浊音帧的语音信号的谐波信息及噪声信息;利用所述谐波信息及所述噪声信息计算所述待识别语音信号的子带能量比,并根据所述子带能量比判定所述待识别语音信号是否为合成语音。2.如权利要求1所述的合成语音识别方法,其特征在于,所述对所述待识别语音信号执行语音加窗分帧处理,得到分帧语音集,包括:对所述待识别语音信号执行交叠分段处理,得到分段语音信号;利用预构建的加窗函数对所述分段语音信号执行加权计算,得到分帧语音集。3.如权利要求2所述的合成语音识别方法,其特征在于,所述对所述待识别语音信号执行语音加窗分帧处理之前,所述方法还包括:提取所述待识别语音信号中的高频分量;利用预构建的语音信号加重技术对所述高频分量执行预加重处理。4.如权利要求3所述的合成语音识别方法,其特征在于,所述利用预构建的语音信号加重技术对所述高频分量执行预加重处理,包括:构建所述高频分量的连续折线图,并判断所述连续折线图中处于相邻位置的两个相邻高频分量是否相同;在所述连续折线图中处于相邻位置的两个相邻高频分量相同时,保持两个所述相邻高频分量不变;当所述连续折线图中处于相邻位置的两个相邻高频分量不相同时,则将两个所述相邻高频分量中后一个高频分量增大预设倍数,相邻的前一个高频分量保持不变。5.如权利要求1所述的合成语音识别方法,其特征在于,所述根据所述基音频率从所述分帧语音集中的语音信号中筛选出为浊音帧的语音信号,包括:对所述分帧语音集中的语音信号执行降采样处理;计算所述执行降采样处理后的所述分帧语音集中的语音信号的互相关函数的峰值点,并根据所述峰值点确定所述分帧语音集中每一帧语音信号的基音频率;判断所述基音频率是否处于预设的基音频率区间;当所述基音频率不处于所...

【专利技术属性】
技术研发人员:魏林强
申请(专利权)人:平安普惠企业管理有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1