一种可用于芯片端的语音合成方法技术

技术编号:33623562 阅读:21 留言:0更新日期:2022-06-02 00:50
一种可用于芯片端的语音合成方法,包括如下步骤:步骤1.计算脉冲激励种子信号和噪声激励种子信号;步骤2.由给定语音的基频F0和带状非周期比值ap求激励信号;步骤3.对给定音频的每一帧频谱包络,计算对应的音频数据,然后按帧移进行叠加得到最终的语音波形。本发明专利技术通过预先离线计算所需脉冲激励种子信号,在计算周期激励和非周期激励时只做乘加运算,不涉及傅里叶变换和傅里叶逆变换,提升了声码器在芯片端的运算速度。算速度。算速度。

【技术实现步骤摘要】
一种可用于芯片端的语音合成方法


[0001]本专利技术属于语音
,具体涉及一种可用于芯片端的语音合成方法。

技术介绍

[0002]离线语音合成芯片可用于信息机,考勤机,语音导游,自动售货机,智能玩具等领域。通过通讯接口,接收待合成的文本数据,实现文本到语音(或 TTS 语音)的转换。传统的语音合成芯片采用拼接法,语音合成韵律感不强,可合成文本受拼接片段的影响,而高性能语音合成芯片价格高,大大限制了离线语音合成芯片的应用场景。一款性价比更高,效果更自然的语音合成芯片,可以推动 TTS 语音合成技术的行业应用走向更深入、更广泛。工业界最常用的语音合成声码器为WORLD(WORLD: a vocoder

based high

quality speech synthesis system for real

time applications, IEICE transactions on information and systems, vol. E99

D, no. 7, pp. 1877

1884, 2016. M. Morise, F. Yokomori, and K. Ozawa)声码器,因其计算方法为纯信号学理论,既比其他传统声码器(STRAIGHT、Griffim Lim等)合成效果好,也比基于神经网络的声码器(MelGAN、LPCNet等)计算复杂度低,合成速度快。更适合用于低性能的芯片端设备。
[0003]World声码器基于source

filter模型,source指声源,即声带震动,发出一串脉冲信号(pulse train)。声带震动的越快,声音的音高越高,脉冲信号越密集。filter指声源信号经过的部位,包括声道、喉腔、口腔、嘴唇、牙齿等。在这些部位的共同作用下,能够发出不同的音色、不同的元音辅音。这些部位共同组成一个滤波器系统,可以将其看作一个线性时不变系统(Linear time

invariant system)。WORLD声码器输入三个声学特征:F0 contour(基频),spectral envelope(频谱包络),periodic parameter(非周期参数)。在WORLD的开源项目中(https://github.com/mmorise/World),提供了由三个声学特征得到时域信号的代码实现,在现有文献公开的方法中,先计算脉冲位置,然后计算每个脉冲位置对应的周期响应和非周期响应,最后叠加所有脉冲响应,得到最终的时域波形。在求周期响应时通过频谱包络和非周期比值得到周期信号的频谱包络,然后通过倒谱分析其最小相位频谱,通过傅里叶逆变换得到周期响应。求非周期响应时,先求白噪声的频谱,根据非周期比值得到非周期信号的频谱包络,同样做倒谱分析得到非周期激励的最小相位谱,然后在频率域域频谱包络相乘,模拟白噪声信号与频谱包络对应的线性时不变系统的卷积计算,最后将相乘后的频谱进行傅里叶逆变换,得到非周期响应。在整个计算流程中反复用到傅里叶变换和傅里叶逆变换,在芯片端的耗时较多。完整的语音合成系统通常包括前端文本归一化,汉字转拼音、音素转时长和声学特征、声码器等。而声码器部分的耗时通常占比较高,因此对这一部分的算法优化将大大提高WORLD算法在芯片端实现的可能性。

技术实现思路

[0004]为提升声码器的运算速度,增加低性能芯片上实现离线语音合成的可行性,本专利技术公开了一种可用于芯片端的语音合成方法。
[0005]本专利技术所述可用于芯片端的语音合成方法,包括如下步骤:步骤1.计算脉冲激励种子信号和噪声激励种子信号;步骤2.由给定语音的基频F0和带状非周期比值ap求激励信号步骤2

1.由基频F0求脉冲个数和位置。
[0006]2‑
11.基频F0特征上采样至时域信号长度N,其中时域信号长度为基频F0长度乘以帧移,帧移表示时域信号求声学特征时的滑动步长,上采样结果记为a
i
,i=0,1... N

1,i为不同维度;2

12.对2

11步骤得到的每一维上采样数据乘以2π,再除以采样率fs;π为圆周率,然后每个采样点依次求累积值;可表述为以下公式:其中a
i
表示步骤2

11得到的上采样结果,N为时域信号长度;b
j
表示第j维的累积数据值;2

13.对2

12的各个累积数据值b
j,
求各个累积数据值b
j
与其相邻维度的累积数据值b
j+1
分别对2π求余数后,再求余数的差并取绝对值,公式如下:c
k
表示第k维度的差绝对值,b
k
为第k维度的累积数据值,%表示取余数操作,N为时域信号长度,||表示取绝对值操作;2

14.依次对2

13的差绝对值c
k
进行判断,k=1,2...N

1,如果c
k
>π,则第k个位置即为脉冲点所在位置,统计出全部脉冲点所在位置,记为k
i
,i=0,1... N
p
,N
p
为脉冲点的个数总数;步骤2

2.求非周期激励2

21.将给定语音的带状非周期比值ap特征上采样至时域信号长度N;2

22.将噪声激励种子信号扩充至时域信号长度N;2

23.步骤2

21和步骤2

22的结果按维度位相乘,然后合并为长度为时域信号长度的特征,即为非周期激励;步骤2

3.求周期激励,具体为:对2

1步骤中所得到的每一个脉冲位置k
i
,i=0,1... N
p
做如下操作:根据基频F0和带状非周期比值ap判断此脉冲位置是否为清音段,是则此处周期激励为0;否则将步骤1得到的脉冲激励种子信号依次乘以(1

ap
ki
), ap
ki
为对应维度上k
i
处的带状非周期比值,然后将N
ap
个维度的值相加到一个维度,得到该脉冲脉冲位置处的周期激励;按脉冲所在位置叠加所有脉冲位置的周期激励,得到完整的周期激励;步骤2

4.将步骤2

2得到的非周期激励和步骤2

3得到的周期激励相加,得到激励信号;步骤3.对给定音频的每一帧频谱包络,计算对应的音频数据,然后按帧移进行叠加得到最终的语音波形。
[0007]优选的,所述步骤1具体为:步骤1

1.自定义频程fr和最大频率U,根据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种可用于芯片端的语音合成方法,其特征在于,包括如下步骤:步骤1.计算脉冲激励种子信号和噪声激励种子信号;步骤2.由给定语音的基频F0和带状非周期比值ap求激励信号步骤2

1.由基频F0求脉冲个数和位置;2

11.基频F0特征上采样至时域信号长度N,其中时域信号长度为基频F0长度乘以帧移,帧移表示时域信号求声学特征时的滑动步长,上采样结果记为a
i
,i=0,1... N

1,i为不同维度;2

12.对2

11步骤得到的每一维上采样数据乘以2π,再除以采样率fs;π为圆周率,然后每个采样点依次求累积值;可表述为以下公式:其中a
i
表示步骤2

11得到的上采样结果,N为时域信号长度;b
j
表示第j维的累积数据值;2

13.对2

12的各个累积数据值b
j,
求各个累积数据值b
j
与其相邻维度的累积数据值b
j+1
分别对2π求余数后,再求余数的差并取绝对值,公式如下:c
k
表示第k维度的差绝对值,b
k
为第k维度的累积数据值,%表示取余数操作,N为时域信号长度,||表示取绝对值操作;2

14.依次对2

13的差绝对值c
k
进行判断,k=1,2...N

1,如果c
k
>π,则第k个位置即为脉冲点所在位置,统计出全部脉冲点所在位置,记为k
i
,i=0,1... N
p
,N
p
为脉冲点的个数总数;步骤2

2.求非周期激励2

21.将给定语音的带状非周期比值ap特征上采样至时域信号长度N;2

22.将噪声激励种子信号扩充至时域信号长度N;2

23.步骤2

21和步骤2

22的结果按维度位相乘,然后合并为长度为时域信号长度的特征,即为非周期激励;步骤2

3.求周期激励具体为:对2

1步骤中所得到的每一个脉冲位置k
i
,i=0,1... N
p
做如下操作:根据基频F0和带状非周期比值ap判断此脉冲位置是否为清音段,是则此处周期激励为0;否则将步骤1得到的脉冲激励种子信号依次乘以(1

ap
ki
), ap
ki
为对应维度上k
i
处的带状非周期比值,然后将N
ap
个维度的值相加到一个维度,得到该脉冲脉冲位置处的周期激励;按脉冲所在位置叠加所有脉冲位置的周期激励,得到完整的周期激励;步骤2

4.将步骤2<...

【专利技术属性】
技术研发人员:曹艳艳
申请(专利权)人:成都启英泰伦科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1