一种可用于芯片端的语音合成方法技术

技术编号：33623562 阅读：21 留言：0更新日期：2022-06-02 00:50

一种可用于芯片端的语音合成方法，包括如下步骤：步骤1.计算脉冲激励种子信号和噪声激励种子信号；步骤2.由给定语音的基频F0和带状非周期比值ap求激励信号；步骤3.对给定音频的每一帧频谱包络,计算对应的音频数据，然后按帧移进行叠加得到最终的语音波形。本发明专利技术通过预先离线计算所需脉冲激励种子信号，在计算周期激励和非周期激励时只做乘加运算，不涉及傅里叶变换和傅里叶逆变换，提升了声码器在芯片端的运算速度。算速度。算速度。

全部详细技术资料下载

【技术实现步骤摘要】
一种可用于芯片端的语音合成方法

[0001]本专利技术属于语音
，具体涉及一种可用于芯片端的语音合成方法。

技术介绍

[0002]离线语音合成芯片可用于信息机，考勤机，语音导游，自动售货机，智能玩具等领域。通过通讯接口，接收待合成的文本数据，实现文本到语音（或 TTS 语音）的转换。传统的语音合成芯片采用拼接法，语音合成韵律感不强，可合成文本受拼接片段的影响，而高性能语音合成芯片价格高，大大限制了离线语音合成芯片的应用场景。一款性价比更高，效果更自然的语音合成芯片，可以推动 TTS 语音合成技术的行业应用走向更深入、更广泛。工业界最常用的语音合成声码器为WORLD（WORLD: a vocoder
‑
based high
‑
quality speech synthesis system for real
‑
time applications, IEICE transactions on information and systems, vol. E99
‑
D, no. 7, pp. 1877
‑
1884, 2016. M. Morise, F. Yokomori, and K. Ozawa）声码器，因其计算方法为纯信号学理论，既比其他传统声码器（STRAIGHT、Griffim Lim等）合成效果好，也比基于神经网络的声码器（MelGAN、LPCNet等）计算复杂度低，合成速度快。更适合用于低性能的芯片端设备。
[...

【技术保护点】

【技术特征摘要】
1.一种可用于芯片端的语音合成方法，其特征在于，包括如下步骤：步骤1.计算脉冲激励种子信号和噪声激励种子信号；步骤2.由给定语音的基频F0和带状非周期比值ap求激励信号步骤2
‑
1.由基频F0求脉冲个数和位置；2
‑
11.基频F0特征上采样至时域信号长度N，其中时域信号长度为基频F0长度乘以帧移，帧移表示时域信号求声学特征时的滑动步长，上采样结果记为a
i
,i=0,1... N
‑
1，i为不同维度；2
‑
12.对2
‑
11步骤得到的每一维上采样数据乘以2π，再除以采样率fs；π为圆周率，然后每个采样点依次求累积值；可表述为以下公式：其中a
i
表示步骤2
‑
11得到的上采样结果，N为时域信号长度；b
j
表示第j维的累积数据值；2
‑
13.对2
‑
12的各个累积数据值b
j，
求各个累积数据值b
j
与其相邻维度的累积数据值b
j+1
分别对2π求余数后，再求余数的差并取绝对值，公式如下：c
k
表示第k维度的差绝对值，b
k
为第k维度的累积数据值，%表示取余数操作，N为时域信号长度，||表示取绝对值操作；2
‑
14.依次对2
‑
13的差绝对值c
k
进行判断,k=1,2...N
‑
1，如果c
k
>π，则第k个位置即为脉冲点所在位置，统计出全部脉冲点所在位置，记为k
i
,i=0,1... N
p
，N
p
为脉冲点的个数总数；步骤2
‑
2.求非周期激励2
‑
21.将给定语音的带状非周期比值ap特征上采样至时域信号长度N；2
‑
22.将噪声激励种子信号扩充至时域信号长度N；2
‑
23.步骤2
‑
21和步骤2
‑
22的结果按维度位相乘，然后合并为长度为时域信号长度的特征，即为非周期激励；步骤2
‑
3.求周期激励具体为：对2
‑
1步骤中所得到的每一个脉冲位置k
i
,i=0,1... N
p
做如下操作：根据基频F0和带状非周期比值ap判断此脉冲位置是否为清音段，是则此处周期激励为0；否则将步骤1得到的脉冲激励种子信号依次乘以（1
‑
ap
ki
), ap
ki
为对应维度上k
i
处的带状非周期比值，然后将N
ap
个维度的值相加到一个维度，得到该脉冲脉冲位置处的周期激励；按脉冲所在位置叠加所有脉冲位置的周期激励，得到完整的周期激励；步骤2
‑
4.将步骤2<...

【专利技术属性】
技术研发人员：曹艳艳，
申请(专利权)人：成都启英泰伦科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人