【技术实现步骤摘要】
一种可用于芯片端的语音合成方法
[0001]本专利技术属于语音
,具体涉及一种可用于芯片端的语音合成方法。
技术介绍
[0002]离线语音合成芯片可用于信息机,考勤机,语音导游,自动售货机,智能玩具等领域。通过通讯接口,接收待合成的文本数据,实现文本到语音(或 TTS 语音)的转换。传统的语音合成芯片采用拼接法,语音合成韵律感不强,可合成文本受拼接片段的影响,而高性能语音合成芯片价格高,大大限制了离线语音合成芯片的应用场景。一款性价比更高,效果更自然的语音合成芯片,可以推动 TTS 语音合成技术的行业应用走向更深入、更广泛。工业界最常用的语音合成声码器为WORLD(WORLD: a vocoder
‑
based high
‑
quality speech synthesis system for real
‑
time applications, IEICE transactions on information and systems, vol. E99
‑
D, no. 7, pp. 1877
‑
1884, 2016. M. Morise, F. Yokomori, and K. Ozawa)声码器,因其计算方法为纯信号学理论,既比其他传统声码器(STRAIGHT、Griffim Lim等)合成效果好,也比基于神经网络的声码器(MelGAN、LPCNet等)计算复杂度低,合成速度快。更适合用于低性能的芯片端设备。
[ ...
【技术保护点】
【技术特征摘要】
1.一种可用于芯片端的语音合成方法,其特征在于,包括如下步骤:步骤1.计算脉冲激励种子信号和噪声激励种子信号;步骤2.由给定语音的基频F0和带状非周期比值ap求激励信号步骤2
‑
1.由基频F0求脉冲个数和位置;2
‑
11.基频F0特征上采样至时域信号长度N,其中时域信号长度为基频F0长度乘以帧移,帧移表示时域信号求声学特征时的滑动步长,上采样结果记为a
i
,i=0,1... N
‑
1,i为不同维度;2
‑
12.对2
‑
11步骤得到的每一维上采样数据乘以2π,再除以采样率fs;π为圆周率,然后每个采样点依次求累积值;可表述为以下公式:其中a
i
表示步骤2
‑
11得到的上采样结果,N为时域信号长度;b
j
表示第j维的累积数据值;2
‑
13.对2
‑
12的各个累积数据值b
j,
求各个累积数据值b
j
与其相邻维度的累积数据值b
j+1
分别对2π求余数后,再求余数的差并取绝对值,公式如下:c
k
表示第k维度的差绝对值,b
k
为第k维度的累积数据值,%表示取余数操作,N为时域信号长度,||表示取绝对值操作;2
‑
14.依次对2
‑
13的差绝对值c
k
进行判断,k=1,2...N
‑
1,如果c
k
>π,则第k个位置即为脉冲点所在位置,统计出全部脉冲点所在位置,记为k
i
,i=0,1... N
p
,N
p
为脉冲点的个数总数;步骤2
‑
2.求非周期激励2
‑
21.将给定语音的带状非周期比值ap特征上采样至时域信号长度N;2
‑
22.将噪声激励种子信号扩充至时域信号长度N;2
‑
23.步骤2
‑
21和步骤2
‑
22的结果按维度位相乘,然后合并为长度为时域信号长度的特征,即为非周期激励;步骤2
‑
3.求周期激励具体为:对2
‑
1步骤中所得到的每一个脉冲位置k
i
,i=0,1... N
p
做如下操作:根据基频F0和带状非周期比值ap判断此脉冲位置是否为清音段,是则此处周期激励为0;否则将步骤1得到的脉冲激励种子信号依次乘以(1
‑
ap
ki
), ap
ki
为对应维度上k
i
处的带状非周期比值,然后将N
ap
个维度的值相加到一个维度,得到该脉冲脉冲位置处的周期激励;按脉冲所在位置叠加所有脉冲位置的周期激励,得到完整的周期激励;步骤2
‑
4.将步骤2<...
【专利技术属性】
技术研发人员:曹艳艳,
申请(专利权)人:成都启英泰伦科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。