一种音频变速方法技术

技术编号:3871408 阅读:368 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及包括一种音频变速方法,包括:根据变速要求按一定速率向音频缓冲区内输入原始音频数据;在所述音频缓冲区中寻找拷贝固定长度的最佳配准数据,进行淡入淡出式叠加后以固定速度输出。这种音频变速方法,只需更改原始信号的输入速度就可改变音频速度,不使用语音信号的基本参量,计算简单、精度高、无级变速、即时、音质高和变速因子可取范围大,同时适用于各种不同采样率、不同样点位长的音频信号以及包括语音和音乐在内的各种音频。

【技术实现步骤摘要】

本专利技术涉及^:字信号处理,具体涉及。
技术介绍
不同层次的语言学习者,对语速的接受程度有所不同。初级入门 者,需要收听更慢一点的语速,便于学习和理解。中级学者,则要求 更高一点的语速,而高级学习者,则要听比正常语速更快的语速。针 对这种需求,很多厂家推出了具备语言学习功能的电子设备,此类设 备带有语音变速功能,可以将预存的语音数据或录制语音数据进行变 速播放。使用者可以根据不同需求变更语速的播放,达到助于学习语 言的目的。这些语言学习电子设备,虽然具备有变速播放功能,但都普遍存 在一些缺点1、通过调节f兹带的转动速率来改变播放的速度。此方法会带来 语音的严重变调。2、 基于MCU芯片上,配以一些信号处理算法实现变速,这些方 法虽然也能实现语音变速,但是变速的幅度有限,或者变速幅度大到 一定程度时,声音会出现变调或失真。未能满足更多使用者学习语言 的需求。3、 变速所支持的语音带宽有限,未能支持到4410QHz采样率的 宽带音频。4另外.中国专利技术专利申请"语音变速的方法",公开号CN101202048,公开了一种语音变速方法,根据语音基本周期寻找语 音区段然后对语音区段进行变速处理,每个人语音特征不同,基本周 期也不同,因此这种方式实现复杂,同时仅适用于语音,并不适用于 音乐。
技术实现思路
本专利技术需要解决的技术问题是,如何提供,能 完成更大幅度的音频变速,并且实现高保真音频变速,包括语音和音 乐。本专利技术技术问题这样解决,构建,包括以下步骤根据变速要求按一定速率向音频緩沖区内输入原始音频数据;在所述音频緩沖区中寻找拷贝固定长度的最佳配准数据,进行淡 入淡出式叠加后以固定速度输出。按照本专利技术提供的音频变速方法,所述淡入淡出式叠加是更改 这一次所找最佳配准数据的上半段为上一次所找最佳配准数据下半段 的加窗值加上这一次所找最佳配准数据上半段的加窗值,更改这一次 最佳配准数据的下半段为这一次所找最佳配准数据下半段的加窗值, 加上下一次所找音频段上半段的加窗值。按照本专利技术提供的音频变速方法,所述拷贝保留在所述音频緩冲 区的被找最佳配准数据,所述音频缓沖区先溢出先输入数据。按照本专利技术提供的音频变速方法,所述寻找包括但不限制于采用 最小均方差、互信息量最大和幅度相关性最高准则中的任一种。按照本专利技术提供的音频变達方法,该音频变速方法包括根据音频 加速要求,所述一定速率高于所述固定速度,所述固定速度是原始音 频数据速率。按照本专利技术提供的音频变速方法,该音频变速方法包括根据音频 减速要求,所述一定速率低于所述固定速度,所述固定速度是原始音 频数据速率。按照本专利技术提供的音频变速方法,所述音频包括但不限制于语音 和音乐的一种或二种。按照本专利技术提供的音频变速方法,所述原始音频数据采样率包括j旦不卩艮制于是8000Hz、 16000Hz、 22050Hz、 32000Hz、 44100Hz、 或48000Hz,所述原始音频数据位长包括但不限制于是16bit、 24bit 或32bit。本专利技术提供的音频变速方法,相比现有技术具有如下优点1、 没有使用语音信号的基本参量,比如语音信号的基音、共振峰 等,可适用于音频信号(包括语音信号)的变速。2、 可适用于不同采样率的音频信号,支持常用的8000Hz、 16000Hz、 22050Hz、 32000Hz、 44100Hz、 4,0Hz采样率的音频 信号。3、 可适用于不同样点位长的音频信号,支持常用的16bit、 24bit 或32bit位长音频信号。4、 变速后输出信号,每帧信号的长度是固定的;5、 改变变速速度,只需要改变输入原始信号的速度,控制过程简 洁,控制精度高,可实现高精度级别差的无级变速和高精度控制时间 差的即时变速;6、不需要提取语音或音频信号特征参数,计算量远小于其它变 速算法;7 、变速后音频信号保持高保真的音质。8、 可实现大变速因子范围的变速。附困说明下面结合附图和具体实施例进一步对本专利技术进行详细说明。附图说明图1是本专利技术音频变速方法流程示意图2是本专利技术音频缓沖区结构示意图3是图2所示音频緩沖区中基本音核结构示意图4是本专利技术音频緩沖区最优配准示意图5是本专利技术音频緩沖区音频输出示意图。具体实施例方式首先,简要说明本专利技术音频变速方法,包括接收原始音频(包括语音)信号,原始音频信号的采样率,可以 包才舌常用的8000Hz、 16000Hz、 22050Hz、 32000Hz、 44100Hz、 48000Hz;原始语音的位长,可以是16bit、 24bit或32bit;緩存足够长的 一段原始音频信号;以后向激励的方式,在緩存的原始音频信号中寻找最优配准音核, 拷贝该音核、进行淡入淡出式处理后拼接到输出音频信号中,音核即 一段固定长度的音频数据。上述音频变速方法,可适用于不同的常规采样率的音频信号,并不限制于语音信号,也不限制于8kHz采样率的语音信号。上述音频变 速方法,采用定点算法实现,以节省计算量,可适用于目前主流的运 算芯片;其输入的音频信号的位长,可以是16bit、 24bit或32bit,当 采用高精度位长进行计算的时候,应避免了运算中的位长溢出。上述 音频变速方法,在配准寻找最佳匹配音核的时候,采用的准则,可以 是最小均方差、互信息量、幅度相关性或其它常用的矢量配准准则, 其中,最小均方差准则是参考音核是x,待配准音频信号是y,则把y分为小段,每一小段 包含N-1音频样点数N点,计算各小段的均方差,sum((x(i)-y(i)f2) /N, i=0最后比较各小段均方差的值,最小均方差的小段对应最佳匹配 音核。也可采用互信息量、幅度相关性或其它的矢量配准准则,这里不 再赘述。上述音频变速方法,在输出音频信号的时候,每次输出的信号段, 其长度是固定的,采用了淡入淡出措施,其中,前一半信号段是旧音 核逐渐淡出,后一半信号段是新的配准音核逐渐淡入。淡入淡出过程 中采用的淡入淡出函数, 一般采用Hamming窗或Hanning窗,也可 以采用其它类似形状的加窗函数。进一步,结合本专利技术具体实施例进行详细说明,如图1所示,包 括以下步骤步骤110:接收原始音频(包括语音)信号,原始音频信号的采样 率,可以包括常用的8000Hz、 16000Hz、 22050Hz、 32000Hz、 44100Hz、 48000Hz;原始语音的位长,可以是16bit、 24bit或32bit。步骤120:音频緩冲区,结构如图2所示,緩存足够长的一段原 始音频信号。步骤130:如图3所示,以后向激励的方式,在缓存的原始音频 信号中寻找基本音核31。步骤140:如图4所示,找到最优配准的音核41。在配准寻找最 佳匹配音核的时候,采用的准则,可以是最小均方差、互信息量、幅 度相关性或其它常用的矢量配准准则。步骤150:切取固定长度的一段音核步骤160:拼接成新的音频信号输出,如图5所示。在输出音频 信号的时候,每次输出的信号段,其长度是固定的,采用了淡入淡出 措施,其中,前一半信号段是旧音核逐渐淡出,后一半信号段是新的 配准音核逐渐淡入。淡入淡出过程中采用的淡入淡出函数, 一般采用 Hamming窗或Hanning窗,也可以采用其它类似形状的加窗函数。步骤170:更新待配准的音核本文档来自技高网...

【技术保护点】
一种音频变速方法,其特征在于,包括以下步骤: 根据变速要求按一定速率向音频缓冲区内输入原始音频数据; 在所述音频缓冲区中寻找拷贝固定长度的最佳配准数据,进行淡入淡出式叠加后以固定速度输出。

【技术特征摘要】

【专利技术属性】
技术研发人员:林嘉宇苏宏桓
申请(专利权)人:东莞市步步高教育电子产品有限公司
类型:发明
国别省市:44[中国|广东]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1