一种音频编解码的系统和方法技术方案

技术编号:37315857 阅读:16 留言:0更新日期:2023-04-21 22:57
本发明专利技术公开了一种音频编解码的系统,包括:编码模块、解码模块;所述编码模块,用于将音频进行编码,将编码后字符存储在隐藏空间,生成隐变量;将所述隐变量传输到所述解码模块;所述解码模块,用于接受所述编码模块传输的所述隐变量;将所述隐变量转化为实际语音输出。本发明专利技术还公开了一种音频编解码方法。解决了现有技术存在的需要传输的音频过大传输速度耗时长、解码得到的音频质量差的技术缺陷,进而达到可以实现编码速度快、时间损耗小、解码的还原度高、可以无损地将音频还原输出的技术效果。术效果。

【技术实现步骤摘要】
一种音频编解码的系统和方法


[0001]本专利技术涉及计算机
,尤其涉及一种音频编解码的系统和方法。

技术介绍

[0002]近年来,随着人工智能,数字人,元宇宙的发展,用户对于高清数字通讯的需求也越来越迫切,在2G、3G时代,电话机器人多采用将音频按照8k采样率进行压缩以实现语音传输,但是随着用户对高清语音的追求,基于8k采样率的语音传输方案已经不能满足人们通话需求,其会损失音频质量,令用户无法体验高清语音方案,或在体验过程中的用户体验不佳。
[0003]相关技术中,实现语音传输的音频编解码系统通常包括以下几种方式:基于信号过程利用opus等系统,虽然该系统支持16k采样率的语音传输方案,但在实际运用过程中仍会有损音质;或者,基于自回归网络的wavernn编码系统,虽然该系统效果相较于纯数字信号过程有所提升,但其最高也仅支持16k采样率的语音传输。
[0004]在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:由于高清音频容量比较大,传输起来对带宽和流量消耗都是非常大的;上述相关技术中的方式均无法满足高清音频的传输,无论在传输效率还是传输质量上均不理想。

技术实现思路

[0005]有鉴于此,本专利技术实施例提供一种音频编解码的系统和方法,能够达到可以实现编码速度快、时间损耗小、解码的还原度高、可以无损地将音频还原输出的技术效果。
[0006]为实现上述目的,根据本专利技术实施例的一个方面,提供了一种音频编解码的系统,包括:编码模块、解码模块;
[0007]所述编码模块,用于将音频进行编码,将编码后字符存储在隐藏空间,生成隐变量;将所述隐变量传输到所述解码模块;
[0008]所述解码模块,用于接受所述编码模块传输的所述隐变量;将所述隐变量转化为实际语音输出。
[0009]可选地,所述编码模块至少包括一个下采样模块;
[0010]所述解码模块至少包括一个上采样模块。
[0011]可选地,所述下采样模块包括:卷积块;
[0012]所述卷积块,根据预设子频带数对所述音频进行降维。
[0013]可选地,所述卷积块,还用于根据预设采样率,确定所述音频对应的采样音频;
[0014]根据所述采样音频对所述存储空间进行压缩,生成压缩音频。
[0015]可选地,所述下采样模块还包括:第一残差块;
[0016]所述第一残差块用于防止梯度消失,保留音频对应的信息。
[0017]可选地,所述上采样模块包括:反卷积块;
[0018]所述反卷积块,根据预设子频带数对所述隐变量进行还原。
[0019]可选地,所述上采样模块还包括:第二残差块;
[0020]所述第二残差块用于防止梯度消失,保留音频对应的信息。
[0021]可选地,还包括:判别器;
[0022]所述判别器用于对所述编码器和所述解码器进行对抗训练;
[0023]所述判别器包括:卷积层、下采样层、残差层和判别特征模块。
[0024]可选地,还包括:训练模块;
[0025]所述训练模块用于对所述判别器、所述编码模块和所述解码模块进行训练,直至所述判别器、所述编码模块和所述解码模块收敛。
[0026]根据本专利技术实施例的再一个方面,提供了一种音频编解码的方法,包括:
[0027]对音频进行编码,将编码后字符存储在隐藏空间,生成隐变量;
[0028]将所述隐变量传输到所述解码模块;
[0029]所述解码模块,用于接受所述编码模块传输的所述隐变量;将所述隐变量转化为实际语音输出。
[0030]根据本专利技术实施例的另一个方面,提供了一种音频编解码的电子设备,包括:
[0031]一个或多个处理器;
[0032]存储装置,用于存储一个或多个程序,
[0033]当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本专利技术提供的音频编解码的方法。
[0034]根据本专利技术实施例的还一个方面,提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本专利技术提供的音频编解码的方法。
[0035]上述专利技术中的一个实施例具有如下优点或有益效果:
[0036]本专利技术通过在编码模块利用神经网络生成隐变量(也就是编码特征)并通过解码模块还原音频的技术手段,避免了现有技术存在的需要传输的音频过大传输速度耗时长、解码得到的音频质量差的技术缺陷,进而达到可以实现编码速度快、时间损耗小、解码的还原度高、可以无损地将音频还原输出的技术效果。
[0037]上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
[0038]附图用于更好地理解本专利技术,不构成对本专利技术的不当限定。其中:
[0039]图1是根据本专利技术实施例的一种音频编解码的系统主要模块的示意图;
[0040]图2为编码模块的结构示意图;
[0041]图3为解码模块的结构示意图;
[0042]图4是根据本专利技术实施例的一种音频编解码的方法的主要流程的示意图;
[0043]图5是本专利技术实施例可以应用于其中的示例性系统架构图;
[0044]图6是适于用来实现本专利技术实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
[0045]以下结合附图对本专利技术的示范性实施例做出说明,其中包括本专利技术实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本专利技术的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0046]图1是根据本专利技术实施例的一种音频编解码的系统主要模块的示意图。
[0047]如图1所示,一种音频编解码的系统100,包括:编码模块101、解码模块102;
[0048]所述编码模块(codec),用于将音频进行编码,将编码后字符存储在隐藏空间,生成隐变量;将所述隐变量传输到所述解码模块。编码模块负责将高清音频编码为低维度信息,缩小高清信号大小。
[0049]所述解码模块(decodec),用于接受所述编码模块传输的所述隐变量;将所述隐变量转化为实际语音输出。解码模块一般设置在客户端,将编码器编码的特征进行还原。
[0050]本专利技术通常用于不同客户端之间的音频传输,现有技术一般采用客户端A向客户端B传输高清音频,而本专利技术由客户端A执行音频编5码,由客户端B执行音频解码进而实现音频的传输。
[0051]本专利技术所采用的音频编解码系统,是基于神经网络模型实现的对音频的编码与解码。通过该系统将音频进行编码,可编码到容量很低的隐空间中生成隐变量,对隐变量进行传输。使得在很短的时间段内即可完成音频对应隐变量的传输。等到传输完成,再利用深度学习网0络,在解码模块中将隐变量变换为实际语音输出,以此解决传输上的难题。
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频编解码的系统,其特征在于,包括:编码模块、解码模块;所述编码模块,用于将音频进行编码,将编码后字符存储在隐藏空间,生成隐变量;将所述隐变量传输到所述解码模块;所述解码模块,用于接受所述编码模块传输的所述隐变量;将所述隐变量转化为实际语音输出。2.根据权利要求1所述的系统,其特征在于,所述编码模块至少包括一个下采样模块;所述解码模块至少包括一个上采样模块。3.根据权利要求2所述的系统,其特征在于,所述下采样模块包括:卷积块;所述卷积块,根据预设子频带数对所述音频进行降维。4.根据权利要求3所述的系统,其特征在于,所述卷积块,还用于根据预设采样率,确定所述音频对应的采样音频;根据所述采样音频对所述存储空间进行压缩,生成压缩音频。5.根据权利要求3所述的系统,其特征在于,所述下采样模块还包括:第一残差块;所述第一残差块用于防止梯度消失,保留音频对应的信息。6.根据权利要求2所述的系统,其特征在于,所述上采样模块包括:反卷积块;所述反卷积块,根据预设子频带数对所述隐变量进行还原。7.根据权利要求6所述的系统,其特征在于,所述上采样模块还包括:第二残差块;所...

【专利技术属性】
技术研发人员:司马华鹏毛志强
申请(专利权)人:南京硅基智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1