The invention provides an audio object encoding and decoding method suitable for streaming media. When encoding, a plurality of input audio object signals are first preprocessed to obtain a data block composed of multi-frame audio object signals and corresponding mono-channel mixed signals containing all the objects. Matrix and parameter matrix are decomposed into low-dimensional coefficient matrix and matrix by matrix decomposition. Finally, the mixed signal, coefficient matrix and base matrix are combined into the stream. When decoding, the stream is decomposed and the parameter matrix is reconstructed according to the coefficient matrix and matrix. Then the audio signal is processed according to the parameter matrix and mixed signal. Reconstruction. This method supports the transmission of audio data in the form of data blocks, and can be applied to streaming media application scenarios; and improves the resolution of parameters in frequency domain, and reduces the required bit rate of parameter coding by using the weighted matrix decomposition method, which can ensure low bit rate and high quality reconstruction of audio object signals.
【技术实现步骤摘要】
一种适应于流媒体的音频对象编解码方法
本专利技术涉及数字音频信号处理领域,涉及音频对象编码,具体涉及适用于流媒体的多音频对象高质量压缩编码。
技术介绍
音频编码技术已经从传统的单声道、立体声编码技术发展到更具沉浸感的多声道音频编码技术,并且基于多声道音频编码技术,已经实现了三维音频场景的编码与重建。但是音频场景是由音频对象组成的,而传统的基于声道的音频编码技术不能直接编码音频对象信号,灵活性低,从而不能满足用户对单个音频对象轨迹以及对音频场景个性化重建的需求。基于音频对象的音频编码技术可以将多个相互独立的音频对象进行编码传输,从而保证音频对象重建的灵活性、准确性以及用户个性化的需求,所以基于对象的音频编码技术被视为新一代音频编码技术。国际上许多学者和科研机构都已开展音频对象编码的研究工作,并提出多种音频对象编码方法,如下表所示。其中具代表性的两种方法是由德国知名研究机构Fraunhofer提出的空间音频对象编码技术(SpatialAudioObjectCoding,SAOC)以及由武汉大学提出的基于非负矩阵分解的对象编码方法(AudioObjectCodingbasedonNon-negativeMatrixFactorization,NMF-basedAOC)。(1)SAOC方法在编码端基于子带为每一帧信号提取音频对象之间的能量比(ObjectsLevelDifference,OLD)作为对象参数,并将所有音频对象信号进行降混合得到单声道或立体声混合信号;在解码端,利用对象参数OLD及混合信号可重建音频对象信号。SAOC方法可以以单声道或者立体声的码率编 ...
【技术保护点】
1.一种适用于流媒体的音频对象编码方法,其特征在于,用于同时处理多个音频对象,包括以下步骤:步骤A1,对输入的多音频对象信号经过预处理操作,得到多帧音频对象信号构成的数据块以及对应的包含所有对象的单声道混合信号;步骤A2,根据步骤A1得到的对象信号计算权值矩阵;步骤A3,根据步骤A1得到的对象信号以及单声道混合信号,按照子带计算对象信号与混合信号能量比参数ODLR,得到各对象的数据块相应的ODLR参数矩阵;步骤A4,根据步骤A2得到的权值矩阵,将步骤A3得到的ODLR参数矩阵分解为系数矩阵和基矩阵;步骤A5,对步骤A4得到的低维度的系数矩阵与基矩阵进行量化,得到矩阵量化码流;步骤A6,对步骤A1输出的单声道混合信号进行单声道编码,得到混合信号的码流;步骤A7,将步骤A5中获得的矩阵量化码流与步骤A6中获得的单声道混合信号的码流合成编码输出码流,传输到解码端。
【技术特征摘要】
1.一种适用于流媒体的音频对象编码方法,其特征在于,用于同时处理多个音频对象,包括以下步骤:步骤A1,对输入的多音频对象信号经过预处理操作,得到多帧音频对象信号构成的数据块以及对应的包含所有对象的单声道混合信号;步骤A2,根据步骤A1得到的对象信号计算权值矩阵;步骤A3,根据步骤A1得到的对象信号以及单声道混合信号,按照子带计算对象信号与混合信号能量比参数ODLR,得到各对象的数据块相应的ODLR参数矩阵;步骤A4,根据步骤A2得到的权值矩阵,将步骤A3得到的ODLR参数矩阵分解为系数矩阵和基矩阵;步骤A5,对步骤A4得到的低维度的系数矩阵与基矩阵进行量化,得到矩阵量化码流;步骤A6,对步骤A1输出的单声道混合信号进行单声道编码,得到混合信号的码流;步骤A7,将步骤A5中获得的矩阵量化码流与步骤A6中获得的单声道混合信号的码流合成编码输出码流,传输到解码端。2.根据权利要求1所述的适用于流媒体的音频对象编码方法,其特征在于:步骤A1中,所述预处理操作包括根据预设帧数将对象信号进行修正离散余弦变换,输出频域内矩阵形式的数据块,其中矩阵的行数或列数等于预设帧数,矩阵的列数或行数等于频点数。3.根据权利要求2所述的适用于流媒体的音频对象编码方法,其特征在于:所述预设帧数是指对象信号数据块内所包含的帧数。4.根据权利要求1或2或3所述的适用于流媒体的音频对象编码方法,其特征在于:步骤A1中,所述预处理操作包括将所有对象的数据块进行下混,得到对应的单声道混合信号。5.根据权利要求1或2或3所述的适用于流媒体的音频对象编码方法,其特征在于:步骤A2中,所述权值矩阵是根据对象信号的频率成分特性计算得到,权值越大代表该频率成分越重要;每个对象信号的每个数据块都对应一个权值矩阵。6.根据权利要求1或2或3所述的适用于流媒体的音频对象编...
【专利技术属性】
技术研发人员:胡瑞敏,武庭照,王晓晨,柯善发,陈玮,
申请(专利权)人:武汉大学,
类型:发明
国别省市:湖北,42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。