本发明专利技术涉及一种基于视频的人声分离方法、终端设备及存储介质,该方法中包括:将任意两个不同说话人的视频片段对应的音频信息与一随机噪声合并为混合音频,将混合音频和两个视频片段对应的两组人脸信息作为一个训练数据;构建人声分离模型,人声分离模型对混合音频和人脸信息分别进行特征提取和特征处理后组合为一个组合特征,经过维度转换和全连接层转换为两个说话人特征,将两个说话人特征分别与混合音频特征相乘后得到特征频谱图并还原为音频数据;通过训练集对人声分离模型进行训练后,通过训练后的人声分离模型对带有人脸信息和音频信息的视频片段进行人声分离。本发明专利技术可以实现提取视频中指定说话人的干净说话语音。以实现提取视频中指定说话人的干净说话语音。以实现提取视频中指定说话人的干净说话语音。
【技术实现步骤摘要】
一种基于视频的人声分离方法、终端设备及存储介质
[0001]本专利技术涉及人声分离领域,尤其涉及一种基于视频的人声分离方法、终端设备及存储介质。
技术介绍
[0002]随着视频媒体技术的不断发展,越来越多的信息和内容通过视频的方式来进行展示,例如在互联网视频平台上,每天有无数的视频上传到平台。如果需要通过视频来获取其中的信息内容,用户会通过听取人物说的语音内容,但是由于视频中的说话人可能处于嘈杂的环境当中,或者视频中有多个说话人同时说话,导致无法清楚得听到说话人说话的内容,从而影响听取效果。
[0003]目前大部分的视频平台没有对视频中的说话人语音进行处理,通常是直接输出原声,这就导致原声容易受到环境的干扰。
技术实现思路
[0004]为了解决上述问题,本专利技术提出了一种基于视频的人声分离方法、终端设备及存储介质。
[0005]具体方案如下:
[0006]一种基于视频的人声分离方法,包括以下步骤:
[0007]S1:采集不同说话人对应的固定长度的视频片段,每个视频片段中包含了单一说话人对应的人脸信息和音频信息;
[0008]S2:从所有视频片段中提取任意两个不同说话人的视频片段,从音频噪声数据集中随机选取一个噪声音频,将提取的两个视频片段对应的两个音频信息和提取的噪声音频三者进行合并,将合并后的混合音频和提取的两个视频片段对应的两组人脸信息作为一个训练数据,将所有训练数据组成训练集;
[0009]S3:构建人声分离模型,通过训练集对人声分离模型进行训练,得到训练后的人声分离模型;
[0010]人声分离模型对输入的混合音频和两组人脸信息分别进行特征提取和特征处理后组合为一个组合特征,将组合特征经过维度转换后,通过全连接层转换为两个说话人对应的两个说话人特征,将两个说话人特征分别与输入的混合音频特征进行相乘后得到两个说话人对应的特征频谱图,将特征频谱图还原为音频数据;
[0011]模型训练过程中将模型输出的两个音频数据与输入的训练数据对应的两个说话人的真实音频信息的差值作为损失值,以损失值最小为目标对模型进行迭代训练;
[0012]S4:通过训练后的人声分离模型对带有人脸信息和音频信息的视频片段进行人声分离。
[0013]进一步的,针对混合音频的特征提取中采用短时傅立叶变换算法将音频转换为频谱图。
[0014]进一步的,特征处理均采用空洞卷积网络进行。
[0015]进一步的,维度转换采用Bidirectional LSTM网络进行。
[0016]进一步的,特征频谱图通过傅里叶逆变换还原为音频数据。
[0017]一种基于视频的人声分离终端设备,包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本专利技术实施例上述的方法的步骤。
[0018]一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现本专利技术实施例上述的方法的步骤。
[0019]本专利技术采用如上技术方案,可以实现提取视频中指定说话人的干净说话语音。
附图说明
[0020]图1所示为本专利技术实施例一的流程图。
[0021]图2所示为该实施例中模型的网络结构示意图。
具体实施方式
[0022]为进一步说明各实施例,本专利技术提供有附图。这些附图为本专利技术揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本专利技术的优点。
[0023]现结合附图和具体实施方式对本专利技术进一步说明。
[0024]实施例一:
[0025]本专利技术实施例提供了一种基于视频的人声分离方法,如图1所示,所述方法包括以下步骤:
[0026]S1:采集不同说话人对应的固定长度的视频片段,每个视频片段中包含了单一说话人对应的人脸信息和音频信息。
[0027]该实施例中从视频平台上截取大量的带有单一说话人人脸信息和单一说话人的音频信息的视频片段,其中视频片段中人脸信息和音频信息对应同一说话人。具体的,每个片段3秒中左右,包含75张人脸图像,共收集1w条左右的视频片段。
[0028]S2:从所有视频片段中提取任意两个不同说话人的视频片段,从音频噪声数据集中随机选取一个噪声音频,将提取的两个视频片段对应的两个音频信息和提取的噪声音频三者进行合并,将合并后的混合音频和提取的两个视频片段对应的两组人脸信息作为一个训练数据,将所有训练数据组成训练集。
[0029]音频噪声数据集用于给原始干净音频添加噪音数据,可以采用现有的已知音频数据集,如AudioSet音频数据集。
[0030]S3:构建人声分离模型,通过训练集对人声分离模型进行训练,得到训练后的人声分离模型。
[0031]参考图2所示,人声分离模型首先对输入的混合音频和两组人脸信息分别进行特征提取,其中针对混合音频的特征提取中采用STFT短时傅立叶变换算法将音频转换为频谱图,该实施例提取的混合音频的特征为298*257的结构,提取的两组人脸信息的人脸特征均为75*1024的结构。
[0032]在特征提取后需要对每个特征进行特征处理,该实施例中特征处理均采用空洞卷积网络(dilated convolution network)进行。经过特征处理后,人脸特征均转换为298*256的结构,混合音频特征转换为257*8的结构。
[0033]之后将特征处理后的三个特征进行组合为一个组合特征,再将组合特征进行维度转换,该实施例中维度转换采用Bidirectional LSTM网络,首先转换为298*400的结构,然后转换为3个298*600的结构。
[0034]维度转换后通过全连接层转换为两个说话人对应的两个说话人特征,即2个298*257结构的Mask,这两个Mask分别对应了两个说话人。
[0035]将两个说话人特征(Mask)与输入的混合音频特征进行相乘后得到两个说话人对应的特征频谱图(即各说话人过滤干扰音频后的结果),将特征频谱图通过傅里叶逆变换(ISTFT)还原为音频数据,模型输出的两个音频数据对应输入的两个说话人的音频信息。
[0036]模型训练过程中将模型输出的两个音频数据与输入的训练数据对应的两个说话人的真实音频信息的差值作为损失值,以损失值最小为目标对模型进行迭代训练。该实施例中训练直到损失值降到一个稳定区间为止。
[0037]S4:通过训练后的人声分离模型对带有人脸信息和音频信息的视频片段进行人声分离。
[0038]本专利技术实施例通过将视频中的指定说话人的人脸图像和带有环境噪音的音频片段输入到深度学习模型当中,通过深度学习模型得到去除环境干扰声音的该指定说话人的音频。
[0039]实施例二:
[0040]本专利技术还提供一种基于视频的人声分离终端设备,包括存储器、处理器以及存储在所述存储器中并本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于视频的人声分离方法,其特征在于,包括以下步骤:S1:采集不同说话人对应的固定长度的视频片段,每个视频片段中包含了单一说话人对应的人脸信息和音频信息;S2:从所有视频片段中提取任意两个不同说话人的视频片段,从音频噪声数据集中随机选取一个噪声音频,将提取的两个视频片段对应的两个音频信息和提取的噪声音频三者进行合并,将合并后的混合音频和提取的两个视频片段对应的两组人脸信息作为一个训练数据,将所有训练数据组成训练集;S3:构建人声分离模型,通过训练集对人声分离模型进行训练,得到训练后的人声分离模型;人声分离模型对输入的混合音频和两组人脸信息分别进行特征提取和特征处理后组合为一个组合特征,将组合特征经过维度转换后,通过全连接层转换为两个说话人对应的两个说话人特征,将两个说话人特征分别与输入的混合音频特征进行相乘后得到两个说话人对应的特征频谱图,将特征频谱图还原为音频数据;模型训练过程中将模型输出的两个音频数据与输入的训练数据对应的两个说话人的真实音频信息的差值作为损失值,以损失值最小...
【专利技术属性】
技术研发人员:陈剑超,肖龙源,李稀敏,叶志坚,
申请(专利权)人:厦门快商通科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。