视频处理方法及电子设备技术

技术编号:36579484 阅读:13 留言:0更新日期:2023-02-04 17:38
本申请公开了视频处理方法及电子设备,涉及电子技术领域。该方法包括:首先,电子设备获取到视频后,从视频的图像帧中提取人物的视觉语义特征,并基于视觉语义特征从图像帧对应的音频信息中提取该人物的声音;其次,在提取到人物在视频中部分声音后,可以确定该人物的声纹等声学特征,并基于该声学特征确定该人物在视频中全部的声音。很显然的,本申请公开的视频处理方法及电子设备,在无需预先获取人物声纹的情况下,可以独立的从视频中分离一个或多个人物的声音,使得用户在视频通话、观看视频、编辑视频时,可以对分离出来的人物声音进行处理。理。理。

【技术实现步骤摘要】
视频处理方法及电子设备


[0001]本申请涉及电子
,尤其涉及视频处理方法及电子设备。

技术介绍

[0002]随着电子技术的发展以及人物对文娱需求的不断提高,越来越多的用户利用电子设备的拍摄功能记录生活、分享生活。在日常生活中,大多数用户拍摄视频时,拍摄设备不可避免的会采集到来自于环境中其他人物、动物、物品的声音,用户需要对拍摄得到的视频文件进行复杂的处理以抑制视频文件中的噪声。但是,专业的视频处理软件的学习门槛较高,需要用户额外去学习相关的技能,用户的体验较差。
[0003]为了提升用户的体验,让用户可以“傻瓜式”的处理自己拍摄的视频,降低视频中的噪声,一种基于声纹的声音分离方法包括:预先获取被拍摄人物的声音,并基于该声音获取该声音对应的目标人物的声纹;在获取到目标人物的声纹后,基于该声纹对视频中的音频信号进行处理,从视频中分离该目标人物在视频中的声音;在获取到目标人物在视频中的声音后,进行一系列处理,如增强处理、降噪处理等。
[0004]但是,很显然的,基于声纹的声音分离方法,需要预先获取目标人物的声音以确定该目标人物的声纹。但是,在很多场景下,如采访、随拍、街拍等场景下,被拍摄的目标人物往往是陌生人,用户并不会在拍摄开始前或拍摄后单独录取一段目标人物的声音用于后期的视频处理中获取目标人物的声纹。

技术实现思路

[0005]本申请提供了一种视频处理方法及电子设备。本申请提供的视频处理方法,可以基于人物的视觉语义特征从视频的声音中分离出人物的声音,进而使得用户可以更清楚的听清该人物的声音。
[0006]第一方面,本申请提供了一种视频处理方法,该方法包括:该电子设备获取第一视频,该第一视频显示的至少部分图像帧中包括第一对象,该第一对象满足第一条件,该第一视频包括第一音频;该电子设备根据该第一视频生成第二音频,其中,该第二音频对应于该第一对象;该电子设备显示第一界面,该第一界面包括第一控件,该第一控件用于对该第二音频进行处理;响应于作用于该第一控件的操作,该电子设备播放第三音频,该第三音频为对该第二音频进行处理后的音频信息。
[0007]在上述实施例中,电子设备可以分离出视频中任一对象的声音,并响应于用户的操作,播放基于任一对象的声音处理后的声音,无需用户使用专业视频处理软件处理该视频,极大的提升了用户的体验。并且,由于电子设备已经分离出对象的声音,可以进行多种处理,如变声、增强、减弱等。
[0008]结合第一方面的一些实施例,在一些实施例中,该方法还包括:该第一界面还包括第二控件,该第二控件用于只播放该第二音频;响应于作用于该第二控件的操作,该电子设备播放第二音频。
[0009]在上述实施例中,由于电子设备已经分离出第一对象的声音,电子设备也可以在第一视频时,播放第一视频的画面和第一对象的声音。
[0010]结合第一方面的一些实施例,在一些实施例中,该方法还包括:该第一视频的至少另一部分图像帧中还包括第二对象,该第二对象满足该第一条件,该第一界面还包括第三控件;该电子设备根据该第一音频生成第四音频,其中,该第四音频对应于该第二对象;响应于作用于该第三控件的操作,该电子设备播放第五音频,该第五音频包括对该第四音频进行处理后的音频信息。
[0011]在上述实施例中,第一对象对应的一部分图像帧可以与第二图像对应的另一部分图像帧可以部分重叠,全部重叠,完全不重叠;进一步的,第一对象的声音可以与第二对象的声音完全重叠,部分重叠,完全不重叠;在这三种情况下,电子设备均可以分离出第二对象的声音,进而基于用户的交互,电子设备播放不同的声音。
[0012]结合第一方面的一些实施例,在一些实施例中,该第一条件包括:对象的面部的俯仰角位于预设俯仰角范围内和/或对象的面部的旋转位于预设旋转角范围内和/或对象的面部的倾斜角位于预设倾斜角范围内。
[0013]在上述实施例中,通过判断对象的面部的俯仰角、旋转角、倾斜角是否在预设的范围内,减少后续处理图像帧的数量,降低电子设备的计算负载。
[0014]结合第一方面的一些实施例,在一些实施例中,该电子设备根据该第一视频生成第二音频,具体包括:该电子设备基于该至少部分图像帧确定对应的第一截取音频;该电子设备基于该至少部分图像帧确定该第一对象的视觉语义特征,该视觉语义特征为发声相关、声音相关的脸部形态的特征;该电子设备基于该第一对象的视觉语义特征以及该第一截取音频确定该第一对象在该第一截取音频中的声音;该电子设备基于该第一对象在该第一截取音频中的声音确定该第一对象的声纹;该电子设备基于该第一对象的声纹以及该第一音频生成该第二音频。
[0015]在上述实施例中,电子设备可以首先确定第一对象的视觉语义特征,进而确定第一对象的部分声音,并基于部分声音确定第一对象的声纹,进而基于第一对象的声纹确定第一对象在第一视频中全部的声音,最终完成第一对象的声音的分离。
[0016]结合第一方面的一些实施例,在一些实施例中,该电子设备根据该第一视频生成第二音频,具体包括:该电子设备确定该第一视频的全部图像帧中包括第一对象,该第一对象满足第一条件;该电子设备基于该第一视频的全部图像帧确定该第一对象的视觉语义特征,该视觉语义特征为发声相关、声音相关的人物脸部形态的特征;该电子设备基于该第一对象的视觉语义特征以及该第一音频生成该第二音频。
[0017]在上述实施例中,当视频中的所有图像帧均包括第一对象时,可以通过确定第一对象的视觉语义特征进而确定第一对象在视频中的所有声音。并且,相比于通过声纹分离第一对象声音的方法,由于视觉语义特征包括更多信息,可以分离出质量更好的第一对象的声音。
[0018]结合第一方面的一些实施例,在一些实施例中,该电子设备基于该第一对象在该第一截取音频中的声音确定该第一对象的声纹,具体包括:该电子设备从该第一对象在该第一截取音频中的声音中筛选出信噪比大于信噪比阈值,且持续时间大于持续时间阈值的声音片段;该电子设备基于该声音片段确定该第一对象的声纹。
[0019]在上述实施例中,电子设备可以在从第一对象的部分声音中确定第一对象的声纹时,对部分声音进行筛选,选择信噪比高的且持续时间长的第一对象的声音,进而得到置信度更高的第一对象的声纹。
[0020]结合第一方面的一些实施例,在一些实施例中,该第一视频为存储在该电子设备本地的;或者,该第一视频为视频通话时的接收到视频。
[0021]第二方面,本申请提供了一种视频处理方法,该方法包括:该电子设备获取第一视频,该第一视频包括第一音频;该电子设备基于该第一视频确定第一部分图像帧,该第一部分图像帧中包括第一对象,该第一部分图像帧中的第一对象满足第一条件;该电子设备确定该第一部分图像帧对应的第一截取音频;该电子设备基于该第一部分图像帧确定该第一对象的视觉语义特征,该视觉语义特征为发声相关、声音相关的脸部形态的特征;该电子设备基于该第一对象的视觉语义特征以及该第一截取音频确定该第一对象在该第一截取音频中的声音;该电子设备基于该第一对象在该第本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频处理方法,应用于电子设备,其特征在于,包括:所述电子设备获取第一视频,所述第一视频显示的至少部分图像帧中包括第一对象,所述第一对象满足第一条件,所述第一视频包括第一音频;所述电子设备根据所述第一视频生成第二音频,其中,所述第二音频对应于所述第一对象;所述电子设备显示第一界面,所述第一界面包括第一控件,所述第一控件用于对所述第二音频进行处理;响应于作用于所述第一控件的操作,所述电子设备播放第三音频,所述第三音频为对所述第二音频进行处理后的音频信息。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:所述第一界面还包括第二控件,所述第二控件用于只播放所述第二音频;响应于作用于所述第二控件的操作,所述电子设备播放第二音频。3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:所述第一视频的至少另一部分图像帧中还包括第二对象,所述第二对象满足所述第一条件,所述第一界面还包括第三控件;所述电子设备根据所述第一音频生成第四音频,其中,所述第四音频对应于所述第二对象;响应于作用于所述第三控件的操作,所述电子设备播放第五音频,所述第五音频包括对所述第四音频进行处理后的音频信息。4.根据权利要求1

3中任一项所述的方法,其特征在于,所述第一条件包括:对象的面部的俯仰角位于预设俯仰角范围内和/或对象的面部的旋转位于预设旋转角范围内和/或对象的面部的倾斜角位于预设倾斜角范围内。5.根据权利要求1

4中任一项所述的方法,其特征在于,所述电子设备根据所述第一视频生成第二音频,具体包括:所述电子设备基于所述至少部分图像帧确定对应的第一截取音频;所述电子设备基于所述至少部分图像帧确定所述第一对象的视觉语义特征,所述视觉语义特征为发声相关、声音相关的脸部形态的特征;所述电子设备基于所述第一对象的视觉语义特征以及所述第一截取音频确定所述第一对象在所述第一截取音频中的声音;所述电子设备基于所述第一对象在所述第一截取音频中的声音确定所述第一对象的声纹;所述电子设备基于所述第一对象的声纹以及所述第一音频生成所述第二音频。6.根据权利要求1

4中任一项所述的方法,其特征在于,所述电子设备根据所述第一视频生成第二音频,具体包括:若所述电子设备确定所述第一视频的全部图像帧中包括所述第一对象,所述第一对象满足第一条件,所述电子设备基于所述第一视频的全部图像帧确定所述第一对象的视觉语义特征,所述视觉语义特征为发声相关、声音相关的人物脸部形态的特征;所述电子设备基于所述第一对象的视觉语义特征以及所述第一音频生成所述第二音
频。7.根据权利要求5所述的方法,其特征在于,所述电子设备基于所述第一对象在所述第一截取音频中的声音确定所述第一对象的声纹,具体包括:所述电子设备从所述第一对象在所述第一截取音频中的声音中筛选出信噪比大于信噪比阈值,且持续时间大于持续时间阈值的声音片段;所述电子设备基于所述声音片段确定所述第一对象的声纹。8.根据权利要求1

7中任一项所述的方法,其特征在于,所述第一视频为存储在所述电子设备本地的;或者,所述第一视频为视...

【专利技术属性】
技术研发人员:卢恒惠秦磊陈天珞卢曰万
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1