视频处理方法及电子设备技术

技术编号：36579484 阅读：13 留言：0更新日期：2023-02-04 17:38

本申请公开了视频处理方法及电子设备，涉及电子技术领域。该方法包括：首先，电子设备获取到视频后，从视频的图像帧中提取人物的视觉语义特征，并基于视觉语义特征从图像帧对应的音频信息中提取该人物的声音；其次，在提取到人物在视频中部分声音后，可以确定该人物的声纹等声学特征，并基于该声学特征确定该人物在视频中全部的声音。很显然的，本申请公开的视频处理方法及电子设备，在无需预先获取人物声纹的情况下，可以独立的从视频中分离一个或多个人物的声音，使得用户在视频通话、观看视频、编辑视频时，可以对分离出来的人物声音进行处理。理。理。

全部详细技术资料下载

【技术实现步骤摘要】
视频处理方法及电子设备

[0001]本申请涉及电子
，尤其涉及视频处理方法及电子设备。

技术介绍

[0002]随着电子技术的发展以及人物对文娱需求的不断提高，越来越多的用户利用电子设备的拍摄功能记录生活、分享生活。在日常生活中，大多数用户拍摄视频时，拍摄设备不可避免的会采集到来自于环境中其他人物、动物、物品的声音，用户需要对拍摄得到的视频文件进行复杂的处理以抑制视频文件中的噪声。但是，专业的视频处理软件的学习门槛较高，需要用户额外去学习相关的技能，用户的体验较差。
[0003]为了提升用户的体验，让用户可以“傻瓜式”的处理自己拍摄的视频，降低视频中的噪声，一种基于声纹的声音分离方法包括：预先获取被拍摄人物的声音，并基于该声音获取该声音对应的目标人物的声纹；在获取到目标人物的声纹后，基于该声纹对视频中的音频信号进行处理，从视频中分离该目标人物在视频中的声音；在获取到目标人物在视频中的声音后，进行一系列处理，如增强处理、降噪处理等。
[0004]但是，很显然的，基于声纹的声音分离方法，需要预先获取目标人物的声音以确定该目标人物的声纹。但是，在很多场景下，如采访、随拍、街拍等场景下，被拍摄的目标人物往往是陌生人，用户并不会在拍摄开始前或拍摄后单独录取一段目标人物的声音用于后期的视频处理中获取目标人物的声纹。

技术实现思路

[0005]本申请提供了一种视频处理方法及电子设备。本申请提供的视频处理方法，可以基于人物的视觉语义特征从视频的声音中分离出人物的声音，进而使得用户可以更清楚的听清该...

【技术保护点】

【技术特征摘要】
1.一种视频处理方法，应用于电子设备，其特征在于，包括：所述电子设备获取第一视频，所述第一视频显示的至少部分图像帧中包括第一对象，所述第一对象满足第一条件，所述第一视频包括第一音频；所述电子设备根据所述第一视频生成第二音频，其中，所述第二音频对应于所述第一对象；所述电子设备显示第一界面，所述第一界面包括第一控件，所述第一控件用于对所述第二音频进行处理；响应于作用于所述第一控件的操作，所述电子设备播放第三音频，所述第三音频为对所述第二音频进行处理后的音频信息。2.根据权利要求1所述的方法，其特征在于，所述方法还包括：所述第一界面还包括第二控件，所述第二控件用于只播放所述第二音频；响应于作用于所述第二控件的操作，所述电子设备播放第二音频。3.根据权利要求1或2所述的方法，其特征在于，所述方法还包括：所述第一视频的至少另一部分图像帧中还包括第二对象，所述第二对象满足所述第一条件，所述第一界面还包括第三控件；所述电子设备根据所述第一音频生成第四音频，其中，所述第四音频对应于所述第二对象；响应于作用于所述第三控件的操作，所述电子设备播放第五音频，所述第五音频包括对所述第四音频进行处理后的音频信息。4.根据权利要求1
‑
3中任一项所述的方法，其特征在于，所述第一条件包括：对象的面部的俯仰角位于预设俯仰角范围内和/或对象的面部的旋转位于预设旋转角范围内和/或对象的面部的倾斜角位于预设倾斜角范围内。5.根据权利要求1
‑
4中任一项所述的方法，其特征在于，所述电子设备根据所述第一视频生成第二音频，具体包括：所述电子设备基于所述至少部分图像帧确定对应的第一截取音频；所述电子设备基于所述至少部分图像帧确定所述第一对象的视觉语义特征，所述视觉语义特征为发声相关、声音相关的脸部形态的特征；所述电子设备基于所述第一对象的视觉语义特征以及所述第一截取音频确定所述第一对象在所述第一截取音频中的声音；所述电子设备基于所述第一对象在所述第一截取音频中的声音确定所述第一对象的声纹；所述电子设备基于所述第一对象的声纹以及所述第一音频生成所述第二音频。6.根据权利要求1
‑
4中任一项所述的方法，其特征在于，所述电子设备根据所述第一视频生成第二音频，具体包括：若所述电子设备确定所述第一视频的全部图像帧中包括所述第一对象，所述第一对象满足第一条件，所述电子设备基于所述第一视频的全部图像帧确定所述第一对象的视觉语义特征，所述视觉语义特征为发声相关、声音相关的人物脸部形态的特征；所述电子设备基于所述第一对象的视觉语义特征以及所述第一音频生成所述第二音
频。7.根据权利要求5所述的方法，其特征在于，所述电子设备基于所述第一对象在所述第一截取音频中的声音确定所述第一对象的声纹，具体包括：所述电子设备从所述第一对象在所述第一截取音频中的声音中筛选出信噪比大于信噪比阈值，且持续时间大于持续时间阈值的声音片段；所述电子设备基于所述声音片段确定所述第一对象的声纹。8.根据权利要求1
‑
7中任一项所述的方法，其特征在于，所述第一视频为存储在所述电子设备本地的；或者，所述第一视频为视...

【专利技术属性】
技术研发人员：卢恒惠，秦磊，陈天珞，卢曰万，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人