对目标场景进行取景的方法及装置制造方法及图纸

技术编号：39420910 阅读：7 留言：0更新日期：2023-11-19 16:09

本发明专利技术实施例提供了一种对目标场景进行取景的方法及装置，包括：获取对第一视频的人脸检测结果，得到第一检测结果，第一视频是在第一时刻通过全景相机对目标场景进行拍摄得到的视频；获取对第一音频的声源定位结果，得到第一定位结果，第一音频是在第一时刻通过麦克风阵列对目标场景进行采集得到的音频；根据第一检测结果和第一定位结果确定取景模式，取景模式包括：自动模式、追踪模式和独立模式，自动模式是对目标场景中所有参与者进行取景的模式，追踪模式是对目标场景中的主发言人进行追踪取景的模式，独立模式是对目标场景中多个发言人进行取景的模式；按照取景模式对目标场景进行取景，得到所述目标场景的取景画面。通过本发明专利技术，解决了相关技术中无法对场景自动进行取景的问题。行取景的问题。行取景的问题。

全部详细技术资料下载

【技术实现步骤摘要】
对目标场景进行取景的方法及装置

[0001]本专利技术实施例涉及通信领域，具体而言，涉及一种对目标场景进行取景的方法及装置。

技术介绍

[0002]在相关领域中，需要对场景进行取景，例如，对视频会议进行取景，现有技术中通常使用手机或者其他类似终端的摄像头拍摄场景的画面。对于较大的场景，视场角小的摄像头无法拍摄到场景的全景画面，对于场景中的特写画面需要移动摄像头的位置拍摄，通常需要专业的拍摄人员进行跟拍，无法对场景自动进行取景。
[0003]针对上述问题，目前尚未存在有效的解决方案。

技术实现思路

[0004]本专利技术实施例提供了一种对目标场景进行取景的方法及装置，以至少解决相关技术中无法对场景自动进行取景的问题。
[0005]根据本专利技术的一个实施例，提供了一种对目标场景进行取景的方法，包括：获取对第一视频的人脸检测结果，得到第一检测结果，其中，所述第一视频是在第一时刻通过全景相机对目标场景进行拍摄得到的视频；获取对第一音频的声源定位结果，得到第一定位结果，其中，所述第一音频是在所述第一时刻通过麦克风阵列对所述目标场景进行采集得到的音频；根据所述第一检测结果和第一定位结果确定取景模式，其中，所述取景模式包括：自动模式、追踪模式和独立模式，所述自动模式是对所述目标场景中所有参与者进行取景的模式，所述追踪模式是对所述目标场景中的主发言人进行追踪取景的模式，所述独立模式是对所述目标场景中多个发言人进行取景的模式；按照所述取景模式对所述目标场景进行取景，得到所述目标场景的取景画面。
>[0006]在一个示例性实施例中，根据所述第一检测结果和第一定位结果确定取景模式，包括：在所述第一检测结果和所述第一定位结果表示所述目标场景中不存在发言人的情况下，确定所述取景模式为所述自动模式；在所述第一检测结果和所述第一定位结果表示所述目标场景中存在主发言人的情况下，确定所述取景模式为所述追踪模式；在所述第一检测结果和所述第一定位结果表示所述目标场景中存在至少两个发言人的情况下，确定所述取景模式为所述独立模式。
[0007]在一个示例性实施例中，所述方法还包括：获取发言人数据库，其中，所述发言人数据库中记录了发言人，以及发言人的发言时长；根据所述发言人数据库确定所述发言时长最长的发言人为目标发言人，所述目标发言人的发言时长为目标发言时长；根据所述目标发言人的目标发言时长，确定所述目标场景中是否存在所述主发言人。
[0008]在一个示例性实施例中，根据所述目标发言人的目标发言时长，确定所述目标场景中是否存在所述主发言人，包括：确定所述发言人数据库中记录的所有发言人的发言时长的总和，得到总发言时长；在所述目标发言时长与所述总发言时长的比值大于或等于预
设值的情况下，确定所述目标发言人为所述主发言人；否则，确定所述所述目标场景中存在至少两个发言人。
[0009]在一个示例性实施例中，按照所述取景模式对所述目标场景进行取景，包括：将所述第一检测结果输入触发器，通过所述触发器判断是否满足取景的触发条件；在满足所述触发条件的情况下，按照所述取景模式对所述目标场景进行取景。
[0010]在一个示例性实施例中，将所述第一检测结果输入触发器，通过所述触发器判断是否满足取景的触发条件，包括：获取对第二视频的人脸检测结果，得到第二检测结果，其中，所述第二视频是在第二时刻通过所述全景相机对所述目标场景进行拍摄得到的视频，所述第二时刻是所述第一时刻之前的视频拍摄时刻；在所述第一检测结果中的检测框与所述第二检测结果中的检测框满足预设条件的情况下，确定满足所述取景的触发条件。
[0011]在一个示例性实施例中，在所述第一检测结果中的检测框与所述第二检测结果中的检测框满足预设条件的情况下，确定满足所述取景的触发条件，包括：确定所述第一检测结果中的第一目标检测框，以及所述第二检测结果中的第二目标检测框；在所述第一目标检测框的中心点与所述第二目标检测框的中心点之间的距离大于或等于预设距离阈值的情况下，确定满足所述取景的触发条件；或者，在所述第一检测框的面积与所述第二检测框的面积的差值大于或等于预设差值阈值的情况下，确定满足所述取景的触发条件。
[0012]在一个示例性实施例中，确定所述第一检测结果中的第一目标检测框，以及所述第二检测结果中的第二目标检测框，包括：在所述取景模式为所述自动模式的情况下，将所述第一检测结果中位于所述第一视频的边界的检测框确定为所述第一目标检测框，将所述第二检测结果中位于所述第二视频的边界的检测框确定为所述第二目标检测框；在所述取景模式为所述追踪模式的情况下，将所述第一检测结果中对所述主发言人检测得到的检测框确定为所述第一目标检测框，将所述第二检测结果中对所述主发言人检测得到的检测框确定为所述第二目标检测框；在所述取景模式为所述独立模式的情况下，将所述第一检测结果中对所述多个发言人检测得到的检测框确定为所述第一目标检测框，将所述第二检测结果中对所述多个发言人检测得到的检测框确定为所述第二目标检测框。
[0013]在一个示例性实施例中，在满足所述触发条件的情况下，按照所述取景模式对所述目标场景进行取景，包括：在所述取景模式为所述自动模式的情况下，在所述第一检测结果中确定位于所述第一视频的边界的检测框；根据所述第一视频的边界的检测框确定取景框；对所述取景框进行填充，得到所述目标场景的取景画面。
[0014]在一个示例性实施例中，在满足所述触发条件的情况下，按照所述取景模式对所述目标场景进行取景，还包括：在所述取景模式为所述追踪模式的情况下，在所述第一检测结果中确定所述主发言人对应的检测框；将所述主发言人象对应的检测框映射到左副相机在所述第一时刻拍摄的视频画面，得到第一映射画面；或者，将所述主发言人对应的检测框映射到右副相机在所述第一时刻拍摄的视频画面，得到第二映射画面；通过所述第一映射画面或所述第二映射画面对所述目标场景进行取景。
[0015]在一个示例性实施例中，将所述主发言人对应的检测框映射到左副相机在所述第一时刻拍摄的视频画面，得到第一映射画面；或者，将所述主发言人对应的检测框映射到右副相机在所述第一时刻拍摄的视频画面，得到第二映射画面，包括：在所述主发言人对应的检测框位于所述第一视频的左侧的情况下，将所述主发言人对应的检测框映射到左副相机
在所述第一时刻拍摄的视频画面，得到所述第一映射画面；在所述主发言人对应的检测框位于所述第一视频的右侧的情况下，将所述主发言人对应的检测框映射到右副相机在所述第一时刻拍摄的视频画面，得到所述第二映射画面。
[0016]在一个示例性实施例中，通过所述第一映射画面或所述第二映射画面对所述目标场景进行取景，包括：根据所述第一映射画面或者所述第二映射画面确定取景框；对所述取景框进行填充，得到所述目标场景的取景画面。
[0017]在一个示例性实施例中，所述方法还包括：在所述取景模式为所述追踪模式的情况下，通过所述第一定位结果确定所述第一音频的角度值；通过第一检测结果中的检测框确定人脸的角度值；在所述第一音频的角度值与所述人本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种对目标场景进行取景的方法，其特征在于，包括：获取对第一视频的人脸检测结果，得到第一检测结果，其中，所述第一视频是在第一时刻通过全景相机对目标场景进行拍摄得到的视频；获取对第一音频的声源定位结果，得到第一定位结果，其中，所述第一音频是在所述第一时刻通过麦克风阵列对所述目标场景进行采集得到的音频；根据所述第一检测结果和第一定位结果确定取景模式，其中，所述取景模式包括：自动模式、追踪模式和独立模式，所述自动模式是对所述目标场景中所有参与者进行取景的模式，所述追踪模式是对所述目标场景中的主发言人进行追踪取景的模式，所述独立模式是对所述目标场景中多个发言人进行取景的模式；按照所述取景模式对所述目标场景进行取景，得到所述目标场景的取景画面。2.根据权利要求1所述的方法，其特征在于，根据所述第一检测结果和第一定位结果确定取景模式，包括：在所述第一检测结果和所述第一定位结果表示所述目标场景中不存在发言人的情况下，确定所述取景模式为所述自动模式；在所述第一检测结果和所述第一定位结果表示所述目标场景中存在主发言人的情况下，确定所述取景模式为所述追踪模式；在所述第一检测结果和所述第一定位结果表示所述目标场景中存在至少两个发言人的情况下，确定所述取景模式为所述独立模式。3.权利要求2所述的方法，其特征在于，所述方法还包括：获取发言人数据库，其中，所述发言人数据库中记录了发言人，以及发言人的发言时长；根据所述发言人数据库确定所述发言时长最长的发言人为目标发言人，所述目标发言人的发言时长为目标发言时长；根据所述目标发言人的目标发言时长，确定所述目标场景中是否存在所述主发言人。4.权利要求3所述的方法，其特征在于，根据所述目标发言人的目标发言时长，确定所述目标场景中是否存在所述主发言人，包括：确定所述发言人数据库中记录的所有发言人的发言时长的总和，得到总发言时长；在所述目标发言时长与所述总发言时长的比值大于或等于预设值的情况下，确定所述目标发言人为所述主发言人；否则，确定所述所述目标场景中存在至少两个发言人。5.权利要求1至4中任一项所述的方法，其特征在于，按照所述取景模式对所述目标场景进行取景，包括：将所述第一检测结果输入触发器，通过所述触发器判断是否满足取景的触发条件；在满足所述触发条件的情况下，按照所述取景模式对所述目标场景进行取景。6.权利要求5所述的方法，其特征在于，将所述第一检测结果输入触发器，通过所述触发器判断是否满足取景的触发条件，包括：获取对第二视频的人脸检测结果，得到第二检测结果，其中，所述第二视频是在第二时刻通过所述全景相机对所述目标场景进行拍摄得到的视频，所述第二时刻是所述第一时刻之前的视频拍摄时刻；
在所述第一检测结果中的检测框与所述第二检测结果中的检测框满足预设条件的情况下，确定满足所述取景的触发条件。7.权利要求6所述的方法，其特征在于，在所述第一检测结果中的检测框与所述第二检测结果中的检测框满足预设条件的情况下，确定满足所述取景的触发条件，包括：确定所述第一检测结果中的第一目标检测框，以及所述第二检测结果中的第二目标检测框；在所述第一目标检测框的中心点与所述第二目标检测框的中心点之间的距离大于或等于预设距离阈值的情况下，确定满足所述取景的触发条件；或者，在所述第一检测框的面积与所述第二检测框的面积的差值大于或等于预设差值阈值的情况下，确定满足所述取景的触发条件。8.权利要求7所述的方法，其特征在于，确定所述第一检测结果中的第一目标检测框，以及所述第二检测结果中的第二目标检测框，包括：在所述取景模式为所述自动模式的情况下，将所述第一检测结果中位于所述第一视频的边界的检测框确定为所述第一目标检测框，将所述第二检测结果中位于所述第二视频的边界的检测框确定为所述第二目标检测框；在所述取景模式为所述追踪模式的情况下，将所述第一检测结果中对所述主发言人检测得到的检测框确定为所述第一目标检测框，将所述第二检测结果中对所述主发言人检测得到的检测框确定为所述第二目标检测框；在所述取景模式为所述独立模式的情况下，将所述第一检测结果中对所述多个发言人检测得到的检测框确定为所述第一目标检测框，将所述第二检测结果中对所述多个发言人检测得到的检测框确定为所述第二目标检测框。9.权利要求5所述的方法，其特征在于，在满足所述触发条件的情况下，按照所述取景模式对所述目标场景进行取景，包括：在所述取景模式为所述自动模式的情况下，在所述第一检测结果中确定位于所述第一视频的边界的检测框；根据所述第一视频的边界的检测框确定取景框；对所述取景框进行填充，得到所述目标场景的取景画面。10.权利要求5所述的方法，其特征在于，在满足所述触发条件的情况下，按照所述取景模式对所述目标场景进行取景，还包括：在所述取景模式为所述追踪模式的情况下，在所述第一检测结果中确定所述主发言人对应的检测框；将所述主发言人象对应的检测框映射到左副相机在所述第一时刻拍摄的...

【专利技术属性】
技术研发人员：周夏凯，倪林生，杨国全，俞鸣园，曹亚曦，王克彦，
申请(专利权)人：浙江华创视讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人