使用机器学习创建增强现实自摄像制造技术

技术编号：24103928 阅读：38 留言：0更新日期：2020-05-09 14:50

本公开涉及使用机器学习创建增强现实自摄像。公开了用于生成AR自摄像或“AR自拍”的系统、方法、装置和非暂态计算机可读存储介质。在一个实施方案中，一种方法包括：移动设备的第一相机捕获图像数据，该图像数据包括对象在物理真实世界环境中的图像；移动设备的深度传感器接收深度数据，该深度数据指示对象在物理真实世界环境中与相机的距离；移动设备的一个或多个运动传感器接收运动数据，该运动数据至少指示第一相机在物理真实世界环境中的取向；基于运动数据生成虚拟相机转换，该相机转换用于确定虚拟相机在虚拟环境中的取向；以及使用图像数据、蒙版和基于虚拟相机取向选择的虚拟背景内容生成合成图像数据。

Using machine learning to create augmented reality self recording

全部详细技术资料下载

【技术实现步骤摘要】
使用机器学习创建增强现实自摄像相关申请的交叉引用本专利申请是于2018年9月6日提交的标题为“AugmentedRealitySelf-Portraits”的美国专利申请16/124,168的部分继续申请，该美国专利申请要求2017年9月8日提交的美国临时专利申请62/556,297的优先权，所述专利申请中每一者全文以引用方式并入本文。
本公开整体涉及媒体编辑和增强现实。
技术介绍
自摄像数字照片或“自拍”已成为流行文化现象。自拍通常是以保持在手臂长度处、指向镜子或者附接到自拍杆以将相机定位在更远离对象并捕获对象后面的背景场景的数字相机或智能电话来拍摄。自拍常被分享在社交网络服务(例如，)上。增强现实(AR)是物理真实世界环境的实时视图，该物理真实世界环境的元素被计算机生成的感官输入诸如声音、视频或图形“增强”。
技术实现思路
公开了用于生成AR自摄像或“AR自拍”的系统、方法、装置和非暂态计算机可读存储介质。在一个实施方案中，一种方法包括：移动设备的第一相机捕获图像数据，该图像数据包括对象在物理真实世界环境中的图像；移动设备的深度传感器接收深度数据，该深度数据指示对象在物理真实世界环境中与相机的距离；移动设备的一个或多个运动传感器接收运动数据，该运动数据至少指示第一相机在物理真实世界环境中的取向；移动设备的一个或多个处理器基于运动数据生成虚拟相机转换，该相机转换用于确定虚拟相机在虚拟环境中的取向；一个或多个处理器由图像数据和深度数据生成蒙版，其中生成蒙版包括：神经网络生成...

【技术保护点】
1.一种方法，所述方法包括：/n移动设备的第一相机捕获图像数据，所述图像数据包括对象在物理真实世界环境中的图像；/n所述移动设备的深度传感器接收深度数据，所述深度数据指示所述对象在所述物理真实世界环境中与所述相机的距离；/n所述移动设备的一个或多个运动传感器接收运动数据，所述运动数据至少指示所述第一相机在所述物理真实世界环境中的取向；/n所述移动设备的一个或多个处理器基于所述运动数据生成虚拟相机转换，所述相机转换用于确定虚拟相机在虚拟环境中的取向；/n所述一个或多个处理器由所述图像数据和所述深度数据生成蒙版，其中生成所述蒙版包括：/n神经网络生成低分辨率蒙版；以及/n处理所述低分辨率蒙版以移除所述低分辨率蒙版中的伪影；/n由所述经处理的低分辨率蒙版生成高分辨率蒙版，其中所述高分辨率蒙版具有比所述低分辨率蒙版高的分辨率；/n所述一个或多个处理器使用所述图像数据、所述高分辨率蒙版和虚拟背景内容生成合成图像数据，所述虚拟背景内容是使用所述相机转换从所述虚拟环境选择的；以及/n所述一个或多个处理器使得在所述移动设备的显示器上显示所述合成图像数据。/n

【技术特征摘要】
20181031 US 16/177,4081.一种方法，所述方法包括：
移动设备的第一相机捕获图像数据，所述图像数据包括对象在物理真实世界环境中的图像；
所述移动设备的深度传感器接收深度数据，所述深度数据指示所述对象在所述物理真实世界环境中与所述相机的距离；
所述移动设备的一个或多个运动传感器接收运动数据，所述运动数据至少指示所述第一相机在所述物理真实世界环境中的取向；
所述移动设备的一个或多个处理器基于所述运动数据生成虚拟相机转换，所述相机转换用于确定虚拟相机在虚拟环境中的取向；
所述一个或多个处理器由所述图像数据和所述深度数据生成蒙版，其中生成所述蒙版包括：
神经网络生成低分辨率蒙版；以及
处理所述低分辨率蒙版以移除所述低分辨率蒙版中的伪影；
由所述经处理的低分辨率蒙版生成高分辨率蒙版，其中所述高分辨率蒙版具有比所述低分辨率蒙版高的分辨率；
所述一个或多个处理器使用所述图像数据、所述高分辨率蒙版和虚拟背景内容生成合成图像数据，所述虚拟背景内容是使用所述相机转换从所述虚拟环境选择的；以及
所述一个或多个处理器使得在所述移动设备的显示器上显示所述合成图像数据。

2.根据权利要求1所述的方法，其中处理所述低分辨率蒙版以移除所述低分辨率蒙版中的伪影还包括：
由包括所述对象的面部的边界框或所述深度数据的直方图中的至少一者生成内蒙版和外蒙版；
由所述内蒙版生成孔洞填充的蒙版；
由所述孔洞填充的内蒙版生成肩部/躯干蒙版；
使用第一核膨胀所述内蒙版；
使用比所述第一核小的第二核膨胀所述外蒙版；
由所述膨胀后的内蒙版和所述膨胀后的外蒙版的相交生成垃圾蒙版；
将所述低分辨率蒙版与所述垃圾蒙版组合以创建面部蒙版；
将所述面部蒙版与所述肩部/躯干蒙版组合成经降噪蒙版；以及
由所述经降噪蒙版生成所述高分辨率蒙版。

3.根据权利要求2所述的方法，还包括：
将时间滤波器应用于所述高分辨率蒙版以生成最终蒙版；以及
使用所述图像数据、所述最终蒙版和所述虚拟背景内容生成所述合成图像数据。

4.根据权利要求3所述的方法，其中将时间滤波器应用于所述高分辨率蒙版以生成最终蒙版还包括：
基于所述图像数据和先前图像数据生成每像素相似性映射；以及
使用所述相似性映射和先前最终蒙版将所述时间滤波器应用于所述高分辨率蒙版。

5.根据权利要求4所述的方法，其中所述时间滤波器为两个帧的线性加权平均，其中权重是根据所述每像素相似性映射表示的像素相似性而每像素计算的。

6.根据权利要求2所述的方法，其中由所述合成低分辨率蒙版生成所述高分辨率蒙版还包括：
由所述图像数据生成亮度图像；以及
使用引导滤波器和所述亮度图像将所述经降噪蒙版上采样为所述高分辨率蒙版。

7.根据权利要求2所述的方法，其中由所述孔洞填充的内蒙版生成肩部/躯干蒙版还包括：
膨胀所述内蒙版以生成所述孔洞填充的蒙版；以及
侵蚀所述孔洞填充的蒙版以生成所述肩部/躯干蒙版。

8.根据权利要求2所述的方法，其中所述内蒙版包括小于深度阈值的深度数据，所述外蒙版包括小于所述深度阈值或未知的深度数据，并且所述深度阈值由在所述图像数据中检测到的所述对象的面部的中心区域的平均深度和用于包括所述对象的头部的后部的偏移来确定。

9.根据权利要求1所述的方法，其中所述神经网络是用于图像分割的卷积神经网络。

10.一种方法，所述方法包括：
在移动设备的显示器上呈现预览，所述预览包括由定位在对象的近距离内的移动设备的前置相机捕获的预览图像数据的顺序帧，预览图像数据的所述顺序帧包括所述对象的近距离图像数据和物理真实世界环境中所述对象后面的背景的图像数据；
接收用于应用虚拟环境效果的第一用户输入；
所述移动设备的深度传感器捕获深度数据，所述深度数据指示所述对象在所述物理真实世界环境中与所述前置相机的距离；
所述移动设备的一个或多个传感器捕获取向数据，所述取向数据至少指示所述前置相机在所述物理真实世界环境中的取向；
所述移动设备的一个或多个处理器基于所述取向数据生成相机转换，所述相机转换描述虚拟相机在虚拟环境中的取向；
所述一个或多个处理器由图像数据的所述顺序帧和所述深度数据生成蒙版，其中生成所述蒙版包括：
神经网络生成低分辨率蒙版；以及
处理所述低分辨率蒙版以移除所述低分辨率蒙版中的伪影；
由所述经处理的低分辨率蒙版生成高分辨率蒙版，其中所述高分辨率蒙版具有比所述低分辨率蒙版高的分辨率；
所述一个或多个处理器生成图像数据的合成顺序帧，所述合成顺序帧包括图像数据的所述顺序帧、所述蒙版和虚拟背景内容，所述虚拟背景内容是使用所述相机转换从所述虚拟环境选择的；以及
所述一个或多个处理器使得显示图像数据的所述合成顺序帧。

11.一种系统，包括：
显示器；
相机；
深度传感器；
一个或多个运动传感器；
一个或多个处理器；
存储器，所述存储器耦接到所述一个或多个处理器并且存储指令，所述指令在被所述一个或多个处理器执行时使得所述一个或多个处理器执行包括以下内容的操作：
所述相机捕获图像数据，所述图像数据包括对象在物理真实世界环境中的图像；
所述深度传感器接...

【专利技术属性】
技术研发人员：T·霍里，K·奥尼尔，孙泽行，X·C·王，J·韦尔，O·卡里里，S·M·波梅兰茨，M·罗宾斯，E·比尔，N·卡斯特尔，JM·伯绍德，B·沃尔什，A·哈丁，G·杜迪，
申请(专利权)人：苹果公司，
类型：发明
国别省市：美国;US

全部详细技术资料下载我是这个专利的主人