当前位置: 首页 > 专利查询>苹果公司专利>正文

使用机器学习创建增强现实自摄像制造技术

技术编号:24103928 阅读:38 留言:0更新日期:2020-05-09 14:50
本公开涉及使用机器学习创建增强现实自摄像。公开了用于生成AR自摄像或“AR自拍”的系统、方法、装置和非暂态计算机可读存储介质。在一个实施方案中,一种方法包括:移动设备的第一相机捕获图像数据,该图像数据包括对象在物理真实世界环境中的图像;移动设备的深度传感器接收深度数据,该深度数据指示对象在物理真实世界环境中与相机的距离;移动设备的一个或多个运动传感器接收运动数据,该运动数据至少指示第一相机在物理真实世界环境中的取向;基于运动数据生成虚拟相机转换,该相机转换用于确定虚拟相机在虚拟环境中的取向;以及使用图像数据、蒙版和基于虚拟相机取向选择的虚拟背景内容生成合成图像数据。

Using machine learning to create augmented reality self recording

【技术实现步骤摘要】
使用机器学习创建增强现实自摄像相关申请的交叉引用本专利申请是于2018年9月6日提交的标题为“AugmentedRealitySelf-Portraits”的美国专利申请16/124,168的部分继续申请,该美国专利申请要求2017年9月8日提交的美国临时专利申请62/556,297的优先权,所述专利申请中每一者全文以引用方式并入本文。
本公开整体涉及媒体编辑和增强现实。
技术介绍
自摄像数字照片或“自拍”已成为流行文化现象。自拍通常是以保持在手臂长度处、指向镜子或者附接到自拍杆以将相机定位在更远离对象并捕获对象后面的背景场景的数字相机或智能电话来拍摄。自拍常被分享在社交网络服务(例如,)上。增强现实(AR)是物理真实世界环境的实时视图,该物理真实世界环境的元素被计算机生成的感官输入诸如声音、视频或图形“增强”。
技术实现思路
公开了用于生成AR自摄像或“AR自拍”的系统、方法、装置和非暂态计算机可读存储介质。在一个实施方案中,一种方法包括:移动设备的第一相机捕获图像数据,该图像数据包括对象在物理真实世界环境中的图像;移动设备的深度传感器接收深度数据,该深度数据指示对象在物理真实世界环境中与相机的距离;移动设备的一个或多个运动传感器接收运动数据,该运动数据至少指示第一相机在物理真实世界环境中的取向;移动设备的一个或多个处理器基于运动数据生成虚拟相机转换,该相机转换用于确定虚拟相机在虚拟环境中的取向;一个或多个处理器由图像数据和深度数据生成蒙版,其中生成蒙版包括:神经网络生成低分辨率蒙版;以及处理低分辨率蒙版以移除低分辨率蒙版中的伪影;由经处理的低分辨率蒙版生成高分辨率蒙版,其中高分辨率蒙版具有比低分辨率蒙版高的分辨率;一个或多个处理器使用图像数据、高分辨率蒙版和虚拟背景内容生成合成图像数据,虚拟背景内容是使用相机转换从虚拟环境选择的;以及一个或多个处理器使得在移动设备的显示器上显示合成图像数据。在一个实施方案中,处理低分辨率蒙版以移除低分辨率蒙版中的伪影的步骤还包括:由包括对象的面部的边界框或深度数据的直方图中至少一者生成内蒙版和外蒙版;由内蒙版生成孔洞填充的蒙版;由孔洞填充的蒙版生成肩部/躯干蒙版;使用第一核膨胀内蒙版;使用比第一核小的第二核膨胀外蒙版;由膨胀后的内蒙版和膨胀后的外蒙版的相交生成垃圾蒙版;将低分辨率蒙版与垃圾蒙版组合以创建面部蒙版;将面部蒙版与肩部/躯干蒙版组合成合成低分辨率蒙版;由合成低分辨率蒙版生成高分辨率蒙版;将时间滤波器应用于高分辨率蒙版以生成最终蒙版;以及使用图像数据、最终蒙版和虚拟背景内容生成合成图像数据。其他实施方案涉及系统、方法、装置和非暂态计算机可读介质。本文所公开的特定具体实施提供了下列优点中的一个或多个优点。通过允许用户使用嵌入在移动设备中的前置相机或后置相机捕获和记录自拍视频、并自动地以响应于来自移动设备的运动传感器的运动数据自动更新的用户所选虚拟背景内容替换在实时视频预览中所捕获的真实世界背景,改善了在移动设备上创建自拍的用户体验。因此,所公开的具体实施提供了用于捕获可通过社交网络与朋友和家人分享的自拍图像的交互式娱乐过程。在下面的附图和具体实施方式中示出了所公开的具体实施的细节。从说明书、附图和权利要求书中明显看出其他特征、目标和优点。附图说明图1是根据实施方案示出AR自拍的基本概念的概念图。图2A-图2E根据实施方案示出虚拟环境到移动设备视口的映射。图3A和图3B根据实施方案示出用于使用前置相机记录AR自拍的图形用户界面。图3C和图3D根据实施方案示出选择了不同背景场景并且示出记录视图和全屏回放视图的图形用户界面。图3E和图3F根据实施方案示出用于使用后置相机记录和回放自拍并且示出记录视图和全屏回放视图的图形用户界面。图4是根据实施方案示出在创建AR自拍中所使用的过程步骤的系统的框图。图5根据实施方案示出在AR自拍中使用的合成层。图6A-图6L根据实施方案示出用于使用深度数据生成经预处理(粗略)蒙版的多级过程。图7A-图7C根据实施方案示出使用视频数据和经预处理(粗略)蒙版的精修蒙版提取过程。图8根据实施方案示出用于从精修蒙版移除伪影的后处理阶段。图9是根据实施方案的用于生成AR自拍的过程的流程图。图10是根据实施方案的用于生成AR自拍蒙版的过程的流程图。图11A和图11B共同为根据实施方案的用于使用机器学习生成AR自拍蒙版的系统的概念性框图。图12A和图12B共同为根据实施方案的用于使用机器学习生成AR自拍的过程的流程图。图13根据实施方案示出用于实现参考图1-图12所述的特征和过程的设备架构。在各附图中使用的相同参考符号表示类似的元件。具体实施方式“自拍”是用户常常通过将相机保持在手臂长度内或使用延伸设备诸如“自拍”杆而近邻地拍摄的自摄像图像。自拍对象常常是用户的面部、或用户的一部分(例如,用户的上半身)以及在用户后面可见的任何背景。前置相机是在用户正查看显示屏时面向用户的相机。另选地,后置相机在用户正查看显示屏时背向用户,并且捕获在用户前面以及相反方向的真实世界环境的图像。用于捕获自拍的典型移动设备是数字相机、具有一个或多个嵌入式数字相机的智能电话或具有一个或多个嵌入式相机的平板电脑。在一个实施方案中,自拍对象可与从虚拟环境数据模型提取的虚拟背景内容合成。虚拟背景内容可包括但不限于二维(2D)图像、三维(3D)图像和360°视频。在预处理阶段,粗略蒙版由深度传感器所提供的深度数据生成,然后使用视频数据(例如,RGB视频数据)进行精修。在一个实施方案中,深度传感器是嵌入在移动设备中的红外(IR)深度传感器。(例如,使用α合成)将蒙版与包含自拍对象的图像的视频数据合成,并且用从用户所选择的虚拟环境选择的虚拟背景内容替换并持续更新对象后面的真实世界背景。使用虚拟相机转换来选择虚拟背景内容,该虚拟相机转换是使用来自移动设备的一个或多个运动传感器(例如,加速度计、陀螺仪)的运动数据生成的。视频数据、精修蒙版、虚拟背景内容以及任选的一个或多个动画层被合成形成AR自拍视频。AR自拍视频被移动设备的视口显示给用户。在一个实施方案中,移动设备还包括可用于捕获用户前方的视频的后置相机,该用户前方的视频可按与前置相机所捕获的视频类似的方式进行处理。移动设备的操作系统所提供的相机翻转信号可指示哪个相机正在捕获视频,并且该信号可用于调节虚拟相机转换以更新虚拟背景内容。公开了一种蒙版生成方法,该蒙版生成方法使用未定义深度数据(在本文中也称为“阴影数据”)来将深度图像(例如,二元深度蒙版)分割成前景区域和背景区域。蒙版包含覆盖信息,该覆盖信息包括正在绘制的对象的轮廓,从而使得可能区分二元深度蒙版的对象被实际绘制的部分和二元深度蒙版的其他空部分。在一个实施方案中,蒙版生成过程使用区域生长算法和/或3D面部网格来标识和填充蒙版中由太阳光被对象所佩戴的太阳眼镜反射而导本文档来自技高网...

【技术保护点】
1.一种方法,所述方法包括:/n移动设备的第一相机捕获图像数据,所述图像数据包括对象在物理真实世界环境中的图像;/n所述移动设备的深度传感器接收深度数据,所述深度数据指示所述对象在所述物理真实世界环境中与所述相机的距离;/n所述移动设备的一个或多个运动传感器接收运动数据,所述运动数据至少指示所述第一相机在所述物理真实世界环境中的取向;/n所述移动设备的一个或多个处理器基于所述运动数据生成虚拟相机转换,所述相机转换用于确定虚拟相机在虚拟环境中的取向;/n所述一个或多个处理器由所述图像数据和所述深度数据生成蒙版,其中生成所述蒙版包括:/n神经网络生成低分辨率蒙版;以及/n处理所述低分辨率蒙版以移除所述低分辨率蒙版中的伪影;/n由所述经处理的低分辨率蒙版生成高分辨率蒙版,其中所述高分辨率蒙版具有比所述低分辨率蒙版高的分辨率;/n所述一个或多个处理器使用所述图像数据、所述高分辨率蒙版和虚拟背景内容生成合成图像数据,所述虚拟背景内容是使用所述相机转换从所述虚拟环境选择的;以及/n所述一个或多个处理器使得在所述移动设备的显示器上显示所述合成图像数据。/n

【技术特征摘要】
20181031 US 16/177,4081.一种方法,所述方法包括:
移动设备的第一相机捕获图像数据,所述图像数据包括对象在物理真实世界环境中的图像;
所述移动设备的深度传感器接收深度数据,所述深度数据指示所述对象在所述物理真实世界环境中与所述相机的距离;
所述移动设备的一个或多个运动传感器接收运动数据,所述运动数据至少指示所述第一相机在所述物理真实世界环境中的取向;
所述移动设备的一个或多个处理器基于所述运动数据生成虚拟相机转换,所述相机转换用于确定虚拟相机在虚拟环境中的取向;
所述一个或多个处理器由所述图像数据和所述深度数据生成蒙版,其中生成所述蒙版包括:
神经网络生成低分辨率蒙版;以及
处理所述低分辨率蒙版以移除所述低分辨率蒙版中的伪影;
由所述经处理的低分辨率蒙版生成高分辨率蒙版,其中所述高分辨率蒙版具有比所述低分辨率蒙版高的分辨率;
所述一个或多个处理器使用所述图像数据、所述高分辨率蒙版和虚拟背景内容生成合成图像数据,所述虚拟背景内容是使用所述相机转换从所述虚拟环境选择的;以及
所述一个或多个处理器使得在所述移动设备的显示器上显示所述合成图像数据。


2.根据权利要求1所述的方法,其中处理所述低分辨率蒙版以移除所述低分辨率蒙版中的伪影还包括:
由包括所述对象的面部的边界框或所述深度数据的直方图中的至少一者生成内蒙版和外蒙版;
由所述内蒙版生成孔洞填充的蒙版;
由所述孔洞填充的内蒙版生成肩部/躯干蒙版;
使用第一核膨胀所述内蒙版;
使用比所述第一核小的第二核膨胀所述外蒙版;
由所述膨胀后的内蒙版和所述膨胀后的外蒙版的相交生成垃圾蒙版;
将所述低分辨率蒙版与所述垃圾蒙版组合以创建面部蒙版;
将所述面部蒙版与所述肩部/躯干蒙版组合成经降噪蒙版;以及
由所述经降噪蒙版生成所述高分辨率蒙版。


3.根据权利要求2所述的方法,还包括:
将时间滤波器应用于所述高分辨率蒙版以生成最终蒙版;以及
使用所述图像数据、所述最终蒙版和所述虚拟背景内容生成所述合成图像数据。


4.根据权利要求3所述的方法,其中将时间滤波器应用于所述高分辨率蒙版以生成最终蒙版还包括:
基于所述图像数据和先前图像数据生成每像素相似性映射;以及
使用所述相似性映射和先前最终蒙版将所述时间滤波器应用于所述高分辨率蒙版。


5.根据权利要求4所述的方法,其中所述时间滤波器为两个帧的线性加权平均,其中权重是根据所述每像素相似性映射表示的像素相似性而每像素计算的。


6.根据权利要求2所述的方法,其中由所述合成低分辨率蒙版生成所述高分辨率蒙版还包括:
由所述图像数据生成亮度图像;以及
使用引导滤波器和所述亮度图像将所述经降噪蒙版上采样为所述高分辨率蒙版。


7.根据权利要求2所述的方法,其中由所述孔洞填充的内蒙版生成肩部/躯干蒙版还包括:
膨胀所述内蒙版以生成所述孔洞填充的蒙版;以及
侵蚀所述孔洞填充的蒙版以生成所述肩部/躯干蒙版。


8.根据权利要求2所述的方法,其中所述内蒙版包括小于深度阈值的深度数据,所述外蒙版包括小于所述深度阈值或未知的深度数据,并且所述深度阈值由在所述图像数据中检测到的所述对象的面部的中心区域的平均深度和用于包括所述对象的头部的后部的偏移来确定。


9.根据权利要求1所述的方法,其中所述神经网络是用于图像分割的卷积神经网络。


10.一种方法,所述方法包括:
在移动设备的显示器上呈现预览,所述预览包括由定位在对象的近距离内的移动设备的前置相机捕获的预览图像数据的顺序帧,预览图像数据的所述顺序帧包括所述对象的近距离图像数据和物理真实世界环境中所述对象后面的背景的图像数据;
接收用于应用虚拟环境效果的第一用户输入;
所述移动设备的深度传感器捕获深度数据,所述深度数据指示所述对象在所述物理真实世界环境中与所述前置相机的距离;
所述移动设备的一个或多个传感器捕获取向数据,所述取向数据至少指示所述前置相机在所述物理真实世界环境中的取向;
所述移动设备的一个或多个处理器基于所述取向数据生成相机转换,所述相机转换描述虚拟相机在虚拟环境中的取向;
所述一个或多个处理器由图像数据的所述顺序帧和所述深度数据生成蒙版,其中生成所述蒙版包括:
神经网络生成低分辨率蒙版;以及
处理所述低分辨率蒙版以移除所述低分辨率蒙版中的伪影;
由所述经处理的低分辨率蒙版生成高分辨率蒙版,其中所述高分辨率蒙版具有比所述低分辨率蒙版高的分辨率;
所述一个或多个处理器生成图像数据的合成顺序帧,所述合成顺序帧包括图像数据的所述顺序帧、所述蒙版和虚拟背景内容,所述虚拟背景内容是使用所述相机转换从所述虚拟环境选择的;以及
所述一个或多个处理器使得显示图像数据的所述合成顺序帧。


11.一种系统,包括:
显示器;
相机;
深度传感器;
一个或多个运动传感器;
一个或多个处理器;
存储器,所述存储器耦接到所述一个或多个处理器并且存储指令,所述指令在被所述一个或多个处理器执行时使得所述一个或多个处理器执行包括以下内容的操作:
所述相机捕获图像数据,所述图像数据包括对象在物理真实世界环境中的图像;
所述深度传感器接...

【专利技术属性】
技术研发人员:T·霍里K·奥尼尔孙泽行X·C·王J·韦尔O·卡里里S·M·波梅兰茨M·罗宾斯E·比尔N·卡斯特尔JM·伯绍德B·沃尔什A·哈丁G·杜迪
申请(专利权)人:苹果公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1