图像生成方法、装置、电子设备和存储介质制造方法及图纸

技术编号:35025848 阅读:19 留言:0更新日期:2022-09-24 22:57
本公开提供了一种图像生成方法、装置,涉及人工智能领域,具体涉及增强现实、虚拟现实、计算机视觉和深度学习等技术领域,可应用于元宇宙等场景。图像生成方法的具体实现方案为:根据针对场景的神经辐射场所输出的场景数据,生成场景的三维场景模型;根据目标对象的三维对象模型和三维场景模型,生成包含三维对象模型的三维场景信息;根据场景数据和目标视角,确定三维场景信息中三维对象模型的环境光信息;以及根据场景数据、环境光信息和三维场景信息进行图像渲染,生成目标视角的目标图像,其中,目标图像包括目标对象和场景。目标图像包括目标对象和场景。目标图像包括目标对象和场景。

【技术实现步骤摘要】
图像生成方法、装置、电子设备和存储介质


[0001]本公开涉及人工智能领域,具体涉及增强现实、虚拟现实、计算机视觉以及深度学习等
,可应用于元宇宙等场景。

技术介绍

[0002]随着计算机技术和网络技术的发展,图像渲染技术及通过与神经网络整合来对图像渲染技术进行了改进的神经渲染(neural rendering)技术得到快速发展。图像渲染技术旨在根据三维模型生成二维图像,以给用户带来更接近于现实世界的视觉感受,在图像渲染之前,需要对实体所在场景进行形状和纹理的重建。

技术实现思路

[0003]本公开旨在提供一种降低计算量并提高渲染效果的图像生成方法、装置、电子设备和存储介质。
[0004]根据本公开的一个方面,提供了一种图像生成方法,包括:根据针对场景的神经辐射场所输出的场景数据,生成场景的三维场景模型;根据目标对象的三维对象模型和三维场景模型,生成包含三维对象模型的三维场景信息;根据场景数据和目标视角,确定三维场景信息中三维对象模型的环境光信息;以及根据场景数据、环境光信息和三维场景信息进行图像渲染,生成针对目标视角的目标图像,其中,目标图像包括目标对象和场景。
[0005]根据本公开的另一个方面,提供了一种图像生成装置,包括:模型生成模块,用于根据针对场景的神经辐射场所输出的场景数据,生成场景的三维场景模型;场景生成模块,用于根据目标对象的三维对象模型和三维场景模型,生成包含三维对象模型的三维场景信息;环境光确定模块,用于根据场景数据和目标视角,确定三维场景信息中三维对象模型的环境光信息;图像生成模块,用于根据场景数据、环境光信息和三维场景信息进行图像渲染,生成针对目标视角的目标图像,其中,目标图像包括目标对象和场景。
[0006]根据本公开的另一个方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行本公开提供的图像生成方法。
[0007]根据本公开的另一个方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行本公开提供的图像生成方法。
[0008]根据本公开的另一个方面,提供了一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令在被处理器执行时实现本公开提供的图像生成方法。
[0009]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0010]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0011]图1是根据本公开实施例的图像生成方法和装置的应用场景示意图;
[0012]图2是根据本公开实施例的图像生成方法的流程示意图;
[0013]图3是根据本公开实施例的确定在三维场景信息中三维对象模型的环境光信息的原理示意图;
[0014]图4是根据本公开实施例的确定表面顶点的法向量的原理示意图;
[0015]图5是根据本公开实施例的构建神经辐射场的原理示意图;
[0016]图6是根据本公开实施例的图像生成装置的结构框图;以及
[0017]图7是用来实施本公开实施例的图像生成方法的电子设备的框图。
具体实施方式
[0018]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0019]以下先对本公开所采用的专业术语进行如下解释:
[0020]神经渲染,是深度网络合成图像的各类方法的总称,各类神经渲染的目标是实现图像渲染中建模和渲染的全部或部分的功能。
[0021]神经辐射场,Neural Radiance Fields,简称为NeRF,是一种利用多目图像重建三维场景的技术。NeRF使用一组多目图,通过优化一个潜在连续的体素场景方程来得到一个完整的三维场景。具体地,基于NeRF的渲染首先根据场景不同视角的图像学习到场景表征,再由表征生成任意指定角度的图像,该NeRF支持视频合成。
[0022]图像渲染,是将三维的光能传递处理转换为一个二维图像的过程。图像渲染中要完成的工作为:对三维模型几何变换、投影变换、透视变换和窗口剪裁,再根据获取的材质与光影信息,生成图像。
[0023]基于多分辨率哈希编码的即时神经图形基元技术,Instant Neural Graphics Primitives with a Multiresolution Hash Encoding,简称为Instant

ngp,该技术主要用于解决NeRF在对全连接神经网络进行参数化时的效率问题。该技术提出一种编码方式,可以使用一个较小规模的网络来实现NeRF同时不会产生精度的损失。该较小规模的网络由特征向量的多分辨率哈希表实现增强,基于随机梯度下降执行优化。该技术可以将ReNF的训练以小时计的时间开销提升到秒级。
[0024]光线追踪,又称光线跟踪,是一种基于几何光学的通用技术,该技术通过追踪与光学表面发生交互作用的光线,可以得到光线经过路径的模型。光线跟踪方法沿着到达视点的光线的反方向跟踪,经过屏幕上每一个像素,找出与视线相交的物体表面点P0,并继续跟踪以找出影响P0点光强的所有光源,从而算出P0点上精确的光线强度。
[0025]法向量,空间解析几何的一个概念,垂直于平面的直线所表示的向量为该平面的法向量。
[0026]Mesh,是多边形网格,是计算机图形学中用于对各种不规则物体建模的一种数据结构,在多边形网格的面片中三角面片是被分割的最小单位,因三角面片表示比较简单、灵活且拓扑描述方便,所以被广泛使用,Mesh常常指代三角面片。
[0027]几何变换,又称空间变换,是图形处理的一个方面,是各种图形处理算法的基础,该几何变换可以将一幅图像中的坐标位置映射到另一幅图像中的新坐标位置,其实质是改变像素的空间位置,估算新空间位置上的像素值。几何变换算法一般包括空间变换运算和插值算法。其中,空间变换运算可以涉及平移、缩放、旋转。平移就是将图像中的点按照指定的平移量水平或者垂直移动。缩放是指图像大小按照指定的比率放大或者缩小。旋转是指图像围绕某一指定点旋转一定的角度。
[0028]同步定位与地图构建技术,Simultaneous Localization and Mapping,简称为SLAM,该技术所解决的问题可以描述为:机器人在未知环境中从一个未知位置开始移动,在移动过程中根据位置和地图进行自身定位,同时在自身定位的基础上构造增量式地图,实现机器人的自主定位和导航。
[0029]可视化管线,用于获取或本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像生成方法,包括:根据针对场景的神经辐射场所输出的场景数据,生成所述场景的三维场景模型;根据目标对象的三维对象模型和所述三维场景模型,生成包含所述三维对象模型的三维场景信息;根据所述场景数据和目标视角,确定所述三维场景信息中所述三维对象模型的环境光信息;以及根据所述场景数据、所述环境光信息和所述三维场景信息进行图像渲染,生成针对所述目标视角的目标图像,其中,所述目标图像包括所述目标对象和所述场景。2.根据权利要求1所述的方法,其中,所述场景数据包括所述三维场景模型中多个表面顶点各自的颜色数据;所述根据所述场景数据和目标视角,确定所述三维场景信息中所述三维对象模型的环境光信息包括:基于所述三维场景信息和所述目标视角,采用光线追踪法确定所述三维场景模型中与所述三维对象模型的第一表面顶点对应的第二表面顶点;根据所述三维场景模型,确定所述第二表面顶点的法向量;以及根据所述第二表面顶点的法向量和所述第二表面顶点的颜色数据,确定所述第一表面顶点的环境光信息。3.根据权利要求1所述的方法,还包括通过以下方式来根据所述场景的多个场景图像,构建针对所述场景的神经辐射场:根据所述多个场景图像,确定针对所述多个场景图像中每个场景图像的相机位姿信息;以及根据所述多个场景图像和针对所述多个场景图像的多个相机位姿信息,构建针对所述场景的神经辐射场。4.根据权利要求3所述的方法,其中,所述根据所述多个场景图像,确定针对所述多个场景图像中每个场景图像的相机位姿信息包括:采用深度特征提取算法提取所述每个场景图像的特征图;以及根据所述多个场景图像中在采集顺序上相邻的两个场景图像的两个特征图之间的映射关系,确定针对所述每个场景图像的相机位姿信息。5.根据权利要求3所述的方法,其中,所述根据所述多个场景图像和针对所述多个场景图像的多个相机位姿信息,构建针对所述场景的神经辐射场包括:针对所述每个场景图像,根据针对所述每个场景图像的相机位姿信息对所述每个场景图像进行采样,得到针对所述每个场景图像的一组三维采样点;以及以针对所述多个场景图像的多组三维采样点的坐标值和多个相机位姿信息作为训练数据训练初始神经辐射场,得到针对所述场景的神经辐射场。6.根据权利要求5所述的方法,其中,所述以针对所述多个场景图像的所述多组三维采样点和多个所述相机位姿信息作为训练数据训练初始神经辐射场,得到针对所述场景的神经辐射场包括:以所述多组三维采样点和所述多个相机位姿信息作为训练数据,采用基于多分辨率哈希编码的即时神经图形基元技术对所述初始神经辐射场进行训练,得到针对所述场景的神
经辐射场。7.根据权利要求3所述的方法,其中,所述多个场景图像中针对在采集顺序上相邻的两个场景图像的两个视野之间的重合率大于等于重合率下限值,且小于等于重合率上限值。8.根据权利要求2所述的方法,其中:所述根据针对场景的神经辐射场所输出的场景数据,生成所述场景的三维场景模型包括:根据所述场景数据,采用等值面提取算法生成所述场景的三维场景模型;其中,所述三维场景模型由多个多边形网格拼接形成;所述根据所述三维场景模型,确定所述第二表面顶点的法向量包括:确定所述多个多边形网格中以所述第二表面顶点为顶点的目标网格;以及根据所述目标网格的法向量,确定所述第二表面顶点的法向量。9.根据权利要求1所述的方法,其中,所述根据目标对象的三维对象模型和所述三维场景模型,生成包含所述三维对象模型的三维场景信息包括:采用预定变换矩阵对所述三维对象模型进行模型变换,得到变换后模型;以及将所述变换后模型叠加至所述三维场景模型中,得到所述三维场景信息。10.一种图像生成装置,包括:模型生成模块,用于根据针对场景的神经辐射场所输出的场景数据,生成所述场景的三维场景模型;场景生成模块,用于根据目标对象的三维对象模型和所述三维场景模型,生成包含所述三维对象模型的三维场...

【专利技术属性】
技术研发人员:陈睿智刘星
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1