图像处理方法、神经网络及其训练方法、设备和介质技术

技术编号:33635835 阅读:11 留言:0更新日期:2022-06-02 01:48
本公开提供了一种图像处理方法、神经网络及其训练方法、设备和介质,涉及人工智能领域,具体涉及计算机视觉技术、图像处理技术和深度学习技术。神经网络包括与多个模态对应的多个分支网络,分支网络包括:输入子网络,被配置为在对应的模态的输入图像中提取第一特征;第一交互子网络被配置为:针对多个模态中的每一个模态确定第一注意力分数;基于多个模态各自的第一注意力分数调整对应的模态的第一注意力分数;基于调整后的对应的模态的第一注意力分数对对应的模态的第一特征进行处理以得到第二特征;输出子网络被配置为基于对应的模态的第二特征得到第一结果。神经网络还包括:综合输出子网络被配置为基于模态的多个第二特征,得到第二结果。得到第二结果。得到第二结果。

【技术实现步骤摘要】
图像处理方法、神经网络及其训练方法、设备和介质


[0001]本公开涉及人工智能领域,具体涉及计算机视觉技术、图像处理技术、和深度学习技术,特别涉及一种神经网络,一种神经网络的训练方法、一种利用神经网络进行图像处理的方法、电子设备、计算机可读存储介质和计算机程序产品。

技术介绍

[0002]人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
[0003]随着人脸识别技术的进步,人脸识别系统也得到了越来越广泛的使用,但同时如何保证人脸识别系统抵御各种虚假人脸的攻击、保证人脸识别系统的可信度是一个巨大的挑战。对此,人脸防伪受到了学术届、工业界的广泛关注。人脸防伪旨在判断输入人脸图像或者视频是否为真实活体脸,而对于假的、合成的人脸来攻击算法,应当予以拒绝,从而抵御不法分子通过照片、视频、面具等虚假人脸对人脸识别系统进行攻击。
[0004]在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。

技术实现思路

[0005]本公开提供了一种神经网络,一种神经网络的训练方法、一种利用神经网络进行图像处理的方法、电子设备、计算机可读存储介质和计算机程序产品。
[0006]根据本公开的一方面,提供了一种神经网络,神经网络包括与多个模态对应的多个分支网络,其中,多个分支网络中的每一个分支网络包括:输入子网络,被配置为在对应的模态的输入图像中提取对应的模态的多个第一特征,其中,对应的模态的多个第一特征与多个模态中的任一其他模态的多个第一特征相对应;第一交互子网络,被配置为:针对多个模态中的每一个模态,确定该模态的多个第一注意力分数,多个第一注意力分数与该模态的多个第一特征对应;基于多个模态各自的多个第一注意力分数,调整对应的模态的多个第一注意力分数;以及基于调整后的对应的模态的多个第一注意力分数对对应的模态的多个第一特征进行处理,以得到对应的模态的多个第二特征;以及输出子网络,被配置为基于对应的模态的多个第二特征,得到第一结果,其中,神经网络还包括:综合输出子网络,被配置为基于多个模态各自的多个第二特征,得到第二结果。
[0007]根据本公开的另一方面,提供了一种神经网络的训练方法,神经网络是上述神经网络,神经网络包括与多个模态对应的多个分支网络,方法包括:获取多个样本图像和真实标签,多个样本图像为样本对象在多个模态下的图像;将多个样本图像分别输入到多个分
支网络中的对应的模态的分支网络中的输入子网络;获取多个分支网络各自的输出子网络所输出的第一预测标签;获取神经网络中的综合输出子网络所输出的第二预测标签;针对多个模态中的每一个模态,基于与该模态对应的第一预测标签和真实标签计算与该模态对应的第一损失值;基于第二预测标签和真实标签计算第二损失值;以及基于与多个模态对应的多个第一损失值和第二损失值中的至少一者,调整神经网络的参数。
[0008]根据本公开的另一方面,提供了一种利用神经网络进行图像处理的方法,神经网络是上述神经网络或者利用上述训练方法而得到的神经网络,并且包括与多个模态对应的多个分支网络,方法包括:获取至少一个待处理图像,至少一个待处理图像为目标对象在多个模态中的至少一个模态下的图像;将至少一个待处理图像分别输入到多个分支网络中的对应的模态的分支网络中的输入子网络;响应于确定多个模态包括至少一个模态之外的其他模态,将至少一个待处理图像中的目标待处理图像输入到多个分支网络中的其他模态的分支网络中的输入子网络;以及响应于确定至少一个模态为一个模态,获取多个分支中的与该模态对应的分支网络的输出子网络所输出的第一图像处理结果。
[0009]根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中存储器存储有可被至少一个处理器执行的指令,这些指令被至少一个处理器执行,以使至少一个处理器能够执行上述方法。
[0010]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行上述方法。
[0011]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,其中,计算机程序在被处理器执行时实现上述方法。
[0012]根据本公开的一个或多个实施例,通过为多个模态设置分支网络以提取各个模态的特征,并计算各个模态的特征的注意力分数,进而基于这些注意力分数调整每个模态的注意力分数,实现了不同模态之间的信息交互,充分利用多模态信息以提升神经网络的图像处理能力。此外,通过为每个模态设置对应的输出子网络,使得利用多模态信息训练的神经网络同样可以对单模态图像进行处理,从而极大提升了模型部署的便利性,并且这样的神经网络相比于利用单模态信息训练的神经网络具有更好的性能。
[0013]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0014]附图示例性地示出了实施例并且构成说明书的一部分,与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的,并不限制权利要求的范围。在所有附图中,相同的附图标记指代类似但不一定相同的要素。
[0015]图1示出了根据本公开的实施例的可以在其中实施本文描述的各种方法的示例性系统的示意图;
[0016]图2示出了根据本公开示例性实施例的神经网络的结构框图;
[0017]图3A示出了根据本公开示例性实施例的神经网络的结构框图;
[0018]图3B示出了根据本公开示例性实施例的利用第一交互子网络得到多个第二特征的示意图;
[0019]图3C示出了根据本公开示例性实施例的利用第二交互子网络得到多个第三特征的示意图;
[0020]图4示出了根据本公开示例性实施例的神经网络的训练方法的流程图;
[0021]图5示出了根据本公开示例性实施例的利用神经网络进行图像处理的方法的流程图;以及
[0022]图6出了能够用于实现本公开的实施例的示例性电子设备的结构框图。
具体实施方式
[0023]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种神经网络,所述神经网络包括与多个模态对应的多个分支网络,其中,所述多个分支网络中的每一个分支网络包括:输入子网络,被配置为在对应的模态的输入图像中提取所述对应的模态的多个第一特征,其中,所述对应的模态的多个第一特征与所述多个模态中的任一其他模态的多个第一特征相对应;第一交互子网络,被配置为:针对所述多个模态中的每一个模态,确定该模态的多个第一注意力分数,所述多个第一注意力分数与该模态的多个第一特征对应;基于所述多个模态各自的多个第一注意力分数,调整所述对应的模态的多个第一注意力分数;以及基于调整后的所述对应的模态的多个第一注意力分数对所述对应的模态的多个第一特征进行处理,以得到所述对应的模态的多个第二特征;以及输出子网络,被配置为基于所述对应的模态的多个第二特征,得到第一结果,其中,所述神经网络还包括:综合输出子网络,被配置为基于所述多个模态各自的多个第二特征,得到第二结果。2.根据权利要求1所述的神经网络,其中,所述调整所述对应的模态的该第一特征的第一注意力分数包括:针对所述对应的模态的多个第一注意力分数中的每一个第一注意力分数,将所述多个模态各自与该第一注意力分数对应的第一注意力分数与预设阈值进行比较;基于比较结果,调整所述对应的模态的该第一注意力分数。3.根据权利要求2所述的神经网络,其中,所述基于比较结果,调整所述对应的模态的该第一注意力分数包括执行以下步骤中的至少一项:响应于确定所述多个模态各自与该第一注意力分数对应的第一注意力分数中的至少一个第一注意力分数大于预设阈值,提升该第一注意力分数;以及响应于确定所述多个模态各自与该第一注意力分数对应的第一注意力分数均不大于所述预设阈值,降低将该第一注意力分数。4.根据权利要求1所述的神经网络,其中,所述多个第一特征包括第一全局特征和多个第一局部特征,其中,所述确定该模态的多个第一注意力分数包括:基于该模态的第一全局特征和该模态的多个第一局部特征中的每一个第一局部特征的乘积,确定该模态的多个第一注意力分数,所述多个第一注意力分数与所述多个第一局部特征对应。5.根据权利要求4所述的神经网络,其中,所述第一交互子网络被进一步配置为:针对多个模态中的每一个模态,利用第一查询参数,将该模态的第一全局特征映射为第一查询特征;以及分别利用第一键参数和第一值参数,将该模态的多个第一局部特征映射为多个第一键特征和第一值特征,其中,所述确定该模态的多个第一注意力分数包括:基于该模态的第一查询特征与该模态的多个第一键特征中的每一个第一键特征的乘积,确定该模态的多个第一注意力分数,
其中,所述基于调整后的所述对应的模态的多个第一局部特征各自的第一注意力分数对所述对应的模态的多个第一局部特征进行处理包括:基于调整后的所述对应的模态的多个第一注意力分数分别和所述对应的模态的多个第一值特征中的对应的第一值特征的乘积,得到所述对应的模态的多个第二特征。6.根据权利要求5所述的神经网络,其中,所述第一交互子网络使用同一组的第一查询参数、第一键参数、以及第一值参数对所述多个模态中的每一个模态的第一全局特征和多个第一局部特征进行映射处理,并且其中,所述多个模态各自的分支网络中的对应的第一交互子网络使用同一组第一查询参数、第一键参数、以及第一值参数。7.根据权利要求4

6中任一项所述的神经网络,其中,所述多个分支网络中的每一个分支网络包括第一数量的第一交互子网络,并且该分支网络还包括:第一融合子网络,被配置为将所述第一数量的第一交互子网络各自输出的多个第二特征进行融合,以得到融合后的多个第二特征,其中,所述融合后的多个第二特征包括第二全局特征和多个第二局部特征,其中,所述输出子网络被进一步配置为基于所述对应的模态的第二全局特征,得到所述第一结果,并且其中,所述综合输出子网络被进一步配置为基于所述多个模态各自的第二全局特征,得到所述第二结果。8.根据权利要求7所述的神经网络,其中,所述多个分支网络中的每一个分支网络还包括:第二交互子网络,被配置为:在所述多个模态中确定不同于所述对应的模态的目标模态;基于所述对应的模态的第二全局特征和所述目标模态的多个第一局部特征,确定所述目标模态的多个第二注意力分数,所述多个第二注意力分数与所述多个第一局部特征对应;以及基于所述多个第二注意力分数对所述目标模态的多个第一局部特征进行处理,以得到所述对应的模态的多个第三特征,其中,所述输出子网络被进一步配置为基于所述对应的模态的多个第三特征,得到第三结果,并且其中,所述综合输出子网络被进一步配置为基于所述多个模态各自的多个第三特征,得到第四结果。9.根据权利要求8所述的神经网络,其中,所述第二交互子网络被进一步配置为:利用第二查询参数,将所述对应的模态的第二全局特征映射为第二查询特征;以及分别利用第二键参数和第二值参数,...

【专利技术属性】
技术研发人员:谭资昌刘阿建郭国栋
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1