本发明专利技术实施例提供一种开放世界目标检测方法、计算机设备及存储介质。所述方法包括:获取待识别的图像数据以及对应的目标文本标签;确定待识别的图像数据的目标感兴趣区域,并通过预训练图像模型对目标感兴趣区域进行特征提取得到目标区域图向量;确定目标文本标签对应的类别信息,并通过预训练文本模型对类别信息进行特征提取,得到目标词向量;通过目标神经网络模型对目标区域图向量以及目标词向量进行分析,得到待识别的图像数据的识别结果,其中,目标神经网络为MLP多层感知机网络。本申请实施例旨在基于图像数据以及其对应的文本标签实现图片的识别,以实现提高识别结果的精确度以及识别效率。尤其是对于医学影像的识别,能够降低识别的难度。能够降低识别的难度。能够降低识别的难度。
【技术实现步骤摘要】
开放世界目标检测方法、计算机设备及存储介质
[0001]本申请涉及深度学习领域,尤其涉及一种开放世界目标检测方法、计算机设备及计算机可读存储介质。
技术介绍
[0002]开放世界目标检测是计算机视觉领域中的一种技术,其目的是在无限制的场景中检测和识别目标,主要用于医学影像的病灶检测、智能交通、机器人导航、安防监控等领域。开放世界目标检测不同于传统的目标检测,它不仅需要识别出目标的位置,还需要在真实复杂场景中识别出新的目标类别。
[0003]传统的开放世界目标检测主要是通过深度学习模型利用有限的图像数据集进行训练,训练的分类器只具备识别标注类别的能力,但在非固定场景下,并不具备高效识别已知类别和未知类别的能力。尤其在医疗影像中,传统的开放世界目标检测具有明显的劣势,其识别结果容易受到场景的限制,且精度较低,识别难度较高。
技术实现思路
[0004]本申请提供了一种开放世界目标检测方法、计算机设备及计算机可读存储介质,旨在基于图像数据以及其对应的文本标签实现图片的识别,以实现提高识别结果的精确度以及识别效率。
[0005]为实现上述目的,本申请提供一种开放世界目标检测方法,所述方法包括:
[0006]获取待识别的图像数据以及其对应的目标文本标签;
[0007]确定所述待识别的图像数据的目标感兴趣区域,并通过预训练图像模型对所述目标感兴趣区域进行特征提取得到目标区域图向量;
[0008]确定所述目标文本标签对应的类别信息,并通过预训练文本模型对所述类别信息进行特征提取,得到目标词向量;
[0009]通过目标神经网络模型对所述目标区域图向量以及所述目标词向量进行分析,得到待识别的图像数据的识别结果,其中,所述目标神经网络为MLP多层感知机网络。
[0010]为实现上述目的,本申请还提供一种计算机设备,所述计算机设备包括存储器和处理器;所述存储器,用于存储计算机程序;所述处理器,用于执行所述的计算机程序并在执行所述的计算机程序时实现本申请实施例提供的任一项所述的开放世界目标检测方法的步骤。
[0011]此外,为实现上述目的,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现本申请实施例提供的任一项所述的开放世界目标检测方法的步骤。
[0012]本申请实施例公开的一种开放世界目标检测方法、计算机设备及计算机可读存储介质,能够获取待识别的图像数据以及其对应的目标文本标签,进而对待识别的图像数据以及其对应的目标文本标签进行特征提取,以得到对应的目标区域图向量和目标词向量,
进一步的,可将目标区域图向量以及目标词向量输入至目标神经网络模型,得到待识别的图像数据的识别结果。由于是基于图像数据以及其对应的文本标签两个模态共同实现图片的识别,因此可提高识别结果的精确度以及识别效率。尤其是对于医学影像的识别,能够降低识别的难度。
附图说明
[0013]为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0014]图1是本申请实施例提供的一种开放世界目标检测方法的场景示意图;
[0015]图2是本申请实施例提供的一种开放世界目标检测方法的步骤示意图;
[0016]图3是本申请实施例提供的对目标文本标签对应的类别信息进行特征提取的步骤示意图;
[0017]图4是本申请实施例提供的得到待识别的图像数据的识别结果的步骤示意图;
[0018]图5是本申请实施例提供的另一种开放世界目标检测方法的步骤示意图;
[0019]图6是本申请一实施例提供的一种计算机设备的示意性框图。
具体实施方式
[0020]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0021]附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。另外,虽然在装置示意图中进行了功能模块的划分,但是在某些情况下,可以以不同于装置示意图中的模块划分。
[0022]在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
[0023]下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
[0024]如图1所示,本申请实施例提供的开放世界目标检测方法,可以应用于如图1所示的应用环境中。该应用环境中包含有终端设备110和服务器120,其中,终端设备110可以通过网络与服务器120进行通信。具体地,服务器120获取待识别的图像数据以及其对应的目标文本标签,并确定所述待识别的图像数据的目标感兴趣区域,并通过预训练图像模型对所述目标感兴趣区域进行特征提取得到目标区域图向量。进一步的,服务器120确定所述目标文本标签对应的类别信息,并通过预训练文本模型对所述类别信息进行特征提取,得到目标词向量;并将所述目标区域图向量以及所述目标词向量输入至目标神经网络模型,得到待识别的图像数据的识别结果,并发送至终端设备110。其中,所述目标神经网络为MLP多层感知机网络,服务器120可以是独立的服务器,也可以是提供云服务、云数据库、云计算、
云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备110可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
[0025]请参阅图2,图2是本申请实施例提供的一种开放世界目标检测方法的步骤示意图。其中,该开放世界目标检测方法可以应用在计算机设备中,由此可以在实现对待识别的图像数据进行识别。
[0026]如图2所示,该开放世界目标检测方法包括步骤S11至步骤S14。
[0027]步骤S11:获取待识别的图像数据以及其对应的目标文本标签。
[0028]其中,待识别的图像数据可以为监控视频、医学影像等,本申请以医学影像为例进行说明。进一步的,目标文本标签可以基于待识别的图像数据直接标注得到。基于此,可获得待识别的医学影像以及其对应的目标文本标签,以用于对医学影像的识别。
[0029]步骤S12:确本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种开放世界目标检测方法,其特征在于,所述方法包括:获取待识别的图像数据以及其对应的目标文本标签;确定所述待识别的图像数据的目标感兴趣区域,并通过预训练图像模型对所述目标感兴趣区域进行特征提取得到目标区域图向量;确定所述目标文本标签对应的类别信息,并通过预训练文本模型对所述类别信息进行特征提取,得到目标词向量;通过目标神经网络模型对所述目标区域图向量以及所述目标词向量进行分析,得到待识别的图像数据的识别结果,其中,所述目标神经网络为MLP多层感知机网络。2.根据权利要求1所述的方法,其特征在于,所述类别信息包括基类和新类,所述目标词向量包括第一词向量以及第二词向量,所述确定所述目标文本标签对应的类别信息,并通过预训练文本模型对所述类别信息进行特征提取,得到目标词向量,包括:确定所述目标文本标签对应的基类以及新类;通过所述预训练文本模型对所述目标文本标签对应的基类以及新类进行特征提取,得到对应的所述第一词向量以及所述第二词向量。3.根据权利要求2所述的开放世界目标检测方法,其特征在于,所述通过目标神经网络模型对所述目标区域图向量以及所述目标词向量进行分析,得到待识别的图像数据的识别结果,包括:通过所述MLP多层感知机网络分别对所述目标区域图向量和所述第一词向量、所述目标区域图向量和所述第二词向量进行分析,得到多个第一相似结果以及多个第二相似结果;将每一所述第一相似结果、每一所述第二相似结果分别通过函数归一化,得到函数归一化结果;基于所述函数归一化结果得到所述待识别的图像数据的识别结果。4.根据权利要求3所述的开放世界目标检测方法,其特征在于,所述方法还包括:所述MLP多层感知机网络将所述目标区域图向量和所述第一词向量进行点积操作,以及将所述目标区域图向量和所述第二词向量进行点积操作,得到多个所述第一相似结果以及多个所述第二相似结果。5.根据权利要求2所述的方法,其特征在于,所述将每一所述第一相似结果、每一所述第二相似结果分别通过函数归一化,得到函数归一化结果,包括:通过目标softmax函数归一化将每一所述第一相似结果以及每一所述第二相似结果进行加和,得到相似结果总和;将每一所述第一相似结果以及每一所述第二相似结果分别除以所述相似结果总和,得到函数归一化结果。6.根...
【专利技术属性】
技术研发人员:唐小初,谢亮晶,舒畅,陈又新,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。