目标检测方法、设备及存储介质技术

技术编号：42897768 阅读：21 留言：0更新日期：2024-09-30 15:14

本申请公开了一种目标检测方法、设备及存储介质，该目标检测方法包括：获取待检索图像、对象描述文本和对象检索条件，其中，对象描述文本用于描述待检索对象，对象检索条件包括待检索对象对应的掩码图像和/或待检索对象对应的姿态和/或待检索对象对应的纹理；对待检索图像进行编码处理，得到图像编码结果；对对象描述文本进行编码处理，得到文本编码结果；对对象检索条件进行编码处理，得到条件编码结果；结合文本编码结果和条件编码结果对图像编码结果进行解码处理，得到待检索图像中待检索对象的目标位置。从多维度对待检索对象进行描述和限定，结合对象描述文本和一个或多个对象检索条件，得到准确的目标检索结果。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及图像处理，特别是涉及一种目标检测方法、设备及存储介质。

技术介绍

1、目前，图像的目标检索在许多应用场景中具有广泛的应用，如图像分类、商品搜索、医学图像分析、媒体与广告分析等领域。

2、现有技术中，一般采用图文结合的方式进行检索，其利用计算机视觉和自然语言处理等技术来实现图像和文本的关联搜索，如搜索与文本匹配的图像。

3、但是，现有的目标检索方法仍然存在检索不准确的情况，影响使用体验。

技术实现思路

1、为了解决上述技术问题，本申请至少提供一种目标检测方法、设备及存储介质。

2、本申请第一方面提供了一种目标检测方法，方法包括：获取待检索图像、对象描述文本和对象检索条件，其中，对象描述文本用于描述待检索对象，对象检索条件包括待检索对象对应的掩码图像和/或待检索对象对应的姿态和/或待检索对象对应的纹理；对待检索图像进行编码处理，得到图像编码结果；对对象描述文本进行编码处理，得到文本编码结果；对对象检索条件进行编码处理，得到条件编码结果；结合文本编码结果和条件编码结果对图像编码结果进行解码处理，得到待检索图像中待检索对象的目标位置。

3、在一实施例中，对对象描述文本进行编码处理，得到文本编码结果，包括：获取待检索图像对应的相关图像和相关图像的图像主题，相关图像为含有与待检索对象相同或相似的对象的图像；将相关图像和图像主题输入至预先训练的多模态编码器中进行编码处理，得到相关图文编码；将相关图文编码和对象描述文本输入至预先训练的文本编

4、在一实施例中，对象检索条件包括待检索对象的掩码图像；将相关图文编码和对象描述文本输入至预先训练的文本编码器中进行编码处理，得到文本编码结果，包括：对掩码图像进行图像特征提取，得到条件掩码特征；对相关图像中目标对应的掩码区域进行图像特征提取，得到相关掩码特征；以及，对对象描述文本进行文本特征提取，得到描述文本特征；融合条件掩码特征和相关掩码特征，得到融合掩码特征；以及，融合相关图文编码和描述文本特征，得到融合图文特征；将融合掩码特征和融合图文特征输入至文本编码器中进行编码处理，得到文本编码结果。

5、在一实施例中，结合文本编码结果和条件编码结果对图像编码结果进行解码处理，得到待检索图像中待检索对象的目标位置，包括：对文本编码结果、条件编码结果和图像编码结果进行注意力计算，得到融合编码结果；利用预先训练的目标解码器对融合编码结果进行解码处理，得到待检索图像中待检索对象的目标位置。

6、在一实施例中，对文本编码结果、条件编码结果和图像编码结果进行注意力计算，得到融合编码结果，包括：对图像编码结果进行自注意力计算，得到自注意力图编码；对自注意力图编码和文本编码结果进行交叉注意力计算，得到第一交叉注意力编码；以及，对自注意力图编码和条件编码结果进行交叉注意力计算，得到第二交叉注意力编码；对第一交叉注意力编码和第二交叉注意力编码进行交叉注意力计算，得到融合编码结果。

7、在一实施例中，对象检索条件的数量为多个；结合文本编码结果和条件编码结果对图像编码结果进行解码处理，得到待检索图像中待检索对象的目标位置，包括：针对每个对象检索条件对应的条件编码结果，分别结合文本编码结果对图像编码结果进行解码处理，得到每个对象检索条件分别对应的待检索对象的位置，得到多个候选位置；基于每个对象检索条件分别对应的候选位置，生成待检索对象的目标位置。

8、在一实施例中，基于每个对象检索条件分别对应的候选位置，生成待检索对象的目标位置，包括：计算每个候选位置之间的位置框交并比，和/或，计算每个候选位置与对应的对象检索条件之间的匹配度；基于位置框交并比和/或匹配度确定每个候选位置对应的准确度；选取准确度最高的候选位置，作为待检索对象的目标位置。

9、在一实施例中，计算每个候选位置与对应的对象检索条件之间的匹配度，包括：若对象检索条件包括待检索对象的掩码图像，则获取候选位置对应的图像内容的图像特征，得到候选位置图特征，以及，获取掩码图像的图特征，得到条件掩码特征，计算候选位置图特征与条件掩码特征之间的相似度，得到对象检索条件与候选位置对应的图像内容之间的匹配度；若对象检索条件包括待检索对象的姿态，则获取候选位置对应的对象姿态，得到候选位置姿态，对比对象检索条件中待检索对象的姿态与候选位置姿态之间的姿态差异，得到对象检索条件与候选位置对应的图像内容之间的匹配度；若对象检索条件包括待检索对象的纹理，则获取候选位置对应的对象纹理，得到候选位置纹理，对比对象检索条件中待检索对象的纹理与候选位置纹理之间的纹理差异，得到对象检索条件与候选位置对应的图像内容之间的匹配度。

10、本申请第二方面提供了一种目标检测装置，装置包括：数据获取模块，用于获取待检索图像、对象描述文本和对象检索条件，其中，对象描述文本用于描述待检索对象，对象检索条件包括待检索对象对应的掩码图像和/或待检索对象对应的姿态和/或待检索对象对应的纹理；编码模块，用于对待检索图像进行编码处理，得到图像编码结果；对对象描述文本进行编码处理，得到文本编码结果；对对象检索条件进行编码处理，得到条件编码结果；解码模块，用于结合文本编码结果和条件编码结果对图像编码结果进行解码处理，得到待检索图像中待检索对象的目标位置。

11、本申请第三方面提供了一种电子设备，包括存储器和处理器，处理器用于执行存储器中存储的程序指令，以实现上述目标检测方法。

12、本申请第四方面提供了一种计算机可读存储介质，其上存储有程序指令，程序指令被处理器执行时实现上述目标检测方法。

13、上述方案，通过获取待检索图像、对象描述文本和对象检索条件，其中，对象描述文本用于描述待检索对象，对象检索条件包括待检索对象对应的掩码图像和/或待检索对象对应的姿态和/或待检索对象对应的纹理；对待检索图像进行编码处理，得到图像编码结果；对对象描述文本进行编码处理，得到文本编码结果；对对象检索条件进行编码处理，得到条件编码结果；结合文本编码结果和条件编码结果对图像编码结果进行解码处理，得到待检索图像中待检索对象的目标位置，依靠多维度的对象检索条件，从多维度对待检索对象进行描述和限定，结合对象描述文本和一个或多个对象检索条件，得到准确的目标检索结果，避免因为描述文本不准确、不全面而导致目标检索准确率低的情况。

14、应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本申请。

本文档来自技高网...

【技术保护点】

1.一种目标检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述对象描述文本进行编码处理，得到文本编码结果，包括：

3.根据权利要求2所述的方法，其特征在于，所述对象检索条件包括所述待检索对象的掩码图像；所述将所述相关图文编码和所述对象描述文本输入至预先训练的文本编码器中进行编码处理，得到文本编码结果，包括：

4.根据权利要求1所述的方法，其特征在于，所述结合所述文本编码结果和所述条件编码结果对所述图像编码结果进行解码处理，得到所述待检索图像中待检索对象的目标位置，包括：

5.根据权利要求4所述的方法，其特征在于，所述对所述文本编码结果、所述条件编码结果和所述图像编码结果进行注意力计算，得到融合编码结果，包括：

6.根据权利要求1所述的方法，其特征在于，所述对象检索条件的数量为多个；所述结合所述文本编码结果和所述条件编码结果对所述图像编码结果进行解码处理，得到所述待检索图像中待检索对象的目标位置，包括：

7.根据权利要求6所述的方法，其特征在于，所述基于所述每个对象检索条件分别对

8.根据权利要求6所述的方法，其特征在于，计算所述每个候选位置与对应的对象检索条件之间的匹配度，包括：

9.一种电子设备，其特征在于，所述电子设备包括存储器和处理器，处理器用于执行存储器中存储的程序指令，以实现如权利要求1-8任一项所述方法中的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有程序指令，所述程序指令能够被处理器执行以实现如权利要求1-8任一项所述方法中的步骤。

...

【技术特征摘要】

1.一种目标检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述对象描述文本进行编码处理，得到文本编码结果，包括：

6.根据权利要求1所述的方法，其特...

【专利技术属性】
技术研发人员：冯少迪，李元豪，白家男，章合群，傅凯，吴福明，赵志伟，余正法，吴剑峰，梁巧云，周祥明，
申请(专利权)人：浙江大华技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人