基于多模态技术的中文文本搜索图像或视频的方法技术

技术编号：40483990 阅读：22 留言：0更新日期：2024-02-26 19:17

基于多模态技术的中文文本搜索图像或视频的方法，包括如下步骤：将初始训练集所对应的图像和文字基于CLIP技术得到图像向量和文字向量，并输入对Decoder网络模型进行初步训练，保存训练模型参数；根据图像向量和文字向量之间的相似度设置第一阈值及第二阈值，以对图像向量和文字向量进行两次筛选，并继续训练Decoder网络模型，保存训练模型参数；使用人工标注的数据集，对Decoder网络模型进行最后训练，完成模型精调，得到训练好的Decoder网络模型。本发明专利技术基于Transformer的Decoder构建Decoder网络并进行分步迭代训练，从而实现使用少量人工标定数据即可完成训练过程，最终实现图像到中文文本的标签生成功能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及大数据，具体涉及基于多模态技术的中文文本搜索图像或视频的方法。

技术介绍

1、在互联网领域，文本是最常见的数据呈现形式，其次是图像、视频。这几种不同模态的数据不是截然分开独立存在的，而是紧密融合在一起的。比如，在图文检索任务中，需要用文本去搜索图像；在视频搜索推荐任务中，视频中除了图像外，存在的标题、字幕和语音都可以映射为文本；在文章配图等场景中，需要建模文字和图片的关系。所以，图文跨模态表示从某种意义上来讲是互联网领域里应用最广，最有价值的技术之一。

技术实现思路

1、为了实现使用少量人工标注数据即可完成多模态神经网络的训练，本专利技术提供了一种基于多模态技术的中文文本搜索图像或视频的方法，包括如下步骤：

2、步骤s1：爬取初始训练集；

3、步骤s2：将初始训练集所对应的图像和文字基于clip技术得到图像向量和文字向量，将图像向量和文字向量对decoder网络模型进行初步训练，待损失不再降低时，停止训练，保存训练模型参数；

4、步骤s3：基于clip技术计算图像向量和文字向量之间的相似度，通过对相似度设置第一阈值，过滤一部分图像向量和文字向量，使用过滤后的图像向量和文字向量继续对decoder网络模型进行训练，保存训练模型参数；

5、步骤s4：重复步骤s3，根据第二阈值再次过滤图像向量及文字向量，并再次进行decoder网络模型训练，保存训练模型参数；

6、步骤s5：使用人工标注的数据集，对步骤s4所训练好

7、所述步骤s2-步骤s5中，所训练的decoder网络模型包括self attention及crossattention，decoder网络模型输出结果为多头self attention及cross attention的输出的整合，其中，

8、每头self attention及cross attention的计算公式为：

9、

10、其中，self attention的q,k,v为文本向量输入编码与三个变换矩阵相乘得到的结果；

11、其中，cross attention的k,v为图像向量输入编码与两个变换矩阵相乘得到的结果；q为文本向量输入编码与一个变换矩阵相乘得到的结果；

12、dk为q,k,v的列数，即向量维度；

13、针对self attention，公式(1)中的k及q确定方法如下：

14、

15、

16、针对cross attention，公式(1)中的k及q确定方法如下：

17、

18、

19、对于多头self attention及cross attention来讲，每头共享和

20、其中，

21、dr表示整合完所有注意力头之后输出的映射矩阵维度，din表示所输入的x及y的向量维度，x和y分别为基于图像编码和文本编码得到的向量；和表示变换矩阵，维度为din*dr；mi表示对角矩阵，维度为dr*dr。

22、其中，基于所训练好的decoder网络模型，将需要对其进行搜索的图像或视频输入decoder网络模型中，与搜索对象中所存在的搜索文本进行比对，返回搜索结果。

23、其中，所述步骤s2-步骤s5中，在训练decoder网络模型的过程中，针对decoder网络模型所输出的文本，通过损失函数得到分类损失，并将分类损失回传给decoder网络模型，以优化decoder网络模型。

24、其中，通过如下公式得到分类损失：

25、

26、

27、

28、其中，pi为真实分类标签值；qi为相应的标签分类的预测概率值；k为分类数，y为所对应的标签。本专利技术提供的基于多模态技术的中文文本搜索图像或视频的方法，基于transformer的decoder构建decoder网络并进行分步迭代训练，从而实现使用少量人工标定数据即可完成训练过程，最终实现图像到中文文本的标签生成功能。

本文档来自技高网...

【技术保护点】

1.基于多模态技术的中文文本搜索图像或视频的方法，其特征在于，包括如下步骤：

2.如权利要求1所述的基于多模态技术的中文文本搜索图像或视频的方法，其特征在于，基于所训练好的Decoder网络模型，将需要对其进行搜索的图像或视频输入Decoder网络模型中，与搜索对象中所存在的搜索文本进行比对，返回搜索结果。

3.如权利要求1所述的基于多模态技术的中文文本搜索图像或视频的方法，其特征在于，所述步骤S2-步骤S5中，在训练Decoder网络模型的过程中，针对Decoder网络模型所输出的文本，通过损失函数得到分类损失，并将分类损失回传给Decoder网络模型，以优化Decoder网络模型。

4.如权利要求3所述的基于多模态技术的中文文本搜索图像或视频的方法，其特征在于，通过如下公式得到分类损失：

【技术特征摘要】

1.基于多模态技术的中文文本搜索图像或视频的方法，其特征在于，包括如下步骤：

2.如权利要求1所述的基于多模态技术的中文文本搜索图像或视频的方法，其特征在于，基于所训练好的decoder网络模型，将需要对其进行搜索的图像或视频输入decoder网络模型中，与搜索对象中所存在的搜索文本进行比对，返回搜索结果。

3.如权利要求1所述的基于多模态技...

【专利技术属性】
技术研发人员：韩福海，韩乃平，刘丽欣，付龙，
申请(专利权)人：先进操作系统创新中心天津有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人