一种用户需求驱动的关键数据提取方法技术

技术编号:39316558 阅读:6 留言:0更新日期:2023-11-12 15:59
本发明专利技术公开了一种用户需求驱动的关键数据提取方法,将用户需求的文本送入预设的文本编码器模型,提取文本特征向量;将查询图像数据集中的每一幅图像送入图像编码器,产生图像特征向量,将得到的图像特征向量与图像统计特征结合,获得图像质量分数;计算图像和文本的相关度分数sim;将图像质量分数与相关度分数相乘,获得质量加权的相关分数;舍去相关分数小于阈值的图像数据;对剩余的图像数据进行聚类,将与聚类中心最近的图像作为关键数据。本发明专利技术输出的关键数据不仅与用户需求密切相关,而且本身也具有更高的质量,能更好的满足用户需求,降低了低质量数据对用户决策的不利影响。响。响。

【技术实现步骤摘要】
一种用户需求驱动的关键数据提取方法


[0001]本专利技术属于图像处理
,具体涉及一种用户需求驱动的关键数据提取方法。

技术介绍

[0002]近年来,随着图像传感器,尤其是智能手机自带相机水平的快速发展,人们更倾向于使用照片来记录工作、娱乐、旅游等生活中的各种事件。另一方面,随着朋友圈、微博等各种分享网站的兴起,人们通过分享照片来分享生活的乐趣。例如,著名的图片分享网站Instagram是世界上访问量第7大的网站。由于上述原因,个人每天拍摄照片数量正在呈现爆炸式的增长。尽管这些海量照片详细地记录了生活的各个方面,但是爆炸式增长的图像不仅需要占用了巨大的存储空间,而且也给整理、分享、检索带来了巨大的挑战。如何从海量图像中寻找关键数据,在照片整理、处理等方面具有重要的应用价值,逐渐成为图像处理、计算机视觉和深度学习领域的热门研究内容。
[0003]大部分现有海量图像的关键数据提取基于数据个体质量和统计,对图像重要性进行预测,进而筛选出高质量、高代表性的关键数据。然而,这种方式忽略了用户需求,最终产生的关键数据虽然可以更好的表征完整的图像数据集,但是与用户需求可能存在较大的偏离,难以满足实际任务的需求。因此,通过建模和表征用户需求,实现基于需求驱动的关键数据提取具有重要意义。

技术实现思路

[0004]为了克服现有技术的不足,本专利技术提供了一种用户需求驱动的关键数据提取方法,将用户需求的文本送入预设的文本编码器模型,提取文本特征向量;将查询图像数据集中的每一幅图像送入图像编码器,产生图像特征向量,将得到的图像特征向量与图像统计特征结合,获得图像质量分数;计算图像和文本的相关度分数sim;将图像质量分数与相关度分数相乘,获得质量加权的相关分数;舍去相关分数小于阈值的图像数据;对剩余的图像数据进行聚类,将与聚类中心最近的图像作为关键数据。本专利技术输出的关键数据不仅与用户需求密切相关,而且本身也具有更高的质量,能更好的满足用户需求,降低了低质量数据对用户决策的不利影响。
[0005]本专利技术解决其技术问题所采用的技术方案包括如下步骤:
[0006]步骤1:将用户需求的文本送入预设的文本编码器模型,提取一个d
t
维的文本特征向量
[0007]步骤2:将查询图像数据集中的每一幅图像送入图像编码器,产生一个d
i
维的图像特征向量将得到的图像特征向量与图像统计特征结合,输入一个5层的MLP,获得图像质量分数q;
[0008]步骤3:使用一个线性映射将步骤1得到的文本特征向量和步骤2得到的图像特征向量映射到相同维度,并进行L2范数归一化;然后使用余弦相似度,计算图像和文本的相关
度分数sim;
[0009]步骤4:将步骤2得到的图像质量分数与步骤3得到的相关度分数sim相乘,获得质量加权的相关分数s=q
·
sim;
[0010]步骤5:基于步骤4获得的质量加权的相关分数,舍去相关分数小于阈值T=0.3的图像数据;
[0011]步骤6:对步骤5剩余的图像数据,使用基于样本权重的K

means算法进行聚类,所得到的聚类中心即为关键数据。
[0012]优选地,所述文本编码器是含有12个8头的Transformer模型,并使用在大规模数据集WIT上的预训练模型参数。
[0013]优选地,所述步骤2具体为:
[0014]步骤2

1:图像编码器是一个基于Transformer的ViT模型,其参数采用在WIT数据集上的预训练参数;
[0015]步骤2

2:图像统计特征计算方式为:首先将图像转化为灰度图,然后计算灰度图像的所有像素平均梯度G和图像熵E
I
;图像熵表示图像所具有信息量,其计算公式为:
[0016][0017]其中p(n)表示像素灰度值为n的概率;
[0018]步骤2

3:将所得到的图像特征向量f
img
、平均梯度G和图像熵E
I
拼接为一个向量,送入一个具有2个隐层的MLP网络,预测图像的质量分数q;该MLP网络的隐层维度分别是64和32,使用图像质量评价数据集LIVE训练该网络的参数。
[0019]优选地,所述步骤3具体为:
[0020]步骤3

1:线性特征映射和L2范数归一化统一表示为:
[0021]f

img
=G(f
img
W
img
)
[0022]f

text
=G(f
text
W
text
)
[0023]其中f

img
、f

text
分别是归一化后的图像特征向量和文本特征向量,W
img
、W
text
表示对应线性映射层的权重;G表示L2范数归一化操作;
[0024]步骤3

2:相关度分数sim的计算公式为:
[0025][0026]优选地,所述步骤6具体为:
[0027]步骤6

1:如果步骤5剩余的图像数量小于聚类中心数量K,则将剩余的所有图像作为关键数据。否则,使用基于样本权重的K

means算法选择K个图像作为关键数据。
[0028]步骤6

2:使用基于样本权重的K

means算法,在计算聚类中心时,将步骤4产生的相关分数作为权重,具体表示为:
[0029][0030]其中,c
i
表示第i个聚类中心,m
i
表示其样本数量;是第j个图像样本的特征向量,w
j
表示对应图像的权重,通过将度量指标进行粗类归一化计算得到,即:
[0031][0032]其中s
i
表示第j个图像的相关分数;
[0033]步骤6

3:对6

2得的每一个聚类中心,选择与其特征欧式距离最小的一副图像,从而得到K个图像作为关键数据;
[0034]步骤6

4:依据步骤4得到的质量加权相关分数,将步骤6

1或者步骤6

3得到的关键数据从大到小进行排序输出。
[0035]优选地,所述聚类中心数量K设为步骤5操作后剩余图像数量的0.1,并取整。
[0036]本专利技术的有益效果如下:
[0037](1)本专利技术综合考虑了图像与用户需求的相似度、图像个体质量,从而使得输出的关键数据不仅与用户需求密切相关,而且本身也具有更高的质量,能更好的满足用户需求,降低了低质量数据对用户决策的不利影响。
[0038](2)本专利技术设计了一种新的关键数据选择方法,能够兼顾数据与本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用户需求驱动的关键数据提取方法,其特征在于,包括如下步骤:步骤1:将用户需求的文本送入预设的文本编码器模型,提取一个d
t
维的文本特征向量步骤2:将查询图像数据集中的每一幅图像送入图像编码器,产生一个d
i
维的图像特征向量将得到的图像特征向量与图像统计特征结合,输入一个5层的MLP,获得图像质量分数q;步骤3:使用一个线性映射将步骤1得到的文本特征向量和步骤2得到的图像特征向量映射到相同维度,并进行L2范数归一化;然后使用余弦相似度,计算图像和文本的相关度分数sim;步骤4:将步骤2得到的图像质量分数与步骤3得到的相关度分数sim相乘,获得质量加权的相关分数s=q
·
sim;步骤5:基于步骤4获得的质量加权的相关分数,舍去相关分数小于阈值T=0.3的图像数据;步骤6:对步骤5剩余的图像数据,使用基于样本权重的K

means算法进行聚类,所得到的聚类中心即为关键数据。2.根据权利要求1所述的一种用户需求驱动的关键数据提取方法,其特征在于,所述文本编码器是含有12个8头的Transformer模型,并使用在大规模数据集WIT上的预训练模型参数。3.根据权利要求1所述的一种用户需求驱动的关键数据提取方法,其特征在于,所述步骤2具体为:步骤2

1:图像编码器是一个基于Transformer的ViT模型,其参数采用在WIT数据集上的预训练参数;步骤2

2:图像统计特征计算方式为:首先将图像转化为灰度图,然后计算灰度图像的所有像素平均梯度G和图像熵E
I
;图像熵表示图像所具有信息量,其计算公式为:其中p(n)表示像素灰度值为n的概率;步骤2

3:将所得到的图像特征向量f
img
、平均梯度G和图像熵E
I
拼接为一个向量,送入一个具有2个隐层的MLP网络,预测图像的质量分数q;该MLP网络的隐层维度分别是64和32,使用图像质量评价数据集LIVE训练该网络的参数。4.根据权利要求3所述的一种用户需求驱动的关键数据提取方法,其特征在于,所述步骤3具体为:步骤3

1:线性特征...

【专利技术属性】
技术研发人员:张艳宁梁国强王冀胡嘉豪
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1