【技术实现步骤摘要】
一种用户需求驱动的关键数据提取方法
[0001]本专利技术属于图像处理
,具体涉及一种用户需求驱动的关键数据提取方法。
技术介绍
[0002]近年来,随着图像传感器,尤其是智能手机自带相机水平的快速发展,人们更倾向于使用照片来记录工作、娱乐、旅游等生活中的各种事件。另一方面,随着朋友圈、微博等各种分享网站的兴起,人们通过分享照片来分享生活的乐趣。例如,著名的图片分享网站Instagram是世界上访问量第7大的网站。由于上述原因,个人每天拍摄照片数量正在呈现爆炸式的增长。尽管这些海量照片详细地记录了生活的各个方面,但是爆炸式增长的图像不仅需要占用了巨大的存储空间,而且也给整理、分享、检索带来了巨大的挑战。如何从海量图像中寻找关键数据,在照片整理、处理等方面具有重要的应用价值,逐渐成为图像处理、计算机视觉和深度学习领域的热门研究内容。
[0003]大部分现有海量图像的关键数据提取基于数据个体质量和统计,对图像重要性进行预测,进而筛选出高质量、高代表性的关键数据。然而,这种方式忽略了用户需求,最终产生的关键数据虽然可以更好的表征完整的图像数据集,但是与用户需求可能存在较大的偏离,难以满足实际任务的需求。因此,通过建模和表征用户需求,实现基于需求驱动的关键数据提取具有重要意义。
技术实现思路
[0004]为了克服现有技术的不足,本专利技术提供了一种用户需求驱动的关键数据提取方法,将用户需求的文本送入预设的文本编码器模型,提取文本特征向量;将查询图像数据集中的每一幅图像送入图像编码器,产生图像特征 ...
【技术保护点】
【技术特征摘要】
1.一种用户需求驱动的关键数据提取方法,其特征在于,包括如下步骤:步骤1:将用户需求的文本送入预设的文本编码器模型,提取一个d
t
维的文本特征向量步骤2:将查询图像数据集中的每一幅图像送入图像编码器,产生一个d
i
维的图像特征向量将得到的图像特征向量与图像统计特征结合,输入一个5层的MLP,获得图像质量分数q;步骤3:使用一个线性映射将步骤1得到的文本特征向量和步骤2得到的图像特征向量映射到相同维度,并进行L2范数归一化;然后使用余弦相似度,计算图像和文本的相关度分数sim;步骤4:将步骤2得到的图像质量分数与步骤3得到的相关度分数sim相乘,获得质量加权的相关分数s=q
·
sim;步骤5:基于步骤4获得的质量加权的相关分数,舍去相关分数小于阈值T=0.3的图像数据;步骤6:对步骤5剩余的图像数据,使用基于样本权重的K
‑
means算法进行聚类,所得到的聚类中心即为关键数据。2.根据权利要求1所述的一种用户需求驱动的关键数据提取方法,其特征在于,所述文本编码器是含有12个8头的Transformer模型,并使用在大规模数据集WIT上的预训练模型参数。3.根据权利要求1所述的一种用户需求驱动的关键数据提取方法,其特征在于,所述步骤2具体为:步骤2
‑
1:图像编码器是一个基于Transformer的ViT模型,其参数采用在WIT数据集上的预训练参数;步骤2
‑
2:图像统计特征计算方式为:首先将图像转化为灰度图,然后计算灰度图像的所有像素平均梯度G和图像熵E
I
;图像熵表示图像所具有信息量,其计算公式为:其中p(n)表示像素灰度值为n的概率;步骤2
‑
3:将所得到的图像特征向量f
img
、平均梯度G和图像熵E
I
拼接为一个向量,送入一个具有2个隐层的MLP网络,预测图像的质量分数q;该MLP网络的隐层维度分别是64和32,使用图像质量评价数据集LIVE训练该网络的参数。4.根据权利要求3所述的一种用户需求驱动的关键数据提取方法,其特征在于,所述步骤3具体为:步骤3
‑
1:线性特征...
【专利技术属性】
技术研发人员:张艳宁,梁国强,王冀,胡嘉豪,
申请(专利权)人:西北工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。