一种用户需求驱动的关键数据提取方法技术

技术编号：39316558 阅读：16 留言：0更新日期：2023-11-12 15:59

本发明专利技术公开了一种用户需求驱动的关键数据提取方法，将用户需求的文本送入预设的文本编码器模型，提取文本特征向量；将查询图像数据集中的每一幅图像送入图像编码器，产生图像特征向量，将得到的图像特征向量与图像统计特征结合，获得图像质量分数；计算图像和文本的相关度分数sim；将图像质量分数与相关度分数相乘，获得质量加权的相关分数；舍去相关分数小于阈值的图像数据；对剩余的图像数据进行聚类，将与聚类中心最近的图像作为关键数据。本发明专利技术输出的关键数据不仅与用户需求密切相关，而且本身也具有更高的质量，能更好的满足用户需求，降低了低质量数据对用户决策的不利影响。响。响。

全部详细技术资料下载

【技术实现步骤摘要】
一种用户需求驱动的关键数据提取方法

[0001]本专利技术属于图像处理
，具体涉及一种用户需求驱动的关键数据提取方法。

技术介绍

[0002]近年来，随着图像传感器，尤其是智能手机自带相机水平的快速发展，人们更倾向于使用照片来记录工作、娱乐、旅游等生活中的各种事件。另一方面，随着朋友圈、微博等各种分享网站的兴起，人们通过分享照片来分享生活的乐趣。例如，著名的图片分享网站Instagram是世界上访问量第7大的网站。由于上述原因，个人每天拍摄照片数量正在呈现爆炸式的增长。尽管这些海量照片详细地记录了生活的各个方面，但是爆炸式增长的图像不仅需要占用了巨大的存储空间，而且也给整理、分享、检索带来了巨大的挑战。如何从海量图像中寻找关键数据，在照片整理、处理等方面具有重要的应用价值，逐渐成为图像处理、计算机视觉和深度学习领域的热门研究内容。
[0003]大部分现有海量图像的关键数据提取基于数据个体质量和统计，对图像重要性进行预测，进而筛选出高质量、高代表性的关键数据。然而，这种方式忽略了用户需求，最终产生的关键数据虽然可以更好的表征完整的图像数据集，但是与用户需求可能存在较大的偏离，难以满足实际任务的需求。因此，通过建模和表征用户需求，实现基于需求驱动的关键数据提取具有重要意义。

技术实现思路

[0004]为了克服现有技术的不足，本专利技术提供了一种用户需求驱动的关键数据提取方法，将用户需求的文本送入预设的文本编码器模型，提取文本特征向量；将查询图像数据集中的每一幅图像送入图像编码器，产生图像特征...

【技术保护点】

【技术特征摘要】
1.一种用户需求驱动的关键数据提取方法，其特征在于，包括如下步骤：步骤1：将用户需求的文本送入预设的文本编码器模型，提取一个d
t
维的文本特征向量步骤2：将查询图像数据集中的每一幅图像送入图像编码器，产生一个d
i
维的图像特征向量将得到的图像特征向量与图像统计特征结合，输入一个5层的MLP，获得图像质量分数q；步骤3：使用一个线性映射将步骤1得到的文本特征向量和步骤2得到的图像特征向量映射到相同维度，并进行L2范数归一化；然后使用余弦相似度，计算图像和文本的相关度分数sim；步骤4：将步骤2得到的图像质量分数与步骤3得到的相关度分数sim相乘，获得质量加权的相关分数s＝q
·
sim；步骤5：基于步骤4获得的质量加权的相关分数，舍去相关分数小于阈值T＝0.3的图像数据；步骤6：对步骤5剩余的图像数据，使用基于样本权重的K
‑
means算法进行聚类，所得到的聚类中心即为关键数据。2.根据权利要求1所述的一种用户需求驱动的关键数据提取方法，其特征在于，所述文本编码器是含有12个8头的Transformer模型，并使用在大规模数据集WIT上的预训练模型参数。3.根据权利要求1所述的一种用户需求驱动的关键数据提取方法，其特征在于，所述步骤2具体为：步骤2
‑
1：图像编码器是一个基于Transformer的ViT模型，其参数采用在WIT数据集上的预训练参数；步骤2
‑
2：图像统计特征计算方式为：首先将图像转化为灰度图，然后计算灰度图像的所有像素平均梯度G和图像熵E
I
；图像熵表示图像所具有信息量，其计算公式为：其中p(n)表示像素灰度值为n的概率；步骤2
‑
3：将所得到的图像特征向量f
img
、平均梯度G和图像熵E
I
拼接为一个向量，送入一个具有2个隐层的MLP网络，预测图像的质量分数q；该MLP网络的隐层维度分别是64和32，使用图像质量评价数据集LIVE训练该网络的参数。4.根据权利要求3所述的一种用户需求驱动的关键数据提取方法，其特征在于，所述步骤3具体为：步骤3
‑
1：线性特征...

【专利技术属性】
技术研发人员：张艳宁，梁国强，王冀，胡嘉豪，
申请(专利权)人：西北工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人