特征量化模型训练、特征量化、数据查询方法及系统技术方案

技术编号：30067409 阅读：21 留言：0更新日期：2021-09-18 08:18

本发明专利技术实施例提供一种特征量化模型训练、特征量化、数据查询方法及系统，该特征量化模型训练方法包括：获取多个源数据域；获取每一所述源数据域的特征信息和标注信息；根据所有所述源数据域的特征信息和标注信息，对特征量化模型进行训练，得到公共特征量化模型，其中，训练过程中，从所述多个源数据域的特征信息中分解出公共特征信息和域专有的特征信息，所述公共特征信息为所述多个源数据域共有的特征信息。本发明专利技术实施例中，使用多个源数据域的丰富的标注信息训练得到公共特征量化模型，公共特征量化模型可用于标注信息匮乏的目标数据域的特征量化，从而提高特征量化模型在标注信息匮乏的数据域的特征量化性能。息匮乏的数据域的特征量化性能。息匮乏的数据域的特征量化性能。

全部详细技术资料下载

【技术实现步骤摘要】
特征量化模型训练、特征量化、数据查询方法及系统

[0001]本专利技术实施例涉及数据处理
，尤其涉及一种特征量化模型训练、特征量化、数据查询方法及系统。

技术介绍

[0002]特征量化(feature quantization)是在计算机视觉、数据挖掘等人工智能相关领域中的一个重要技术。特征量化的目标是输出包含浓缩后的原始信息(原始的图像、视频、文本等数据的特征)的精简特征编码(特征量化码)，同时能最大限度保持原始特征的表达能力。特征量化的意义在于，对于大规模数据集(如图像搜索系统中的海量图像数据)，通过使用量化后的精简特征编码，能以更小的存储和计算复杂度完成特定任务(如图像搜索等)。例如，在图像搜索领域，主流的图像特征维度通常为上万维，代表性视觉特征如局部聚合描述符(VLAD)、FisherVector或者深度网络经过全局平均池化后的特征向量。在进行图像搜索等操作时，高维特征需要极高的存储代价和计算复杂度。特征量化能在基本不损失精度的情况下，极大降低对存储空间的需求和运行时刻的计算复杂度。特别的，对于百万量级的图像数据集，经过特征量化操作以后，整个数据集的特征通常只有若干吉字节(GB)，可以轻易读入单台服务器的内存中，从而避免了耗时的云服务中的多机通信和内存-外存之间的输入输出(I/O)代价。
[0003]传统的特征量化算法包括K均值聚类等。这些算法通常是无监督的，特征之间的距离或相似度计算常基于标准的欧氏距离或者余弦相似度。近年来，基于标注信息的特征量化算法逐步取得更大的关注，在实际应用中表现出更强...

【技术保护点】

【技术特征摘要】
1.一种特征量化模型训练方法，其中，包括：获取多个源数据域；获取每一所述源数据域的特征信息和标注信息；根据所有所述源数据域的特征信息和标注信息，对特征量化模型进行训练，得到公共特征量化模型，其中，训练过程中，从所述多个源数据域的特征信息中分解出公共特征信息和域专有的特征信息，所述公共特征信息为所述多个源数据域共有的特征信息。2.如权利要求1所述的特征量化模型训练方法，其中，所述根据所有所述源数据域的特征信息和标注信息，对特征量化模型进行训练，得到公共特征量化模型包括：根据所有所述源数据域的特征信息和标注信息，对特征量化模型进行训练，得到公共特征量化模型和每一所述源数据域的域专有的特征量化模型。3.如权利要求2所述的特征量化模型训练方法，其中，采用深度神经网络算法对特征量化模型进行训练。4.如权利要求1或2所述的特征量化模型训练方法，其中，所述对特征量化模型进行训练包括：调整所述特征量化模型，使得对于所有所述源数据域，Ex(L(F0(X),Y))取最小值；其中，X为表示所有所述源数据域的特征信息，Y为所有所述源数据域的标注信息，F0表示公共特征量化模型，F0(X)表示特征信息X经过F0处理后得到的特征量化码，L(F0(X),Y)表示所述特征量化码与标注信息Y之间的损失函数，Ex(L(F0(X),Y))表示L函数针对特征信息X的数学期望。5.如权利要求4所述的特征量化模型训练方法，其中，所述对特征量化模型进行训练还包括：调整所述特征量化模型，使得对于任意所述源数据域k，Ex(L(φ(F0(x),F
k
(x)),y))取最小值，以及，对于任意所述源数据域k，Ex(L(φ(F0(x),F
k
(x)),y))<Ex(L(φ(F0(x),F
p
(x)),y))，其中，p不等于k；其中，x表示所述源数据域k的特征信息，y为所述源数据域k的标注信息，F0表示公共特征量化模型，F0(x)表示特征信息x经过F0处理后得到的特征量化码，F
k
表示所述源数据域k的域专有的特征量化模型，F
k
(x)表示特征信息x经过F
k
处理后得到的特征量化码，Fp表示所述源数据域p的域专有的特征量化模型，F
p
(x)表示特征信息x经过F
p
处理后得到的特征量化码，φ(F0(x),F
k
(x))表示对F0(x)和F
k
(x)进行融合处理，φ(F0(x),F
p
(x))表示对F0(x)和F
p
(x)进行融合处理，L(φ(F0(x),F
k
(x)),y)和L(φ(F0(x),F
p
(x)...

【专利技术属性】
技术研发人员：方奕庚，穆亚东，唐小军，
申请(专利权)人：北京大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人