当前位置: 首页 > 专利查询>北京大学专利>正文

特征量化模型训练、特征量化、数据查询方法及系统技术方案

技术编号:30067409 阅读:21 留言:0更新日期:2021-09-18 08:18
本发明专利技术实施例提供一种特征量化模型训练、特征量化、数据查询方法及系统,该特征量化模型训练方法包括:获取多个源数据域;获取每一所述源数据域的特征信息和标注信息;根据所有所述源数据域的特征信息和标注信息,对特征量化模型进行训练,得到公共特征量化模型,其中,训练过程中,从所述多个源数据域的特征信息中分解出公共特征信息和域专有的特征信息,所述公共特征信息为所述多个源数据域共有的特征信息。本发明专利技术实施例中,使用多个源数据域的丰富的标注信息训练得到公共特征量化模型,公共特征量化模型可用于标注信息匮乏的目标数据域的特征量化,从而提高特征量化模型在标注信息匮乏的数据域的特征量化性能。息匮乏的数据域的特征量化性能。息匮乏的数据域的特征量化性能。

【技术实现步骤摘要】
特征量化模型训练、特征量化、数据查询方法及系统


[0001]本专利技术实施例涉及数据处理
,尤其涉及一种特征量化模型训练、特征量化、数据查询方法及系统。

技术介绍

[0002]特征量化(feature quantization)是在计算机视觉、数据挖掘等人工智能相关领域中的一个重要技术。特征量化的目标是输出包含浓缩后的原始信息(原始的图像、视频、文本等数据的特征)的精简特征编码(特征量化码),同时能最大限度保持原始特征的表达能力。特征量化的意义在于,对于大规模数据集(如图像搜索系统中的海量图像数据),通过使用量化后的精简特征编码,能以更小的存储和计算复杂度完成特定任务(如图像搜索等)。例如,在图像搜索领域,主流的图像特征维度通常为上万维,代表性视觉特征如局部聚合描述符(VLAD)、FisherVector或者深度网络经过全局平均池化后的特征向量。在进行图像搜索等操作时,高维特征需要极高的存储代价和计算复杂度。特征量化能在基本不损失精度的情况下,极大降低对存储空间的需求和运行时刻的计算复杂度。特别的,对于百万量级的图像数据集,经过特征量化操作以后,整个数据集的特征通常只有若干吉字节(GB),可以轻易读入单台服务器的内存中,从而避免了耗时的云服务中的多机通信和内存-外存之间的输入输出(I/O)代价。
[0003]传统的特征量化算法包括K均值聚类等。这些算法通常是无监督的,特征之间的距离或相似度计算常基于标准的欧氏距离或者余弦相似度。近年来,基于标注信息的特征量化算法逐步取得更大的关注,在实际应用中表现出更强大的性能。常见的标注信息的形式包括语义标签(例如对图像的语义类别给出一个或者多个标签)、相似度标签(例如指定两张图像是否相似、甚至具体的相似度数值)等。然而,在特定的目标数据域使用特征量化算法时,一种常见的问题是标注信息的缺乏。一方面,标注信息的获取常需要人工标注,代价昂贵;另一方面,某些垂直领域应用的标注信息在本质上是稀疏的,例如精细类别识别问题(fine-grained recognition)。从而难以保证特征量化算法的性能。

技术实现思路

[0004]本专利技术实施例提供一种特征量化模型训练、特征量化、数据查询方法及系统,用于解决目标数据域的标注信息不足时,难以保证特征量化算法的性能的问题。
[0005]为了解决上述技术问题,本专利技术是这样实现的:
[0006]第一方面,本专利技术实施例提供了一种特征量化模型训练方法,包括:
[0007]获取多个源数据域;
[0008]获取每一所述源数据域的特征信息和标注信息;
[0009]根据所有所述源数据域的特征信息和标注信息,对特征量化模型进行训练,得到公共特征量化模型,其中,训练过程中,从所述多个源数据域的特征信息中分解出公共特征信息和域专有的特征信息,所述公共特征信息为所述多个源数据域共有的特征信息。
[0010]可选的,所述根据所有所述源数据域的特征信息和标注信息,对特征量化模型进行训练,得到公共特征量化模型包括:
[0011]根据所有所述源数据域的特征信息和标注信息,对特征量化模型进行训练,得到公共特征量化模型和每一所述源数据域的域专有的特征量化模型。
[0012]可选的,采用深度神经网络算法对所述公共特征量化模型和域专有的特征量化模型进行训练。
[0013]可选的,所述对特征量化模型进行训练包括:
[0014]调整所述特征量化模型,使得对于所有所述源数据域,Ex(L(F0(X),Y))取最小值;
[0015]其中,X为表示所有所述源数据域的特征信息,Y为所有所述源数据域的标注信息,F0表示公共特征量化模型,F0(X)表示特征信息X经过F0处理后得到的特征量化码,L(F0(X),Y)表示所述特征量化码与标注信息Y之间的损失函数,Ex(L(F0(X),Y))表示L函数针对特征信息X的数学期望。
[0016]可选的,所述对特征量化模型进行训练还包括:
[0017]调整所述特征量化模型,使得对于任意所述源数据域k,Ex(L(φ(F0(x),F
k
(x)),y))取最小值,以及,对于任意所述源数据域k,Ex(L(φ(F0(x),F
k
(x)),y))<Ex(L(φ(F0(x),F
p
(x)),y)),其中,p不等于k;
[0018]其中,x表示所述源数据域k的特征信息,y为所述源数据域k的标注信息,F0表示公共特征量化模型,F0(x)表示特征信息x经过F0处理后得到的特征量化码,F
k
表示所述源数据域k的域专有的特征量化模型,F
k
(x)表示特征信息x经过F
k
处理后得到的特征量化码,Fp表示所述源数据域p的域专有的特征量化模型,F
p
(x)表示特征信息x经过F
p
处理后得到的特征量化码,φ(F0(x),F
p
(x))表示对F0(x)和F
p
(x)进行融合处理,φ(F0(x),F
k
(x))表示对F0(x)和F
k
(x)进行融合处理,L(φ(F0(x),F
k
(x)),y)和L(φ(F0(x),F
p
(x)),y)表示经过融合处理后的特征量化码与标注信息y之间的损失函数,Ex()表示数学期望函数,k=1,2,

,K,p=1,2,

,K,K为所述源数据域的个数。
[0019]可选的,采用相加或者线性拼接的方法进行所述融合处理。
[0020]第二方面,本专利技术实施例提供了一种特征量化方法,包括:
[0021]采用公共特征量化模型对目标数据集进行特征量化,得到目标数据集的特征量化码,所述公共特征量化模型采用上述第一方面的特征模型的信令方法训练得到。
[0022]第三方面,本专利技术实施例提供了一种数据查询方法,应用于服务器,所述方法包括:
[0023]接收客户端发送的目标查询数据的目标特征量化码;
[0024]将所述目标特征量化码与目标数据集的特征量化码进行比对,得到与所述目标特征量化码匹配的查询结果,其中,所述目标数据集的特征量化码采用上述第二方面的特征量化方法得到;
[0025]将所述查询结果返回至所述客户端。
[0026]可选的,所述目标数据集的特征量化码是预先采用公共特征量化模型对所述目标数据集进行特征量化得到并存储的。
[0027]第四方面,本专利技术实施例提供了一种数据查询方法,应用于客户端,所述方法包括:
[0028]获取输入的目标查询数据;
[0029]根据公共特征量化模型,对所述目标查询数据进行特征量化计算,得到所述目标查询数据的目标特征量化码,所述公共特征量化模型采用上述第一方面的特征量化模型训练方法训练得到;
[0030]将所述目标特征量化码发送给服务器;
[0031]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种特征量化模型训练方法,其中,包括:获取多个源数据域;获取每一所述源数据域的特征信息和标注信息;根据所有所述源数据域的特征信息和标注信息,对特征量化模型进行训练,得到公共特征量化模型,其中,训练过程中,从所述多个源数据域的特征信息中分解出公共特征信息和域专有的特征信息,所述公共特征信息为所述多个源数据域共有的特征信息。2.如权利要求1所述的特征量化模型训练方法,其中,所述根据所有所述源数据域的特征信息和标注信息,对特征量化模型进行训练,得到公共特征量化模型包括:根据所有所述源数据域的特征信息和标注信息,对特征量化模型进行训练,得到公共特征量化模型和每一所述源数据域的域专有的特征量化模型。3.如权利要求2所述的特征量化模型训练方法,其中,采用深度神经网络算法对特征量化模型进行训练。4.如权利要求1或2所述的特征量化模型训练方法,其中,所述对特征量化模型进行训练包括:调整所述特征量化模型,使得对于所有所述源数据域,Ex(L(F0(X),Y))取最小值;其中,X为表示所有所述源数据域的特征信息,Y为所有所述源数据域的标注信息,F0表示公共特征量化模型,F0(X)表示特征信息X经过F0处理后得到的特征量化码,L(F0(X),Y)表示所述特征量化码与标注信息Y之间的损失函数,Ex(L(F0(X),Y))表示L函数针对特征信息X的数学期望。5.如权利要求4所述的特征量化模型训练方法,其中,所述对特征量化模型进行训练还包括:调整所述特征量化模型,使得对于任意所述源数据域k,Ex(L(φ(F0(x),F
k
(x)),y))取最小值,以及,对于任意所述源数据域k,Ex(L(φ(F0(x),F
k
(x)),y))<Ex(L(φ(F0(x),F
p
(x)),y)),其中,p不等于k;其中,x表示所述源数据域k的特征信息,y为所述源数据域k的标注信息,F0表示公共特征量化模型,F0(x)表示特征信息x经过F0处理后得到的特征量化码,F
k
表示所述源数据域k的域专有的特征量化模型,F
k
(x)表示特征信息x经过F
k
处理后得到的特征量化码,Fp表示所述源数据域p的域专有的特征量化模型,F
p
(x)表示特征信息x经过F
p
处理后得到的特征量化码,φ(F0(x),F
k
(x))表示对F0(x)和F
k
(x)进行融合处理,φ(F0(x),F
p
(x))表示对F0(x)和F
p
(x)进行融合处理,L(φ(F0(x),F
k
(x)),y)和L(φ(F0(x),F
p
(x)...

【专利技术属性】
技术研发人员:方奕庚穆亚东唐小军
申请(专利权)人:北京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1