数据筛选方法、装置、设备和存储介质制造方法及图纸

技术编号:34165386 阅读:105 留言:0更新日期:2022-07-17 09:26
本申请实施例提供了一种数据筛选方法、装置、设备和存储介质,以对数据进行筛选。对源数据和目标数据进行特征解耦,确定源数据的特征和目标数据的特征;依据所述源数据的特征和目标数据的特征确定目标数据的筛选条件;基于所述筛选条件对所述目标数据进行筛选,确定筛选的目标数据。对源数据和目标数据进行特征解耦,得到源数据的特征和目标数据的特征,然后以源数据对应特征为基准,在源数据的基础上对目标数据进行筛选,得到更加符合后续处理需求的目标数据,所筛选的目标数据能够在源数据的基础上保留差异的特征,为后续的处理提供更加多样的数据基础。多样的数据基础。多样的数据基础。

【技术实现步骤摘要】
数据筛选方法、装置、设备和存储介质


[0001]本申请涉及计算机
,特别是涉及一种数据筛选方法和装置、一种电子设备和一种存储介质。

技术介绍

[0002]在进行数据处理的过程中,会由于各种原因而需要生成一些数据,这些生成的数据是基于原始数据的特征生成的,例如基于一些原始图像生成一些新的图像,可使用新的图像数据扩充图像相关模型的训练数据等。
[0003]但是,而有些生成的数据可能会存在各种问题,而导致数据不适于后续的处理过程,例如数据中的特征与处理要求差异较大,会影响处理质量等。

技术实现思路

[0004]本申请实施例提供了一种数据筛选方法,以对数据进行筛选。
[0005]相应的,本申请实施例还提供了一种数据筛选装置、一种电子设备和一种存储介质,用以保证上述方法的实现及应用。
[0006]为了解决上述问题,本申请实施例公开了一种数据筛选方法,所述方法包括:对源数据和目标数据进行特征解耦,确定源数据的特征和目标数据的特征;依据所述源数据的特征和目标数据的特征确定目标数据的筛选条件;基于所述筛选条件对所述目标数据进行筛选,确定筛选的目标数据。
[0007]本申请实施例还公开了一种数据筛选方法,包括:对源图像数据和目标图像数据进行特征解耦,确定源图像数据的特征和目标图像数据的特征;依据所述源图像数据的特征和目标图像数据的特征确定目标图像数据的筛选条件。基于所述筛选条件对所述目标图像数据进行筛选,确定筛选的目标图像数据。
[0008]本申请实施例还公开了一种数据筛选方法,包括:获取无人售货系统对应的源数据和目标数据;对所述源数据和目标数据进行特征解耦,确定源数据的特征和目标数据的特征;依据所述源数据的特征和目标数据的特征确定目标数据的筛选条件;基于所述筛选条件对所述目标数据进行筛选,确定筛选的目标数据。
[0009]本申请实施例还公开了一种数据处理装置,其特征在于,所述装置包括:特征解耦模块,用于对源数据和目标数据进行特征解耦,确定源数据的特征和目标数据的特征;条件确定模块,用于依据所述源数据的特征和目标数据的特征确定目标数据的筛选条件;筛选模块,用于基于所述筛选条件对所述目标数据进行筛选,确定筛选的目标数据。
[0010]本申请实施例还公开了一种电子设备,包括:处理器;和存储器,其上存储有可执行代码,当所述可执行代码被执行时,使得所述处理器执行如本申请实施例中一个或多个所述的方法。
[0011]本申请实施例还公开了一个或多个机器可读介质,其上存储有可执行代码,当所述可执行代码被执行时,使得处理器执行如本申请实施例中一个或多个所述的方法。
[0012]与现有技术相比,本申请实施例包括以下优点:
[0013]在本申请实施例中,对源数据和目标数据进行特征解耦,得到源数据的特征和目标数据的特征,然后以源数据对应特征为基准,在源数据的基础上对目标数据进行筛选,得到更加符合后续处理需求的目标数据,所筛选的目标数据能够在源数据的基础上保留差异的特征,为后续的处理提供更加多样的数据基础。
附图说明
[0014]图1是本申请实施例的一种数据筛选示例的示意图;
[0015]图2是本申请实施例的一种用户端和服务端的交互示意图;
[0016]图3是本申请实施例的另一种数据筛选示例的示意图;
[0017]图4是本申请的一种数据筛选方法实施例的步骤流程图;
[0018]图5是本申请的一种图像数据筛选方法实施例的步骤流程图;
[0019]图6是本申请的另一种图像数据筛选方法实施例的步骤流程图;
[0020]图7是本申请的另一种数据筛选方法实施例的步骤流程图;
[0021]图8是本申请实施例的一种数据筛选服务方法的步骤流程图;
[0022]图9是本申请的一种数据筛选装置实施例的结构框图;
[0023]图10是本申请一实施例提供的装置的结构示意图。
具体实施方式
[0024]为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
[0025]本申请实施例中可应用于数据处理领域,在数据处理领域,有时需要基于已有的原始数据来生成一些数据,从而基于原始数据和生成的数据进行数据的增强以及后续的训练、处理等过程。例如在行人重识别(Person Re

Identification,ReID)场景中,可以基于原始图像生成一些图像来进行数据增强。其中,ReID也称行人再识别,是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。在跨域ReID场景中,可以将属于图像域A的行人图像,迁移到图像域B中,同时保持行人ID的一致性。例如将行人甲在白天室外拍摄的图像,通过处理,生成同样是此人甲在某个大商场室内的图像,或1号摄像头拍摄的行人甲的图像,迁移生成2号摄像头拍摄的甲图像等。基于原始数据生成数据,可以作为数据增强技术的一种手段,后续生成的数据可以与原始数据混合在一起进行数据处理,然而生成的数据有些可能是不适合后续处理中使用的,因此需要对数据进行筛选,提高后续处理的质量。
[0026]本申请实施例可应用于跨数据域的场景中,在将源数据从源数据域迁移到目标数据域的过程中,也可基于源数据生成在目标数据域的目标数据。其中,数据域可以理解为具有某类特征的数据构成的数据集,该数据域中的数据具有相同的特征。例如针对同一数据类型的数据,如针对图像数据,可基于时间段、采集设备或地域等确定数据是否属于同一数据域,又如针对多种类型的数据,可基于数据来源确定是否为同一数据域,如同一类型网站的数据属于同一数据域等,具体可基于应用场景来区分不同的数据域。
[0027]以跨域行人重识别场景为例,其不同的数据域有多种划分方式,包括不同时间、不
同地理位置等。例如同一摄像头在不同季节采集的视频数据,属于不同数据域,又如不同城市等地理位置采集的视频数据也可属于不同的数据域,又如对于室内(如商场、办公楼等),和室外(如马路等)也可属于不同的数据域。行人重识别指的是可从图像、视频等数据中识别出行人(或称用户),并且可在不同的图像或视频中识别行人是否为同一人。
[0028]以网站数据分析场景为例,电子商务网站、社交网站、生活分享网站、视频网站等网站的数据可为不同数据域的数据。一种场景下,可将社交网站、生活分享网站中用户对一些商品数据的评价迁移到电子商务场景中,还可基于该源评价数据生成一些目标评价数据,例如组合商品对象在不同功能、价格以及拍摄的图像等构成目标评价数据。
[0029]还可应用于其他场景中,如物流场景、金融场景等,可结合该场景下具体的数据确定所需生成的数据,并结合源数据对商城的数据进行筛选,然后可执行后续的处理,如无监督学习训练,又如其他数据分析过程等
[0030]本申请实施例的源数据和目标数据可为各种类型的数据,数据类型可包括各种类型,如图像、文本、音频等各种类型的数据。各类型的数据均可基于源数据生成目标本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据筛选方法,其特征在于,所述方法包括:对源数据和目标数据进行特征解耦,确定源数据的特征和目标数据的特征;依据所述源数据的特征和目标数据的特征确定目标数据的筛选条件;基于所述筛选条件对所述目标数据进行筛选,确定筛选的目标数据。2.根据权利要求1所述方法,其特征在于,所述对源数据和目标数据进行特征解耦,确定源数据的特征和目标数据的特征,包括:获取源数据集合和目标数据集合;对所述源数据集合中的源数据进行特征解耦,确定源数据的至少一种特征;对所述目标数据集合中的目标数据进行特征解耦,确定目标数据的至少一种特征。3.根据权利要求2所述方法,其特征在于,所述依据所述源数据的特征和目标数据的特征确定目标数据的筛选条件,包括:依据所述源数据的特征和目标数据的特征构成特征空间;在所述特征空间中分析源数据对应特征的特征分布信息,依据所述特征分布信息确定目标数据的筛选条件。4.根据权利要求3所述方法,其特征在于,在所述特征空间中分析源数据对应特征的特征分布信息,包括:对所述特征空间中源数据的特征进行分析,确定特征中心和密度信息。5.根据权利要求4所述方法,其特征在于,所述依据所述特征分布信息确定目标数据的筛选条件,包括:依据所述特征中心和密度信息确定特征区域;基于所述特征区域确定目标数据的筛选条件。6.根据权利要求5所述方法,其特征在于,所述特征包括第一特征和第二特征;依据所述源数据的特征和目标数据的特征构成特征空间,包括:依据所述源数据的第一特征和目标数据的第一特征构成第一特征空间;依据所述源数据的第二特征和目标数据的第二特征构成第二特征空间。7.根据权利要求6所述方法,其特征在于,所述第一特征空间对应第一特征区域,所述第二特征空间对应第二特征区域;所述基于所述特征区域确定目标数据的筛选条件,包括:基于第一特征区域,确定第一筛选条件为目标数据的第一特征在所述第一特征区域内;基于第二特征区域,确定第二筛选条件为目标数据的第二特征在所述第二特征区域外。8.根据权利要求7所述方法,其特征在于,所述基于所述筛选条件对所述目标数据进行筛选,确定筛选的目标数据,包括:筛选第一特征符合第一筛选条件且第二特征符合第二筛选条件的目标数据。9.根据权利要求8所述方法,其特征在于,所述筛选第一特征符合第一筛选条件且第二特征符合第二筛选条件的目标数据,包括:在所述第一特征空间中,将所述目标数据的第一特征与所述第一特征区域进行比较;在所述第二特征空间中,将所述目标数据的第二特征与所述第二特征区域进行比较;确定第一特征在所述第一特征区域内,且第二特征在所述第二特征区域外的目标数
据。10.根据权利要求1

9任一所述的方法,其特征在于,所述对源数据和目标数据进行特征解耦之前,还包括:从用户端获取源数据和目标数据。11.根据权利要求10所述的方法,其特征在于,还包括:依据所述筛选的目标数据生...

【专利技术属性】
技术研发人员:姜奕祺陈威华史晓宇王帆李昊
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1