一种数据流场景下的数据收集方法及装置制造方法及图纸

技术编号:38414246 阅读:15 留言:0更新日期:2023-08-07 11:18
本发明专利技术公开了一种数据流场景下的数据收集方法及装置,通过获取历史多维特征数据集中多维数据特征与标签的相关性数值,对多维数据特征进行排序,得到多维数据特征数据集;获取多个数据源的实时多维特征数据流,判断实时多维特征数据流中的待验证多维特征数据是否存在于累加器中;当待验证多维特征数据存在于累加器中时,基于A算法和实时多维特征数据流,计算多维数据特征数据集中每个第一多维数据特征对应的特征真实值,以及计算每个数据源的权重值;将特征真实值作为标签的特征数值,并根据权重值向每个数据源对应的运营商支付报酬;与现有技术相比,本发明专利技术的技术方案能实现从实时多维特征数据流中获取真实数据,并基于累加器实现数据的可验证。器实现数据的可验证。器实现数据的可验证。

【技术实现步骤摘要】
一种数据流场景下的数据收集方法及装置


[0001]本专利技术涉及数据收集的
,特别是涉及一种数据流场景下的数据收集方法及装置。

技术介绍

[0002][0003]基于隐私保护技术保护隐私数据时,数据服务提供商不能直接获得数据持有者提供的数据,容易导致不可信任的数据持有者在贡献数据价值的过程中可能会提供无价值、低质量或者虚假的数据,以谋取更大的利益;因此,如何在数据隐私保护下收集可验证的高质量数据是一个难题。
[0004]现有中普遍采用真值发现算法从多源未知数据提取更高质量数据的需求,但传统的真值发现算法对于多维度数据流还需适应特定场景做进一步的算法设计,而且,传统真值算法没有直接保护数据隐私,也没有提供数据的可验证性。

技术实现思路

[0005]本专利技术要解决的技术问题是:提供一种数据流场景下的数据收集方法及装置,实现从实时多维特征数据流中获取真实数据,并基于引进累加器实现数据的可验证。
[0006]为了解决上述技术问题,本专利技术提供了一种数据流场景下的数据收集方法,包括:
[0007]获取历史多维特征数据集中多维数据特征与标签的相关性数值,并根据所述相关性数值的高低,对所述多维数据特征进行排序,得到多维数据特征数据集;
[0008]获取多个数据源的实时多维特征数据流,判断所述实时多维特征数据流中的待验证多维特征数据是否存在于累加器中;
[0009]当所述待验证多维特征数据存在于所述累加器中时,基于A算法和所述实时多维特征数据流,计算所述多维数据特征数据集中每个第一多维数据特征对应的特征真实值,以及计算每个数据源的权重值;
[0010]将所述特征真实值作为所述第一多维数据特征对应的标签的特征数值,并根据所述权重值向每个数据源对应的运营商支付报酬。
[0011]在一种可能的实现方式中,对所述多维数据特征进行排序,得到多维数据特征数据集,具体包括:
[0012]对所述多维数据特征进行排序后,得到多维数据特征队列;
[0013]获取所述多维数据特征队列中的多维数据特征数量,将所述多维数据特征数量与预设多维数据特征数量阈值进行对比,若所述多维数据特征数量等于或少于所述预设多维数据特征数量阈值,则保留所述多维数据特征队列,并生成多维数据特征数据集,若所述多维数据特征数量大于所述预设多维数据特征数量阈值,则基于排列顺序,选取前预设多维数据特征数量个多维数据特征,生成多维数据特征数据集。
[0014]在一种可能的实现方式中,所述累加器的生成,通过多个运营商对第一累加器进
行初始化处理,且所述多个运营商对应的数据源在提供数据流的同时,计算所述数据流中每条数据对应的第一哈希值,将所述第一哈希值存储在初始化后的所述第一累加器中,生成第二累加器;并基于所述第一哈希值,计算每条数据对应的第一存在证明数据,并将所述第一存在证明数据存储在所述第二累加器中,得到累加器。
[0015]在一种可能的实现方式中,获取多个数据源的实时多维特征数据流,判断所述实时多维特征数据流中的待验证多维特征数据是否存在于累加器中,具体包括:
[0016]获取多个数据源的实时多维特征数据流,计算所述实时多维特征数据流中每条待验证多维特征数据对应的第二哈希值,并基于所述第二哈希值,计算所述每条待验证多维特征数据对应的第二存在证明数据;
[0017]遍历所述累加器中的所有第一存在证明数据,若所述所有第一存在证明数据中存在与所述第二存在数据相同的存在证明数据,则确定所述第二存在证明数据有效,且所述实时多维特征数据流中的待验证多维特征数据存在于累加器中。
[0018]在一种可能的实现方式中,基于A和所述实时多维特征数据流,计算所述多维数据特征数据集中每个第一多维数据特征对应的特征真实值,具体包括:
[0019]获取所有数据源对应的实时多维特征数据流,基于选取的所述多维数据特征数据集中的第一多维数据特征,对所述所有数据源设置预设权重值;
[0020]基于所述预设权重值,对所述所有待验证多维特征数据进行权值平均化处理,得到每个待验证多维特征数据对应的真实数据,并将所述真实数据作为所述多维数据特征数据集中每个第一多维数据特征对应的特征真实值。
[0021]在一种可能的实现方式中,基于A和所述实时多维特征数据流,计算每个数据源的权重值,具体包括:
[0022]获取每个数据源对应的实时多维特征数据流中的所有待验证多维特征数据,并获所有待验证多维特征数据对应的真实数据,计算所述待验证多维特征数据与所述真实数据之间的差距,根据所述差距,得到每个数据源对应的权重值。
[0023]本专利技术还提供了一种数据流场景下的数据收集装置,包括:多维数据特征获取模块、待验证多维特征数据判断模块、真实数据获取模块和报酬确定模块;
[0024]其中,所述多维数据特征获取模块,用于获取历史多维特征数据集中多维数据特征与标签的相关性数值,并根据所述相关性数值的高低,对所述多维数据特征进行排序,得到多维数据特征数据集;
[0025]所述待验证多维特征数据判断模块,用于获取多个数据源的实时多维特征数据流,判断所述实时多维特征数据流中的待验证多维特征数据是否存在于累加器中;
[0026]所述真实数据获取模块,用于当所述待验证多维特征数据存在于所述累加器中时,基于A和所述实时多维特征数据流,计算所述多维数据特征数据集中每个第一多维数据特征对应的特征真实值,以及计算每个数据源的权重值;
[0027]所述报酬确定模块,用于将所述特征真实值作为所述第一多维数据特征对应的标签的特征数值,并根据所述权重值向每个数据源对应的运营商支付报酬。
[0028]在一种可能的实现方式中,所述多维数据特征获取模块,用于对所述多维数据特征进行排序,得到多维数据特征数据集,具体包括:
[0029]对所述多维数据特征进行排序后,得到多维数据特征队列;
[0030]获取所述多维数据特征队列中的多维数据特征数量,将所述多维数据特征数量与预设多维数据特征数量阈值进行对比,若所述多维数据特征数量等于或少于所述预设多维数据特征数量阈值,则保留所述多维数据特征队列,并生成多维数据特征数据集,若所述多维数据特征数量大于所述预设多维数据特征数量阈值,则基于排列顺序,选取前预设多维数据特征数量个多维数据特征,生成多维数据特征数据集。
[0031]在一种可能的实现方式中,所述累加器的生成,通过多个运营商对第一累加器进行初始化处理,且所述多个运营商对应的数据源在提供数据流的同时,计算所述数据流中每条数据对应的第一哈希值,将所述第一哈希值存储在初始化后的所述第一累加器中,生成第二累加器;并基于所述第一哈希值,计算每条数据对应的第一存在证明数据,并将所述第一存在证明数据存储在所述第二累加器中,得到累加器。
[0032]在一种可能的实现方式中,所述待验证多维特征数据判断模块,用于获取多个数据源的实时多维特征数据流,判断所述实时多维特征数据流中的待验证多维特征数据是否存在于本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据流场景下的数据收集方法,其特征在于,包括:获取历史多维特征数据集中多维数据特征与标签的相关性数值,并根据所述相关性数值的高低,对所述多维数据特征进行排序,得到多维数据特征数据集;获取多个数据源的实时多维特征数据流,判断所述实时多维特征数据流中的待验证多维特征数据是否存在于累加器中;当所述待验证多维特征数据存在于所述累加器中时,基于A算法和所述实时多维特征数据流,计算所述多维数据特征数据集中每个第一多维数据特征对应的特征真实值,以及计算每个数据源的权重值;将所述特征真实值作为所述第一多维数据特征对应的标签的特征数值,并根据所述权重值向每个数据源对应的运营商支付报酬。2.如权利要求1所述的一种数据流场景下的数据收集方法,其特征在于,对所述多维数据特征进行排序,得到多维数据特征数据集,具体包括:对所述多维数据特征进行排序后,得到多维数据特征队列;获取所述多维数据特征队列中的多维数据特征数量,将所述多维数据特征数量与预设多维数据特征数量阈值进行对比,若所述多维数据特征数量等于或少于所述预设多维数据特征数量阈值,则保留所述多维数据特征队列,并生成多维数据特征数据集,若所述多维数据特征数量大于所述预设多维数据特征数量阈值,则基于排列顺序,选取前预设多维数据特征数量个多维数据特征,生成多维数据特征数据集。3.如权利要求1所述的一种数据流场景下的数据收集方法,其特征在于,所述累加器的生成,通过多个运营商对第一累加器进行初始化处理,且所述多个运营商对应的数据源在提供数据流的同时,计算所述数据流中每条数据对应的第一哈希值,将所述第一哈希值存储在初始化后的所述第一累加器中,生成第二累加器;并基于所述第一哈希值,计算每条数据对应的第一存在证明数据,并将所述第一存在证明数据存储在所述第二累加器中,得到累加器。4.如权利要求1所述的一种数据流场景下的数据收集方法,其特征在于,获取多个数据源的实时多维特征数据流,判断所述实时多维特征数据流中的待验证多维特征数据是否存在于累加器中,具体包括:获取多个数据源的实时多维特征数据流,计算所述实时多维特征数据流中每条待验证多维特征数据对应的第二哈希值,并基于所述第二哈希值,计算所述每条待验证多维特征数据对应的第二存在证明数据;遍历所述累加器中的所有第一存在证明数据,若所述所有第一存在证明数据中存在与所述第二存在数据相同的存在证明数据,则确定所述第二存在证明数据有效,且所述实时多维特征数据流中的待验证多维特征数据存在于累加器中。5.如权利要求1所述的一种数据流场景下的数据收集方法,其特征在于,基于A和所述实时多维特征数据流,计算所述多维数据特征数据集中每个第一多维数据特征对应的特征真实值,具体包括:获取所有数据源对应的实时多维特征数据流,基于选取的所述多维数据特征数据集中的第一多维数据特征,对所述所有数据...

【专利技术属性】
技术研发人员:黄文喜童瑶张昊天童画陈聪
申请(专利权)人:广州芳禾数据有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1