本发明专利技术涉及一种用于使数据库(12)匿名化的方法,该数据库(12)包括关于多个个人的时空数据,该方法包括至少以下步骤:聚合数据,以便定义属于关注类别并在给定时间间隔内存在于关注地点的个人的数量的至少一个代表性存在分布;将该存在分布投影在预定义函数基础中,以便将该存在分布与该基础中的至少一个系数相关联;将数字噪声添加到与存在分布相关联的该系数或每个系数以便获得至少一个噪声系数;以及根据该噪声系数或每个噪声系数重建匿名化分布。化分布。化分布。
【技术实现步骤摘要】
【国外来华专利技术】用于匿名化数据库的方法和相关联的计算机程序产品
[0001]本专利技术涉及一种用于基于差分隐私的假设来使数据库匿名化的方法。
[0002]本专利技术还涉及一种包括软件指令的计算机程序产品,所述软件指令在由计算机执行时实现这样的匿名化方法。
[0003]特别地,该数据库包括关于多个个人的时空数据。
[0004]这些时空数据是例如包括来自交通网络(特别是铁路)中用户的验证时间和位置的售检票数据。这样的数据例如从由智能卡构成的订购卡收集,所述智能卡与固定验证终端进行通信,特别是通过RFID(射频识别)或NFC(近场通信)技术进行通信。
[0005]这样的数据允许铁路网络运营商在时间上和空间上跟踪用户,以便优化铁路车辆的交通。
[0006]然而,这些数据是需要数据保护的用户的私人数据。尤其,重要的是不能从所收集的数据中识别出个人,以了解例如这个人的日常行程。
[0007]为此目的,已知如何大规模地聚合这种聚合数据以便得到这些数据的匿名。例如,将仅提供根据一天中的时间通过某个站点的乘客的每日数量或整个交通网络上的客流量的总体变化。
[0008]这导致数据库中信息的显著缺失,并且因此限制了这种(例如用于交通网络的优化的)数据的使用。
[0009]因此,需要一种用于对包含时空数据的数据库进行匿名化的方法,实现信息缺失更少的同时,确保与时空数据相关联的个人的匿名性。
[0010]为此目的,本专利技术的主题是一种用于使数据库匿名化的方法,该数据库包括关于多个个人的时空数据,该方法包括至少以下步骤:
[0011]‑
聚合数据,以便定义属于关注类别并且在给定时间间隔内存在于关注地点的个人的数量的至少一个代表性存在分布;
[0012]‑
将该存在分布投影在预定义函数基础中,以便将该存在分布与所述基础中的至少一个系数相关联;
[0013]‑
将数字噪声添加到与该存在分布相关联的该系数或每个系数以便获得至少一个噪声系数;以及
[0014]‑
根据该噪声系数或每个噪声系数重建匿名化分布。
[0015]根据本专利技术的其他有利方面,该匿名化方法包括单独地或根据所有技术上可能的组合采用的以下特性中的一个或多个:
[0016]该方法还包括在该存在分布和该匿名化分布之间的比较步骤,其基于用于两个分布之间的匹配的至少一个评估标准;
[0017]基于至少两个评估标准来执行该比较步骤,其中所述至少两个评估标准具有至少一个绝对评估标准和至少一个相对评估标准;
[0018]该方法还包括通过计算能够从由匿名化分布给出的多个个人中识别出个人的概率来检查匿名函数的匿名化的步骤;
[0019]该方法包括当满足以下条件中的至少一个条件时所述方法步骤的重复:不满足至
少一个评估标准,以及能够识别出个人的概率高于预定义阈值;
[0020]‑
该方法还包括使关于多个个人的匿名化分布的数据可用的步骤;
[0021]‑
该存在分布的投影步骤通过离散傅里叶变换或离散余弦变换来执行;
[0022]‑
该关注地点是公共交通网络的站点;以及
[0023]‑
该关注类别是每个个人的社会职业群组。
[0024]本专利技术还涉及包括软件指令的计算机程序产品,所述软件指令在由计算机执行时实现如上所述的匿名化方法。
[0025]在阅读以下描述时将展现本专利技术的特征和优点,仅作为非限制性示例给出,并且参考附图,其中:
[0026]图1是用于实现根据本专利技术的匿名化方法的电子单元的示意图;以及
[0027]图2是根据本专利技术的匿名化方法的组织图。
[0028]在图1中示出了电子单元10。电子单元10包括至少一个数据库12、一个预处理模块14、一个处理模块16和一个后处理模块18。
[0029]数据库12可以存储多个数据。每个数据是关于个人的时空数据。时空数据是关于个人在给定时间的地理位置的数据。
[0030]数据库12包括例如包含来自交通网络(特别是铁路)中用户的验证时间和位置的售检票数据。可替代地,数据库12包括例如包含公司建筑中的员工或访客的验证时间和验证地点的数据。
[0031]可替代地,数据库12在电子单元10的外部。
[0032]如图1中所示,预处理模块14被配置为从数据库12接收数据,处理所述数据以便获得至少一个数据分布(data distribution),如稍后将说明的,并且将该分布或每个分布传输到处理模块16。
[0033]处理模块16被配置为从预处理模块14接收分布或每个分布,处理这些分布以便获得至少一个匿名化分布,这也将在后面说明,并且将该匿名化分布或每个匿名化分布发送到后处理模块18。
[0034]后处理模块18被配置为从处理模块16接收该匿名化分布或每个匿名化分布,并且处理所述匿名化分布,这也将在后面说明,并且将所述数据发送到外部数据库20。
[0035]根据实施例的示例,预处理模块14、处理模块16和后处理模块18各自以独立计算机的形式存在,该独立计算机还包括至少一个处理器和一个存储器。作为变型例或额外的,上述模块至少部分地是可编程逻辑电路(如FPGA(现场可编程门阵列))和/或存储在计算机的存储器中并可由计算机处理器执行的软件的形式。本领域技术人员将理解,预处理模块14、处理模块16和后处理模块18以一个单个计算机的形式作为变型例存在。
[0036]现在将参考图2说明匿名化方法,图2示出了该方法的步骤的组织图。
[0037]最初,数据库12包括事先收集的并且关于例如交通网络中多个个人的时空数据。
[0038]该匿名化方法包括来自数据库12的数据的初始聚合步骤100。
[0039]特别地,预处理模块14从数据库12接收数据并处理所述数据以便定义至少一个存在分布(presence distribution)。
[0040]分布是指将给定事件与给定事件的发生频率相关联的统计分布。分布的示例给出了每半小时已经通过某个站点的用户的数量,或者在定义的时间间隙期间已经处于包括多
个站点的城市的特定区域中的学生的数量。
[0041]因此,存在分布表示属于关注类别并且在给定的时间间隔期间存在于关注地点的个人的数量。
[0042]关注类别有利地是每个个人的社会职业群组。例如,社会职业群组是根据由法国国家经济统计研究所(INSEE)或由欧洲社会经济分类定义的术语来定义的,欧洲社会经济分类对各种职业进行了分类。因此,可以将个人聚合成诸如学生、待业人员、高管、工人等的类别。
[0043]在变型例中,关注类别是例如个人的年龄。
[0044]在另一变型例中,关注类别定义了使用交通网络的个人是本地人还是游客。
[0045]在又一变型例中,关注类别定义了网络用户的住所(例如,部门)的地理区域。
[0046]应当理解,在变型例中,可以不考虑关注类别,然后对整个群体执本文档来自技高网...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种用于使数据库(12)匿名化的方法,所述数据库(12)包括关于多个个人的时空数据,所述方法包括至少以下步骤:
‑
聚合(100)数据,用于定义属于关注类别并且在给定时间间隔内存在于关注地点的个人的数量的至少一个代表性存在分布;
‑
将所述存在分布投影(110)到预定义函数基础上,以便将所述存在分布与所述基础中的至少一个系数相关联;
‑
将数字噪声添加(120)到与所述存在分布相关联的所述系数或每个所述系数以便获得至少一个噪声系数;以及
‑
根据所述噪声系数或每个噪声系数重建(130)匿名化分布。2.根据权利要求1所述的匿名化方法,还包括步骤(140),所述步骤(140)根据用于评估所述两个分布之间的匹配的至少一个标准,在所述存在分布和所述匿名化分布之间进行比较。3.根据权利要求2所述的匿名化方法,其中,基于至少两个评估标准来执行所述比较步骤(140),所述至少两个评估标准包括至少一个绝对标准和至少一个相对评估标准...
【专利技术属性】
技术研发人员:樊尚,
申请(专利权)人:泰勒斯公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。