匿名化装置、匿名化方法、程序制造方法及图纸

技术编号:30296888 阅读:33 留言:0更新日期:2021-10-09 22:22
提供不损害数据的有用性地进行匿名化的技术。包括:重复排除部,根据M

【技术实现步骤摘要】
【国外来华专利技术】匿名化装置、匿名化方法、程序


[0001]本专利技术涉及匿名化(anonymizing)技术。

技术介绍

[0002]近年来,在数据挖掘中能够在保护隐私的同时得到结果的、被称为隐私保护数据挖掘的技术受到关注。作为这样的技术,有非专利文献1中记载的k

匿名化或非专利文献2中记载的Pk

匿名化。
[0003]这些匿名化技术的处理对象是图1所示的表格。这里,表格是指,对于M(M是2以上的整数)个属性,包含N(N是1以上的整数)个作为其值的组的记录(record)的数据。另外,将记录称为行,将某属性(例如姓名)的值的组称为列。例如,图1的表的第1行是(A先生,男,30多岁,便利店,150),第1列是(A先生、C先生、E女士、A先生、B女士、D先生、E女士)。另外,将表格的大小表示为M
×
N。例如,图1的表格是5
×
7的表格(M=5、N=7)。将表格中所包含的属性值被称为表格的元素。
[0004]将在非专利文献1或非专利文献2中记载的匿名化技术作为匿名对象的属性被称为主属性,而其他属性、即匿名化技术不作为匿名化对象的属性称为历史属性。另外,将针对某个主属性的属性值的组、即列进行删除的行为称为属性删除。属性删除是匿名化技术的一例。
[0005]现有技术文献
[0006]非专利文献
[0007]非专利文献1:Latanya Sweeney,“k

anonymity:a model for protecting privacy”,International Journal of Uncertainty,FuzzinesSand Knowledge

Based Systems,Vol.10,Issue 5,October 2002.
[0008]非专利文献2:五十岚大,千田浩司,高桥克巳,“对k

匿名性的概率指标的扩展及其应用例(k

匿名性

確率的指標
への
拡張
とその
適用例)”,电脑安全会议(
コンピュータセキュリティシンポジウム
)2009(CSS2009),pp.1

6,2009年10月.

技术实现思路

[0009]专利技术要解决的课题
[0010]在非专利文献1或非专利文献2记载的匿名化技术中,将由主属性的值的组和历史属性的值的组一一对应的特殊的记录构成的表格作为对象进行匿名化处理,保护数据。因此,例如,对于图1的表格,如果想要将主属性设为姓名、性别、年龄段这3个属性,将历史属性设为购买店铺、购买金额这2个属性,使用k

匿名化来进行匿名化,则不能直接进行应用。作为解决该问题的方法,以下说明分割表格进行匿名化的方法。
[0011]考虑着眼于某一个历史属性,按每个该值分割表格。如果着眼于购买店铺,则图1能够分割为图2所示的两个表格(即,表示便利店中的购买历史的表格和表示超市中的购买历史的表格)。图2的2个表格与图1的表格等价,图2的2个表格与图1的表格表示的信息没有
差别。这样分割图1的表格而得到的图2的2个表格都是主属性的值的组和历史属性的值的组一一对应的表格,但如果对姓名进行属性删除,设k=3而以性别、年龄段进行k

匿名化,则由于哪个表格都不包含3个以上的主属性的值的组为相同的记录,所以能够得到图3所示的所有记录被删除了的2个表格。这里,阴影部分表示被匿名化的元素。其结果,通过将图1的表格匿名化所得到的表格是如图4的表格所示的所有记录被删除了的表格。
[0012]在这样着眼于一个历史属性、按每个该值分割表格而对各个表格进行匿名化的方法中,由于一般分割而得到的表格中所包含的记录的数量比原来的表格中所包含的记录的数量少,所以被删除的记录的数量会增多,其结果是数据(图1的表格)的有用性受损。
[0013]另外,作为另一个例子,如果将姓名进行属性删除,设k=2而按照性别、年龄段进行k

匿名化,则如图5所示,对于表示便利店中的购买历史的表格,得到一条记录被删除了的表格,对于表示超市中的购买历史的表格,得到记录没有被删除的表格。其结果,如图6的表格所示,通过将图1的表格进行匿名化得到的表格,是一条记录被删除了的表格。观察图6的表格可知,E女士在超市中的购买历史的数据在匿名化后仍残留,另一方面,便利店中的购买历史的数据被删除,与E女士相关的数据的组合关系被破坏。
[0014]在这样着眼于一个历史属性,按其每个值分割表格而对各个表格进行匿名化的方法中,由于数据的组合关系被破坏,其结果也是数据(图1的表格)的有用性受损。
[0015]因此,本专利技术的目的在于提供一种不损害数据的有用性而进行匿名化的技术。
[0016]用于解决课题的手段
[0017]本专利技术的一方式的匿名化装置,包括:重复排除部,根据M
×
N的匿名化对象表格,生成包含p个主属性的值的组相互不同的、L个所述匿名化对象表格的记录的M
×
L的部分表格;匿名化部,根据所述部分表格生成将p个主属性作为对象而对所述部分表格进行了匿名化的M
×
L的匿名化完成部分表格;以及重复还原部,根据所述匿名化对象表格和所述匿名化完成部分表格,生成将p个主属性作为对象而对所述匿名化对象表格进行了匿名化的M
×
N的匿名化完成表格,其中,将M设为表示属性的数量的2以上的整数,将N设为表示记录的数量的1以上的整数,将p设为表示主属性的数量的1以上M以下的整数,将L设为表示相互不同的p个主属性的值的组的数量的1以上N以下的整数。
[0018]专利技术的效果
[0019]根据本专利技术,能够不损害数据的有用性而进行匿名化。
附图说明
[0020]图1是表示匿名化对象表格的一例的图。
[0021]图2是说明分割表格并进行匿名化的方法的图。
[0022]图3是说明分割表格并进行匿名化的方法的图。
[0023]图4是说明分割表格并进行匿名化的方法的图。
[0024]图5是说明分割表格并进行匿名化的方法的图。
[0025]图6是说明分割表格并进行匿名化的方法的图。
[0026]图7是表示匿名化装置100的结构的一例的框图。
[0027]图8是表示匿名化装置100的动作的一例的流程图。
[0028]图9是表示重复排除部110的结构的一例的框图。
[0029]图10是表示重复排除部110的动作的一例的流程图。
[0030]图11是表示匿名化对象表格的一例的图。
[0031]图12是表示在编码完成表格的生成过程中得到的表格的一例的图。
[0032]图13是表示编码完成表格的一例的图。
[0033]图14是表示在重复记录编号表格的生成过程中得到本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种匿名化装置,包括:重复排除部,根据M
×
N的匿名化对象表格,生成包含p个主属性的值的组相互不同的、L个所述匿名化对象表格的记录的M
×
L的部分表格;匿名化部,根据所述部分表格生成将p个主属性作为对象而对所述部分表格进行了匿名化的M
×
L的匿名化完成部分表格;以及重复还原部,根据所述匿名化对象表格和所述匿名化完成部分表格,生成将p个主属性作为对象而对所述匿名化对象表格进行了匿名化的M
×
N的匿名化完成表格,其中,将M设为表示属性的数量的2以上的整数,将N设为表示记录的数量的1以上的整数,将p设为表示主属性的数量的1以上M以下的整数,将L设为表示相互不同的p个主属性的值的组的数量的1以上N以下的整数。2.根据权利要求1所述的匿名化装置,其中,将记录编号设为对包含在所述匿名化对象表格中的记录进行识别的编号,所述重复排除部生成将p个主属性的值的组为相同的所述匿名对象表格的记录的记录编号的集合、与作为该集合的要素的键值的值的组作为记录的2

【专利技术属性】
技术研发人员:石仓禅长谷川聪高桥诚治角田进
申请(专利权)人:日本电信电话株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1