【技术实现步骤摘要】
基于人工智能的数据挖掘安全保护方法及系统
[0001]本专利技术涉及数据处理
,具体涉及基于人工智能的数据挖掘安全保护方法及系统
。
技术介绍
[0002]随着各种电子设备的频繁使用,大量个人
、
集体组织在生活或者工作中的数据经过所使用的电子设备不断地传输或者扩散
。
面对高速递增的数据,隐私安全保护的重要性日益突出,大数据背景下网络数据形成的分布式存储的大型数据库带有较多噪声
。
而数据挖掘就是从大量不完全的
、
有噪声的
、
模糊的
、
随机的实际应用数据中,提取隐含在其中的
、
人们事先不知道的
、
但又是潜在有用的信息和知识的过程,因此数据挖掘主要用于从包含丰富存储格式的大型数据库中挖掘出隐含有价值的信息
。
[0003]现阶段对于数据安全保护的数据挖掘主要集中在基于隐私保护的分类数据挖掘
、
基于隐私保护的关联规则挖掘
、
基于隐私保护的复杂类型数据挖掘等等,其中,
MASK
(
Mining Associations with Secrecy Konstraints
)算法
、Apriori
算法
、FP
‑
Growth
(
Frequent Pattern Growth
)算法
、
公匙加密
R
【技术保护点】
【技术特征摘要】
1.
基于人工智能的数据挖掘安全保护方法,其特征在于,该方法包括以下步骤:将商场采集周期内每天的消费数据转成十进制组成消费者数据列表;根据消费者数据列表中的各消费数据构建消费数据向量及消费属性关联图;根据不同消费单号的消费数据向量之间的关系得到各消费单号的评估权重;根据评估权重以及消费数据向量在任意两种消费属性上的消费数据构建不同消费数据向量任意两种消费属性的分布一致性;根据消费属性关联图中各节点的不同消费属性之间的分布一致性得到不同消费属性之间的消费喜好关联度;对消费数据向量聚类并采用
DPC
算法计算聚类簇中各消费数据向量的局部密度;对于聚类簇内各消费属性,根据消费属性对应取值的变异系数以及消费喜好关联度得到消费属性的簇内突出系数;根据簇内突出系数以及消费属性的消费数据得到聚类簇内各消费属性的偏离指数;根据消费数据向量局部密度及消费属性偏离指数得到消费数据向量的簇内边缘度;按照簇内边缘度从大到小取前
F
个消费数据向量作为聚类簇的簇内边缘点;根据聚类簇内所有簇内边缘点的簇内边缘度构建聚类簇的项集支持度阈值;采用
Apriori
算法并结合项集支持度阈值挖掘各聚类簇所有的频繁项集;将可信度大于可信度阈值的频繁项集的关联规则作为强关联规则;所有强关联规则作为商场消费者数据的数据挖掘结果
。2.
如权利要求1所述的基于人工智能的数据挖掘安全保护方法,其特征在于,所述根据消费者数据列表中的各消费数据构建消费数据向量及消费属性关联图,包括:所述消费者数据列表每列对应一个消费属性,每行为各消费者每次消费的数据,其中,所述消费属性包括物品名称
、
种类
、
单价
、
是否折扣
、
销售量以及金额;将消费者数据列表中每一行除物品名称外的其他消费属性的数据作为一个消费数据向量;每一个消费数据向量作为一个节点,将所有节点连线构成的无向图记为消费属性关联图
。3.
如权利要求2所述的基于人工智能的数据挖掘安全保护方法,其特征在于,所述根据不同消费单号的消费数据向量之间的关系得到各消费单号的评估权重,包括:将同一消费单号的各消费数据向量组成每个消费单号的消费数据矩阵,计算消费单号的消费数据矩阵与其他所有消费单号消费数据矩阵之间余弦相似度的和值,计算所有消费单号所述和值进行求和的结果,将所述和值与所述结果的比值作为对应消费单号的评估权重
。4.
如权利要求3所述的基于人工智能的数据挖掘安全保护方法,其特征在于,所述根据评估权重以及消费数据向量在任意两种消费属性上的消费数据构建不同消费数据向量任意两种消费属性的分布一致性,包括:获取各消费数据向量所在消费单号的评估权重,并在消费者数据列表中获取各消费属性的取值,消费数据向量
i、j
在消费属性
a、b
上的分布一致性表达式为:式中,
、
分别是消费数据向量
i、
消费数据向量
j
所在消费单号的评估权重,
、
分别是第
i
个消费数据向量
、
消费数据向量
j
在消费属性
a
的取值,
、
分别是消费数据向量
...
【专利技术属性】
技术研发人员:王龙生,张志强,吕吉凯,
申请(专利权)人:聊城金恒智慧城市运营有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。