基于人工智能的数据挖掘安全保护方法及系统技术方案

技术编号:39832696 阅读:9 留言:0更新日期:2023-12-29 16:15
本发明专利技术涉及数据处理技术领域,具体涉及基于人工智能的数据挖掘安全保护方法及系统,该方法包括:构建消费数据向量及消费属性关联图;根据不同消费单号的消费数据向量之间的关系得到各消费单号的评估权重;构建不同消费属性的分布一致性;构建消费喜好关联度;对消费数据向量聚类计算聚类簇中各消费数据向量的局部密度;计算消费属性的簇内突出系数及偏离指数;构建各消费数据向量的簇内边缘度并提取聚类簇的簇内边缘点;构建聚类簇的项集支持度阈值;采用

【技术实现步骤摘要】
基于人工智能的数据挖掘安全保护方法及系统


[0001]本专利技术涉及数据处理
,具体涉及基于人工智能的数据挖掘安全保护方法及系统


技术介绍

[0002]随着各种电子设备的频繁使用,大量个人

集体组织在生活或者工作中的数据经过所使用的电子设备不断地传输或者扩散

面对高速递增的数据,隐私安全保护的重要性日益突出,大数据背景下网络数据形成的分布式存储的大型数据库带有较多噪声

而数据挖掘就是从大量不完全的

有噪声的

模糊的

随机的实际应用数据中,提取隐含在其中的

人们事先不知道的

但又是潜在有用的信息和知识的过程,因此数据挖掘主要用于从包含丰富存储格式的大型数据库中挖掘出隐含有价值的信息

[0003]现阶段对于数据安全保护的数据挖掘主要集中在基于隐私保护的分类数据挖掘

基于隐私保护的关联规则挖掘

基于隐私保护的复杂类型数据挖掘等等,其中,
MASK

Mining Associations with Secrecy Konstraints
)算法
、Apriori
算法
、FP

Growth

Frequent Pattern Growth
)算法

公匙加密
RSA
算法是较为常用的数据处理算法;
MASK
算法由于存在数据扰乱的处理步骤,导致挖掘结果准确率较低;
Apriori
算法需要对数据进行大量的扫描,导致挖掘效率偏低;
FP

Growth
算法对数据集的类型有一定的要求,实现较为困难;而
RSA
算法的安全性依赖于密钥长度,但是密钥长度又限制了加密速度,不适合处理大文件


技术实现思路

[0004]为了解决上述技术问题,本专利技术的目的在于提供基于人工智能的数据挖掘安全保护方法及系统,所采用的技术方案具体如下:第一方面,本专利技术实施例提供了基于人工智能的数据挖掘安全保护方法,该方法包括以下步骤:将商场采集周期内每天的消费数据转成十进制组成消费者数据列表;根据消费者数据列表中的各消费数据构建消费数据向量及消费属性关联图;根据不同消费单号的消费数据向量之间的关系得到各消费单号的评估权重;根据评估权重以及消费数据向量在任意两种消费属性上的消费数据构建不同消费数据向量任意两种消费属性的分布一致性;根据消费属性关联图中各节点的不同消费属性之间的分布一致性得到不同消费属性之间的消费喜好关联度;对消费数据向量聚类并采用
DPC
算法计算聚类簇中各消费数据向量的局部密度;对于聚类簇内各消费属性,根据消费属性对应取值的变异系数以及消费喜好关联度得到消费属性的簇内突出系数;根据簇内突出系数以及消费属性的消费数据得到聚类簇内各消费属性的偏离指数;根据消费数据向量局部密度及消费属性偏离指数得到消费数据向量的簇内边缘度;按照簇内边缘度从大到小取前
F
个消费数据向量作为聚类簇的簇内边
缘点;根据聚类簇内所有簇内边缘点的簇内边缘度构建聚类簇的项集支持度阈值;采用
Apriori
算法并结合项集支持度阈值挖掘各聚类簇所有的频繁项集;将可信度大于可信度阈值的频繁项集的关联规则作为强关联规则;所有强关联规则作为商场消费者数据的数据挖掘结果

[0005]进一步地,所述根据消费者数据列表中的各消费数据构建消费数据向量及消费属性关联图,包括:所述消费者数据列表每列对应一个消费属性,每行为各消费者每次消费的数据,其中,所述消费属性包括物品名称

种类

单价

是否折扣

销售量以及金额;将消费者数据列表中每一行除物品名称外的其他消费属性的数据作为一个消费数据向量;每一个消费数据向量作为一个节点,将所有节点连线构成的无向图记为消费属性关联图

[0006]进一步地,所述根据不同消费单号的消费数据向量之间的关系得到各消费单号的评估权重,包括:将同一消费单号的各消费数据向量组成每个消费单号的消费数据矩阵,计算消费单号的消费数据矩阵与其他所有消费单号消费数据矩阵之间余弦相似度的和值,计算所有消费单号所述和值进行求和的结果,将所述和值与所述结果的比值作为对应消费单号的评估权重

[0007]进一步地,所述根据评估权重以及消费数据向量在任意两种消费属性上的消费数据构建不同消费数据向量任意两种消费属性的分布一致性,包括:获取各消费数据向量所在消费单号的评估权重,并在消费者数据列表中获取各消费属性的取值,消费数据向量
i、j
在消费属性
a、b
上的分布一致性表达式为:式中,

分别是消费数据向量
i、
消费数据向量
j
所在消费单号的评估权重,

分别是第
i
个消费数据向量

消费数据向量
j
在消费属性
a
的取值,

分别是消费数据向量
i、
消费数据向量
j
在消费属性
b
的取值

[0008]进一步地,所述消费喜好关联度包括:采用深度优先搜索算法获取图中每个节点的结构近邻节点集合;将消费数据向量与其结构近邻节点集合中所有节点消费数据向量任意两种消费属性的分布一致性和值作为所述任意两种消费属性之间的消费喜好关联度

[0009]进一步地,所述根据消费属性对应取值的变异系数以及消费喜好关联度得到消费属性的簇内突出系数,包括:计算聚类簇
k
内所有消费数据向量在消费属性
a
上对应取值的变异系数,获取聚类簇
k
内所有消费属性之间消费喜好关联度的均值;计算聚类簇
k
内消费属性
a
与其他各消费属性之间的消费喜好关联度减去所述均值的差值绝对值的和值,将所述和值作为以自然常数为底数的指数函数的指数,将所述指数函数的计算结果与所述变异系数的倒数的乘积作为聚类簇
k
内消费属性
a
的簇内突出系数

[0010]进一步地,所述根据簇内突出系数以及消费属性的消费数据得到聚类簇内各消费属性的偏离指数,包括:
获取以聚类簇
k
内消费数据向量
i
为中心以
DPC
算法的截断距离为半径的局部区域,计算聚类簇
k
内消费属性
a
的取值与局部区域内所有消费数据向量的消费属性
...

【技术保护点】

【技术特征摘要】
1.
基于人工智能的数据挖掘安全保护方法,其特征在于,该方法包括以下步骤:将商场采集周期内每天的消费数据转成十进制组成消费者数据列表;根据消费者数据列表中的各消费数据构建消费数据向量及消费属性关联图;根据不同消费单号的消费数据向量之间的关系得到各消费单号的评估权重;根据评估权重以及消费数据向量在任意两种消费属性上的消费数据构建不同消费数据向量任意两种消费属性的分布一致性;根据消费属性关联图中各节点的不同消费属性之间的分布一致性得到不同消费属性之间的消费喜好关联度;对消费数据向量聚类并采用
DPC
算法计算聚类簇中各消费数据向量的局部密度;对于聚类簇内各消费属性,根据消费属性对应取值的变异系数以及消费喜好关联度得到消费属性的簇内突出系数;根据簇内突出系数以及消费属性的消费数据得到聚类簇内各消费属性的偏离指数;根据消费数据向量局部密度及消费属性偏离指数得到消费数据向量的簇内边缘度;按照簇内边缘度从大到小取前
F
个消费数据向量作为聚类簇的簇内边缘点;根据聚类簇内所有簇内边缘点的簇内边缘度构建聚类簇的项集支持度阈值;采用
Apriori
算法并结合项集支持度阈值挖掘各聚类簇所有的频繁项集;将可信度大于可信度阈值的频繁项集的关联规则作为强关联规则;所有强关联规则作为商场消费者数据的数据挖掘结果
。2.
如权利要求1所述的基于人工智能的数据挖掘安全保护方法,其特征在于,所述根据消费者数据列表中的各消费数据构建消费数据向量及消费属性关联图,包括:所述消费者数据列表每列对应一个消费属性,每行为各消费者每次消费的数据,其中,所述消费属性包括物品名称

种类

单价

是否折扣

销售量以及金额;将消费者数据列表中每一行除物品名称外的其他消费属性的数据作为一个消费数据向量;每一个消费数据向量作为一个节点,将所有节点连线构成的无向图记为消费属性关联图
。3.
如权利要求2所述的基于人工智能的数据挖掘安全保护方法,其特征在于,所述根据不同消费单号的消费数据向量之间的关系得到各消费单号的评估权重,包括:将同一消费单号的各消费数据向量组成每个消费单号的消费数据矩阵,计算消费单号的消费数据矩阵与其他所有消费单号消费数据矩阵之间余弦相似度的和值,计算所有消费单号所述和值进行求和的结果,将所述和值与所述结果的比值作为对应消费单号的评估权重
。4.
如权利要求3所述的基于人工智能的数据挖掘安全保护方法,其特征在于,所述根据评估权重以及消费数据向量在任意两种消费属性上的消费数据构建不同消费数据向量任意两种消费属性的分布一致性,包括:获取各消费数据向量所在消费单号的评估权重,并在消费者数据列表中获取各消费属性的取值,消费数据向量
i、j
在消费属性
a、b
上的分布一致性表达式为:式中,

分别是消费数据向量
i、
消费数据向量
j
所在消费单号的评估权重,

分别是第
i
个消费数据向量

消费数据向量
j
在消费属性
a
的取值,

分别是消费数据向量
...

【专利技术属性】
技术研发人员:王龙生张志强吕吉凯
申请(专利权)人:聊城金恒智慧城市运营有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1