可疑数据识别方法、装置、电子设备、介质和计算机程序制造方法及图纸

技术编号:31681584 阅读:14 留言:0更新日期:2022-01-01 10:27
本公开提供了一种基于知识图谱和标签传播的可疑数据识别方法、可疑数据识别装置、电子设备、计算机可读存储介质和计算机程序。可疑数据识别方法和装置可用于人工智能技术领域。基于知识图谱和标签传播的可疑数据识别方法包括:获取交易表;确定可疑客户标签表;根据交易表和可疑客户标签表建立知识图谱;根据知识图谱提取第一连通子图列表;针对第一连通子图列表中节点数量大于等于第一阈值的第一连通子图,根据节点属性计算第一连通子图中每个节点的点特征值,根据边属性计算第一连通子图中每个边的边特征值;根据标签号、点特征值和边特征值计算更新每个节点的标签号得到第二连通子图列表;以及根据第二连通子图列表输出可疑数据列表。可疑数据列表。可疑数据列表。

【技术实现步骤摘要】
可疑数据识别方法、装置、电子设备、介质和计算机程序


[0001]本公开涉及人工智能
,可用于金融领域,更具体地,涉及一种基于知识图谱和标签传播的可疑数据识别方法、可疑数据识别装置、电子设备、计算机可读存储介质和计算机程序。

技术介绍

[0002]相关技术中,有使用基于监督模型的可疑数据识别方法识别可疑数据,该类方法基于预先确定的可疑数据和非可疑数据构造正负样本,之后利用监督式分类模型进行二分类训练,最后对于新的数据使用训练得到的模型进行可疑性的预测。
[0003]相关技术中,也有使用基于无监督聚类的可疑数据识别方法识别可疑数据,该类方法首先基于客户的交易关系构建图结构,之后在图结构上按照特定特征维度运行无监督聚类算法生成聚类,之后聚类的结果融入客户可疑性信息,进行聚类的合并、打分、排序等,输出可疑数据。

技术实现思路

[0004]有鉴于此,本公开提供了一种简便、效率高并且识别准确的基于知识图谱和标签传播的可疑数据识别方法、可疑数据识别装置、电子设备、计算机可读存储介质和计算机程序。
[0005]本公开的一个方面提供了一种基于知识图谱和标签传播的可疑数据识别方法,包括:获取交易表,所述交易表包括交易信息;确定可疑客户标签表,所述可疑客户标签表中的每个客户具有标签号,其中,所述可疑客户标签表中的部分客户具有可疑标签号,另一部分客户具有非可疑标签号;根据所述交易表和所述可疑客户标签表建立知识图谱,其中,所述可疑客户标签表中的客户为所述知识图谱中的节点,所述节点具有节点属性,所述交易信息为连接至少部分所述节点的边,所述边具有边属性。
[0006]根据所述知识图谱提取第一连通子图列表,其中,所述第一连通子图列表为至少一个第一连通子图的集合,所述第一连通子图包括彼此之间有连接关系的所有节点和连接所述节点的边;针对所述第一连通子图列表中所述节点数量大于等于第一阈值的所述第一连通子图,根据所述节点属性计算所述第一连通子图中每个所述节点的点特征值,根据所述边属性计算所述第一连通子图中每个边的边特征值;根据所述标签号、所述点特征值和所述边特征值计算更新每个节点的标签号,其中,具有更新后的所述标签号的所述第一连通子图为第二连通子图,所述第二连通子图的集合为第二连通子图列表;以及根据所述第二连通子图列表输出可疑数据列表。
[0007]根据本公开实施例的基于知识图谱和标签传播的可疑数据识别方法,与相关技术中的基于监督模型的可疑数据识别方法相比,本公开基于可疑客户标签表和交易表识别可疑数据,无需可疑数据训练数据。与现有技术中的基于无监督聚类的可疑数据识别方法相比,本公开将客户的可疑标签号作为监督信号进行可疑标签传播,以半监督方式发现潜在
的可疑客户、剔除误识别的可疑客户;另外,本公开基于图数据库构造知识图谱,在此基础上运行第一连通子图和第二连通子图生成、可疑标签传播等聚类算法,效率更高;而且针对现有技术中的基于无监督聚类的可疑数据识别方法后处理复杂的技术问题,本公开经过知识图谱聚类计算后,只需根据第二连通子图中的新标签号为可疑标签号的节点个数是否大于等于第二阈值进行筛选,无需复杂的后处理。
[0008]在一些实施例中,所述确定可疑客户标签表包括:获取客户表;获取可疑客户表;以及将所述客户表和所述可疑客户表进行连接,对所述客户表中的且出现在所述可疑客户表中的客户设置可疑标签号,对所述客户表中的且未出现在所述可疑客户表中的客户设置非可疑标签号。
[0009]在一些实施例中,所述根据所述交易表和所述可疑客户标签表建立知识图谱包括:将所述可疑客户标签表导入图数据库,所述可疑客户标签表中的客户作为所述节点,所述节点具有节点属性;将所述交易表导入所述图数据库,所述交易信息包括交易发起客户和交易接收客户;以及以所述交易发起客户和所述交易接收客户为两端节点,在所述发起客户和所述接收客户之间构建边,所述边具有边属性。
[0010]在一些实施例中,所述边属性包括:交易金额、交易次数、总交易金额、平均交易金额、交易金额占所述交易发起客户总交易金额的比例和交易金额占所述交易接收客户总交易金额的比例中的至少一个。
[0011]在一些实施例中,所述节点属性包括:出度、入度、度中心性、紧密中心性和中介中心性中的至少一个。
[0012]在一些实施例中,所述根据所述节点属性计算所述第一连通子图中每个所述节点的点特征值,根据所述边属性计算所述第一连通子图中每个边的边特征值包括:将所述节点属性和所述边属性分别通过标准化方法转化为标准值,所述标准值为[0~1]区间内的数值;给所述节点属性和所述边属性分别设定权重;以及将所述节点属性的标准值与所述节点属性的权重作乘积得到所述点特征值,将所述边属性的标准值与所述边属性的权重作乘积得到所述边特征值。
[0013]在一些实施例中,所述标准化方法包括:最大

最小准则法或者标准分数法。
[0014]在一些实施例中,所述根据所述标签号、所述点特征值和所述边特征值计算更新每个节点的标签号包括:根据所述标签号、所述点特征值和所述边特征值迭代计算每个所述节点的新标签号,直至所有所述节点的新标签号不再更新或者达到终止迭代计算的次数。
[0015]在一些实施例中,所述根据所述标签号、所述点特征值和所述边特征值迭代计算每个所述节点的新标签号包括:确定所要计算更新的节点的邻居节点数量;当所述邻居节点数量为1时,所要计算更新的节点的新标签号为所述邻居节点的标签号;当所述邻居节点数量大于 1时,判断所有所述邻居节点的标签号是否相同;当所有所述邻居节点的标签号相同时,所要计算更新的节点的新标签号为所述邻居节点的标签号;当所述邻居节点的标签号存在不同时,根据每个所述邻居节点的所述点特征值、和所要计算更新的节点与每个邻居节点之间的所述边特征值计算更新每个节点的标签号。
[0016]在一些实施例中,所述根据每个所述邻居节点的所述点特征值、和所要计算更新的节点与每个邻居节点之间的所述边特征值计算更新每个节点的标签号包括:将所要计算
更新的节点与邻居节点之间的边的边特征值与对应的所述邻居节点的点特征值作乘积得到与多个所述邻居节点一一对应的多个子权重;对所有所述邻居节点的标签号进行分类得到m个分类标签,m为大于1的整数,其中,每个所述分类标签下包括具有同一标签号的n个所述邻居节点,n为大于等于 1的整数;将每个所述分类标签下的n个所述邻居节点对应的所述子权重相加得到m个标签权重,其中,m个所述分类标签与m个所述标签权重一一对应;以及比较m个所述标签权重的大小,将最大的所述标签权重对应的所述分类标签下的、所述邻居节点的所述标签号作为所要计算更新的节点的新标签号。
[0017]在一些实施例中,所述根据所述第二连通子图列表输出可疑数据列表包括:建立可疑数据初始列表,所述可疑数据初始列表为空表;识别出所述第二连通子图列表中的全部可疑数据子图;以及将全部所述可疑数据子图加载到所述可疑数据初始列表得到所述可疑数据列表。
[0018]在一些实施例中,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于知识图谱和标签传播的可疑数据识别方法,其特征在于,包括:获取交易表,所述交易表包括交易信息;确定可疑客户标签表,所述可疑客户标签表中的每个客户具有标签号,其中,所述可疑客户标签表中的部分客户具有可疑标签号,另一部分客户具有非可疑标签号;根据所述交易表和所述可疑客户标签表建立知识图谱,其中,所述可疑客户标签表中的客户为所述知识图谱中的节点,所述节点具有节点属性,所述交易信息为连接至少部分所述节点的边,所述边具有边属性;根据所述知识图谱提取第一连通子图列表,其中,所述第一连通子图列表为至少一个第一连通子图的集合,所述第一连通子图包括彼此之间有连接关系的所有节点和连接所述节点的边;针对所述第一连通子图列表中所述节点数量大于等于第一阈值的所述第一连通子图,根据所述节点属性计算所述第一连通子图中每个所述节点的点特征值,根据所述边属性计算所述第一连通子图中每个边的边特征值;根据所述标签号、所述点特征值和所述边特征值计算更新每个节点的标签号,其中,具有更新后的所述标签号的所述第一连通子图为第二连通子图,所述第二连通子图的集合为第二连通子图列表;以及根据所述第二连通子图列表输出可疑数据列表。2.根据权利要求1所述的方法,其特征在于,所述确定可疑客户标签表包括:获取客户表;获取可疑客户表;以及将所述客户表和所述可疑客户表进行连接,对所述客户表中的且出现在所述可疑客户表中的客户设置可疑标签号,对所述客户表中的且未出现在所述可疑客户表中的客户设置非可疑标签号。3.根据权利要求1所述的方法,其特征在于,所述根据所述交易表和所述可疑客户标签表建立知识图谱包括:将所述可疑客户标签表导入图数据库,所述可疑客户标签表中的客户作为所述节点,所述节点具有节点属性;将所述交易表导入所述图数据库,所述交易信息包括交易发起客户和交易接收客户;以及以所述交易发起客户和所述交易接收客户为两端节点,在所述发起客户和所述接收客户之间构建边,所述边具有边属性。4.根据权利要求3所述的方法,其特征在于,所述边属性包括:交易金额、交易次数、总交易金额、平均交易金额、交易金额占所述交易发起客户总交易金额的比例和交易金额占所述交易接收客户总交易金额的比例中的至少一个。5.根据权利要求1所述的方法,其特征在于,所述节点属性包括:出度、入度、度中心性、紧密中心性和中介中心性中的至少一个。6.根据权利要求1所述的方法,其特征在于,所述根据所述节点属性计算所述第一连通子图中每个所述节点的点特征值,根据所述边属性计算所述第一连通子图中每个边的边特征值包括:
将所述节点属性和所述边属性分别通过标准化方法转化为标准值,所述标准值为[0~1]区间内的数值;给所述节点属性和所述边属性分别设定权重;以及将所述节点属性的标准值与所述节点属性的权重作乘积得到所述点特征值,将所述边属性的标准值与所述边属性的权重作乘积得到所述边特征值。7.根据权利要求6所述的方法,其特征在于,所述标准化方法包括:最大

最小准则法或者标准分数法。8.根据权利要求1所述的方法,其特征在于,所述根据所述标签号、所述点特征值和所述边特征值计算更新每个节点的标签号包括:根据所述标签号、所述点特征值和所述边特征值迭代计算每个所述节点的新标签号,直至所有所述节点的新标签号不再更新或者达到终止迭代计算的次数。9.根据权利要求8所述的方法,其特征在于,所述根据所述标签号、所述点特征值和所述边特征值迭代计算每个所述节点的新标签号包括:确定所要计算更新的节点的邻居节点数量;当所述邻居节点数量为1时,所要计算更新的节点的新标签号为所述邻居节点的标签号;当所述邻居节点数量大于1时,判断所有所述邻居节点的标签号是否相同;当所有所述邻居节点的标签号相同时,所要...

【专利技术属性】
技术研发人员:汪美玲
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1