【技术实现步骤摘要】
可疑数据识别方法、装置、电子设备、介质和计算机程序
[0001]本公开涉及人工智能
,可用于金融领域,更具体地,涉及一种基于知识图谱和标签传播的可疑数据识别方法、可疑数据识别装置、电子设备、计算机可读存储介质和计算机程序。
技术介绍
[0002]相关技术中,有使用基于监督模型的可疑数据识别方法识别可疑数据,该类方法基于预先确定的可疑数据和非可疑数据构造正负样本,之后利用监督式分类模型进行二分类训练,最后对于新的数据使用训练得到的模型进行可疑性的预测。
[0003]相关技术中,也有使用基于无监督聚类的可疑数据识别方法识别可疑数据,该类方法首先基于客户的交易关系构建图结构,之后在图结构上按照特定特征维度运行无监督聚类算法生成聚类,之后聚类的结果融入客户可疑性信息,进行聚类的合并、打分、排序等,输出可疑数据。
技术实现思路
[0004]有鉴于此,本公开提供了一种简便、效率高并且识别准确的基于知识图谱和标签传播的可疑数据识别方法、可疑数据识别装置、电子设备、计算机可读存储介质和计算机程序。
[0005]本公开的一个方面提供了一种基于知识图谱和标签传播的可疑数据识别方法,包括:获取交易表,所述交易表包括交易信息;确定可疑客户标签表,所述可疑客户标签表中的每个客户具有标签号,其中,所述可疑客户标签表中的部分客户具有可疑标签号,另一部分客户具有非可疑标签号;根据所述交易表和所述可疑客户标签表建立知识图谱,其中,所述可疑客户标签表中的客户为所述知识图谱中的节点,所述节点具有节点属性,所述交易信息 ...
【技术保护点】
【技术特征摘要】
1.一种基于知识图谱和标签传播的可疑数据识别方法,其特征在于,包括:获取交易表,所述交易表包括交易信息;确定可疑客户标签表,所述可疑客户标签表中的每个客户具有标签号,其中,所述可疑客户标签表中的部分客户具有可疑标签号,另一部分客户具有非可疑标签号;根据所述交易表和所述可疑客户标签表建立知识图谱,其中,所述可疑客户标签表中的客户为所述知识图谱中的节点,所述节点具有节点属性,所述交易信息为连接至少部分所述节点的边,所述边具有边属性;根据所述知识图谱提取第一连通子图列表,其中,所述第一连通子图列表为至少一个第一连通子图的集合,所述第一连通子图包括彼此之间有连接关系的所有节点和连接所述节点的边;针对所述第一连通子图列表中所述节点数量大于等于第一阈值的所述第一连通子图,根据所述节点属性计算所述第一连通子图中每个所述节点的点特征值,根据所述边属性计算所述第一连通子图中每个边的边特征值;根据所述标签号、所述点特征值和所述边特征值计算更新每个节点的标签号,其中,具有更新后的所述标签号的所述第一连通子图为第二连通子图,所述第二连通子图的集合为第二连通子图列表;以及根据所述第二连通子图列表输出可疑数据列表。2.根据权利要求1所述的方法,其特征在于,所述确定可疑客户标签表包括:获取客户表;获取可疑客户表;以及将所述客户表和所述可疑客户表进行连接,对所述客户表中的且出现在所述可疑客户表中的客户设置可疑标签号,对所述客户表中的且未出现在所述可疑客户表中的客户设置非可疑标签号。3.根据权利要求1所述的方法,其特征在于,所述根据所述交易表和所述可疑客户标签表建立知识图谱包括:将所述可疑客户标签表导入图数据库,所述可疑客户标签表中的客户作为所述节点,所述节点具有节点属性;将所述交易表导入所述图数据库,所述交易信息包括交易发起客户和交易接收客户;以及以所述交易发起客户和所述交易接收客户为两端节点,在所述发起客户和所述接收客户之间构建边,所述边具有边属性。4.根据权利要求3所述的方法,其特征在于,所述边属性包括:交易金额、交易次数、总交易金额、平均交易金额、交易金额占所述交易发起客户总交易金额的比例和交易金额占所述交易接收客户总交易金额的比例中的至少一个。5.根据权利要求1所述的方法,其特征在于,所述节点属性包括:出度、入度、度中心性、紧密中心性和中介中心性中的至少一个。6.根据权利要求1所述的方法,其特征在于,所述根据所述节点属性计算所述第一连通子图中每个所述节点的点特征值,根据所述边属性计算所述第一连通子图中每个边的边特征值包括:
将所述节点属性和所述边属性分别通过标准化方法转化为标准值,所述标准值为[0~1]区间内的数值;给所述节点属性和所述边属性分别设定权重;以及将所述节点属性的标准值与所述节点属性的权重作乘积得到所述点特征值,将所述边属性的标准值与所述边属性的权重作乘积得到所述边特征值。7.根据权利要求6所述的方法,其特征在于,所述标准化方法包括:最大
‑
最小准则法或者标准分数法。8.根据权利要求1所述的方法,其特征在于,所述根据所述标签号、所述点特征值和所述边特征值计算更新每个节点的标签号包括:根据所述标签号、所述点特征值和所述边特征值迭代计算每个所述节点的新标签号,直至所有所述节点的新标签号不再更新或者达到终止迭代计算的次数。9.根据权利要求8所述的方法,其特征在于,所述根据所述标签号、所述点特征值和所述边特征值迭代计算每个所述节点的新标签号包括:确定所要计算更新的节点的邻居节点数量;当所述邻居节点数量为1时,所要计算更新的节点的新标签号为所述邻居节点的标签号;当所述邻居节点数量大于1时,判断所有所述邻居节点的标签号是否相同;当所有所述邻居节点的标签号相同时,所要...
【专利技术属性】
技术研发人员:汪美玲,
申请(专利权)人:中国工商银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。