System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于数据分析,具体涉及一种基于信任度算法归集人员资金数据的方法和装置。
技术介绍
1、当前社会正在进行数字化转型,各行各业每时每刻都产生着各种数据,这些数据中蕴含着丰富的潜在知识,各行各业的决策者也意识到了这些大量数据的价值,利用云计算、数据挖掘、数据治理等新兴技术从这些大数据中挖掘知识,支持决策以及进行犯罪证据查询。但由于数据来源的多样性,真实数据的复杂性,采集来的大数据有相当一部分信息量不足或缺少人员属性,造成数据的不完整,例如银行数据,不同的银行的调单数据就是不一样的。
2、分析中人员是重点,所有的分析都是针对人员来做的,分析人员时,需要把同一个人员的资金数据归集到一起。数据越多,数据格式也就越多,多份数据就可能会造成数据冲突问题,例如同一个卡号在不同的平台有不同的姓名,同一个身份证有不同的姓名,在分析时会造成很大的误导,所以需要统一处理数据,保证数据的准确性,保证同一个人员的属性都是唯一的。
3、传统的人员属性更新方法在导入不同的数据来源数据时,需要带上人员属性字段,这样在数据中会存在人员属性,该方法需要对应数据源特别匹配,能够解决导入某一个数据源的数据问题,但不能解决不同数据源的数据,不能保证数据的准确性,并且影响性能。
4、以上方法无法将缺失人员或人员信息不一致的资金数据归集到同一人员下,在以人为维度进行资金数据分析时,就不能准确的分析此人名下的完整资金数据,给挖掘出有效线索带来很大困难。
5、有鉴于此,提出一种基于信任度算法归集人员资金数据的方法和装置是非常
技术实现思路
1、为了解决现有传统的人员属性更新方法能够解决导入某一个数据源的数据问题,但不能解决不同数据源的数据,不能保证数据的准确性,并且影响性能的问题,本专利技术提供一种基于信任度算法归集人员资金数据的方法和装置,在实时入库时,对多数据来源的人员信息根据人员信息信任度算法进行整合,使缺失人员或人员信息不一致的资金数据归集到正确人员下,以解决上述存在的技术缺陷问题。
2、第一方面,本专利技术提出了一种基于信任度算法归集人员资金数据的方法,该方法包括如下步骤:
3、响应于导入一批文件的资金数据;
4、基于预设的人员信息信任度计算公式,依次计算该批所述文件中的每一文件中每个卡号的人员信息权重值,其中所述卡号的人员信息权重的系数按照预设规则进行确定;
5、处理完所有所述文件后,对每个卡号的所述人员信息权重值进行求和,然后除以该卡号的人员信息数据的总条数,得到每个卡号最终确认的人员信息信任度t;以及
6、基于获得的每个卡号最终确认的所述人员信息信任度t,归集人员资金数据,归集人员资金数据包括使用每个卡号的最高信任度的人员信息,建立人、卡、流水的关联关系;使用每个卡号的最高信任度的人员信息id更新已存在卡的人卡关系信息表。
7、优选的,预设的人员信息信任度计算公式如下:
8、
9、其中,t表示每个卡号最终计算的人员信息信任度;f表示该卡号的人员信息权重的系数;p表示一个文件中该卡号的人员信息数据的条数;n表示该卡号的人员信息数据的总条数;k表示该卡号的人员信息数据的序号。
10、进一步优选的,所述卡号的人员信息权重的系数按照预设规则进行确定,包括pk为该卡号的人员信息数据的条数,fk为该卡号的人员信息权重的系数,fk由基于实际调研的上千家银行的账单数据,每家银行选取五种以上格式的账单文件统计规律得出;该卡号的人员信息权重的系数fk确定规则如下:
11、来源于开户,人员信息权重的系数fk为0.8;
12、来源于流水,有姓名有身份证,人员信息权重的系数fk为0.6;
13、来源于流水,有姓名无身份证,人员信息权重的系数fk为0.4;
14、来源于流水,无姓名无身份证,人员信息权重的系数fk为0.1。
15、进一步优选的,归集人员资金数据包括使用每个卡号的最高信任度的人员信息,建立人、卡、流水的关联关系,具体包括:
16、将资金流水导入数据库的交易记录表中;
17、将每个卡的最高信任度的人员信息导入到数据库的人员信息表中;
18、将每个卡号导入到数据库的人卡关系信息表中,使用每个卡的最高信任度的人员信息id回填所述人卡关系信息表;
19、用每个卡号人卡关系id回填交易记录表中的本方人卡关系id、对方人卡关系id。
20、进一步优选的,还包括:
21、交易记录表,存储资金账户的所有交易记录,主要的账单字段包括:记录id、本方卡号、本方开户人、对方卡号、对方开户人、交易金额、交易方向、交易方式、交易流水号、交易时间、交易发生地、摘要、备注、本方证件号码、对方证件号码、本方证件类型、对方证件类型、本方人卡关系id和对方人卡关系id;
22、人卡关系表,存储所有资金账户与持有人的关系,主要的字段包括:人卡关系id、卡号、人员信息id、交易起始时间、交易结束时间和交易类型。
23、人员信息表,存储所有资金账户持有人的信息,主要的字段包括:人员信息id、人员姓名、人员证件号码和人员证件类型。
24、第二方面,本专利技术实施例提供了一种基于信任度算法归集人员资金数据的装置,包括:
25、文件导入模块,配置用于导入一批文件的资金数据;
26、权重计算模块,配置用于基于预设的人员信息信任度计算公式,依次计算该批所述文件中的每一文件中每个卡号的人员信息权重值,其中所述卡号的人员信息权重的系数按照预设规则进行确定;
27、信任度计算模块,配置用于处理完所有所述文件后,对每个卡号的所述人员信息权重值进行求和,然后除以该卡号的人员信息数据的总条数,得到每个卡号最终确认的人员信息信任度t;
28、数据归集模块,配置用于基于获得的每个卡号最终确认的所述人员信息信任度t,归集人员资金数据,归集人员资金数据包括使用每个卡号的最高信任度的人员信息,建立人、卡、流水的关联关系;使用每个卡号的最高信任度的人员信息id更新已存在卡的人卡关系信息表。
29、进一步优选的,还包括:所述卡号的人员信息权重的系数按照预设规则进行确定,包括pk为该卡号的人员信息数据的条数,fk为该卡号的人员信息权重的系数,fk由基于实际调研的上千家银行的账单数据,每家银行选取五种以上格式的账单文件统计规律得出;该卡号的人员信息权重的系数fk确定规则如下:
30、来源于开户,人员信息权重的系数fk为0.8;
31、来源于流水,有姓名有身份证,人员信息权重的系数fk为0.6;
32、来源于流水,有姓名无身份证,人员信息权重的系数fk为0.4;
33、来源于流水,无姓名无身份证,人员信息权重的系数fk为0.1。
34、进一步优选的,还包括:
35、交易记录表模块,配置用于本文档来自技高网...
【技术保护点】
1.一种基于信任度算法归集人员资金数据的方法,其特征在于,该方法包括如下步骤:
2.根据权利要求1所述的基于信任度算法归集人员资金数据的方法,其特征在于,预设的人员信息信任度计算公式如下:
3.根据权利要求2所述的基于信任度算法归集人员资金数据的方法,其特征在于,所述卡号的人员信息权重的系数按照预设规则进行确定,包括Pk为该卡号的人员信息数据的条数,Fk为该卡号的人员信息权重的系数,Fk由基于实际调研的上千家银行的账单数据,每家银行选取五种以上格式的账单文件统计规律得出;该卡号的人员信息权重的系数Fk确定规则如下:
4.根据权利要求3所述的基于信任度算法归集人员资金数据的方法,其特征在于,归集人员资金数据包括使用每个卡号的最高信任度的人员信息,建立人、卡、流水的关联关系,具体包括:
5.根据权利要求4所述的基于信任度算法归集人员资金数据的方法,其特征在于,还包括:
6.一种基于信任度算法归集人员资金数据的装置,其特征在于,包括:
7.根据权利要求6所述的基于信任度算法归集人员资金数据的方法,其特征在于,还包括
8.根据权利要求7所述的基于信任度算法归集人员资金数据的方法,其特征在于,还包括:
9.一种电子设备,包括:
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至5中任一所述的方法。
...【技术特征摘要】
1.一种基于信任度算法归集人员资金数据的方法,其特征在于,该方法包括如下步骤:
2.根据权利要求1所述的基于信任度算法归集人员资金数据的方法,其特征在于,预设的人员信息信任度计算公式如下:
3.根据权利要求2所述的基于信任度算法归集人员资金数据的方法,其特征在于,所述卡号的人员信息权重的系数按照预设规则进行确定,包括pk为该卡号的人员信息数据的条数,fk为该卡号的人员信息权重的系数,fk由基于实际调研的上千家银行的账单数据,每家银行选取五种以上格式的账单文件统计规律得出;该卡号的人员信息权重的系数fk确定规则如下:
4.根据权利要求3所述的基于信任度算法归集人员资金数据的方法,其特征在于,归集人员资金数据包括使用每个卡号的最高信任度的人员信息,建立人、卡、流水的关联关系,具体包括:
5.根据权利要求4所述...
【专利技术属性】
技术研发人员:杨天虎,张磊,姚志强,李密,
申请(专利权)人:厦门市美亚柏科信息安全研究所有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。