System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及数据标准化,具体地说,涉及一种用于数据标准化的人工智能系统。
技术介绍
1、在银行的信息系统中,存储着海量的借款人信息,这些信息对于风险评估、贷款审批、信用监控等业务流程至关重要,借款人信息包含多种类型的数据,如个人身份信息、财务状况、信用记录、贷款历史等。
2、然而,上述数据的格式和内容通常极为复杂多样,并且不同来源的数据存在不一致性和错误问题。倘若无法对这些数据进行标准化处理,将会对借款人信息评估产生负面影响
3、同时在对数据进行标准化处理的过程中,银行信息系统中的数据来源主要是借款人在办理业务时预留的信息,以及银行客服接收借款人信息后录入银行系统的内容;
4、但在此过程中存在一些问题,一方面,由于不同借款人笔迹各异,容易出现数字和与其相似字符混淆的情况;另一方面,人工录入大量数据时,可能在数据表格中因未换行而导致数据混淆,若不能及时对这两种数据混淆情况进行合理判断,将会影响对借款人信用的评估,鉴于此,我们提出一种用于数据标准化的人工智能系统。
技术实现思路
1、本专利技术的目的在于解决对借款人信用评估时,因银行系统中存在数据混淆问题,致使数据标准化处理过程中借款人信息数据出现异常的情况;
2、为实现上述目的,本专利技术提供一种能够在数据标准化时,对借款人信息异常数据进行重新划分的用于数据标准化的人工智能系统,包括数据处理模块、数据标准化模块、数据混淆分析模块和数据划分模块;
3、所述数据处理模块通过ap
4、所述数据混淆分析模块运用相似度对比法判断异常数值是否因数据处理模块中字符串替换法引起的,若为字符串替换法引起的,则说明字符串替换法此时将字符与数字混淆,并将对异常数值重新替换,若不为字符串替换法引起的,则说明数据标准化模块中异常数值正常;
5、所述数据划分模块包括未混淆数据判断单元和重新划分单元;
6、所述未混淆数据判断单元用于接收所述数据混淆分析模块判断的若不为字符串替换法引起的异常数值数量,则通过基于索引位置判断异常数值在数据集合中是否相邻,并设定数量阈值,且相邻异常数值的数量>数量阈值时,则说明数据集合中数据混淆;
7、所述重新划分单元用于接收数据混淆信号,并通过所述数据标准化模块中异常数值界定法对混淆数据重新划分,重新划分后,再次将数据标准化处理,并输出标准化数据至工作人员。
8、所述数据处理模块用于向银行信息系统发送数据请求和api密钥,数据请求中包含借款人账户信息、借款人信用报告、日期格式信息和借款人自行提交的财务信息,银行信息系统接收到请求后,将api密钥与合法密钥对比,若api密钥=合法密钥时,则表明验证成功,此时银行信息系统根据借款人身份信息调出借款人账户信息、借款人信用报告、日期格式信息和借款人自行提交的财务信息。
9、所述数据处理模块通过格式字符串和字符串替换法统一日期格式信息和数值型信息的步骤如下:
10、借款人信息分为日期格式信息和数值型信息;
11、接收银行信息系统中的日期格式信息,通过格式字符串将日期格式信息中的日期字符串,按照格式字符串的定义进行分组和理解,而后格式字符串按照定义顺序寻找对应的年份、月份和日期部分,将日期格式信息统一处理;
12、示例如下:
13、假设日期字符串是“2024/01/02”,格式字符串是% y/% m/%d”,格式字符串识别出“2024”与“%y”对应,代表年份,“01”与“%m”对应,代表月份;“02”与“%d”对应,代表日期,从而完成日期字符串与日期各部分的映射;
14、按照格式字符串从左到右的顺序对日期格式信息解析,例如,对于格式字符串“%y/% m/% d”和日期字符串“2024/01/02”,首先寻找与“% y”对应部分,即年份“2024”,得出日期格式信息中“2024”为年份,找到年份后,接着按照格式字符串顺序寻找对应的月份和日期部分,从而将日期格式信息统一处理;
15、通过字符串替换法统一数值型信息的步骤如下:
16、建立不必要单位和字符的替换集合;
17、从数值型信息中的字符开头开始逐个与替换集合中的字符对比,
18、若数值型信息中的字符=替换集合中的字符,则将数值型信息中字符去除;
19、若数值型信息中的字符≠替换集合中的字符,则将数值型信息中字符保留。
20、所述数据标准化模块通过z-score标准化方法对借款人信息标准化的步骤如下:
21、接收所述数据处理模块中借款人账户信息,借款人信用、日期格式信息和借款人自行提交的财务信息,按照日期格式信息进行先后顺序排序,分别建立与日期格式信息对应的数据集合;
22、接收数据集合:,其中某个数据为,z-score的计算公式为:
23、;
24、其中,是标准化后的z-score值,是原始数据点的值,n为下标,用于对不同的原始数据点的值进行区分,是该数据集合的均值,的计算公式如下:
25、;
26、是该数据集合的标准差,表示数据的离散程度,计算公式如下:
27、。
28、所述数据标准化模块判断标准化后数据集合是否存在异常数值的步骤如下:
29、接收数据集合标准化后的z-score值、均值和对应的标准差;
30、异常数值界定法:
31、设定异常数值界定;
32、计算均值处于标准差的离散程度,设定区分值为;
33、若的数据点落在均值加减倍标准差的范围内,则区间为;
34、若的数据点落均值加减倍标准差的范围内,则区间为;
35、反之处于此范围之外的数据点被视为异常数值;
36、异常数值判断:
37、取区间;
38、当时,对应的值则为异常数值。
39、本专利技术充分考虑到不同借款人笔迹存在差异这一情况,这种差异极易导致数字和与其相似字符相混淆的问题,例如,数字“0”可能会因书写风格与字母“o”难以区分,数字“1”与小写字母“l”也可能出现混淆,这种混淆情况在笔迹多样化的借款人所填写信息中频繁出现,进而将会影响对借款人信用的评估;
40、所述数据混淆分析模块运用相似度对比法的步骤如下:
41、接收所述数据标准化模块中判断异常数值对应的数据和所述数据处理模块中替换的数字字符,基于学习模型设定相似度阈值,判断替换的字符是否与数值相似;
42、相似时,将替换的字符转换为数值,再通过所述数据标准化模块判断数值是否异常,同理,可判断异常数值是否因数值与字符相似而造成的数本文档来自技高网...
【技术保护点】
1.一种用于数据标准化的人工智能系统,其特征在于,包括数据处理模块(100)、数据标准化模块(200)、数据混淆分析模块(300)和数据划分模块(400);
2.根据权利要求1所述的用于数据标准化的人工智能系统,其特征在于:所述数据处理模块(100)用于向银行信息系统发送数据请求和API密钥,数据请求中包含借款人账户信息、借款人信用报告、日期格式信息和借款人自行提交的财务信息,银行信息系统接收到请求后,将API密钥与合法密钥对比,若API密钥=合法密钥时,则表明验证成功,此时银行信息系统根据借款人身份信息调出借款人账户信息、借款人信用报告、日期格式信息和借款人自行提交的财务信息。
3.根据权利要求1所述的用于数据标准化的人工智能系统,其特征在于:所述数据处理模块(100)通过格式字符串和字符串替换法统一日期格式信息和数值型信息的步骤如下:
4.根据权利要求1所述的用于数据标准化的人工智能系统,其特征在于:所述数据标准化模块(200)通过Z-score标准化方法对借款人信息标准化的步骤如下:
5.根据权利要求1所述的用于数据标准化的人
6.根据权利要求1所述的用于数据标准化的人工智能系统,其特征在于:所述数据混淆分析模块(300)运用相似度对比法的步骤如下:
7.根据权利要求1所述的用于数据标准化的人工智能系统,其特征在于:所述未混淆数据判断单元(410)基于索引位置判断异常数值在与其对应数据集合中是否相邻的步骤如下:
8.根据权利要求1所述的用于数据标准化的人工智能系统,其特征在于:所述重新划分单元(420)通过所述数据标准化模块(200)中异常数值界定法重新划分异常数据的步骤如下:
...【技术特征摘要】
1.一种用于数据标准化的人工智能系统,其特征在于,包括数据处理模块(100)、数据标准化模块(200)、数据混淆分析模块(300)和数据划分模块(400);
2.根据权利要求1所述的用于数据标准化的人工智能系统,其特征在于:所述数据处理模块(100)用于向银行信息系统发送数据请求和api密钥,数据请求中包含借款人账户信息、借款人信用报告、日期格式信息和借款人自行提交的财务信息,银行信息系统接收到请求后,将api密钥与合法密钥对比,若api密钥=合法密钥时,则表明验证成功,此时银行信息系统根据借款人身份信息调出借款人账户信息、借款人信用报告、日期格式信息和借款人自行提交的财务信息。
3.根据权利要求1所述的用于数据标准化的人工智能系统,其特征在于:所述数据处理模块(100)通过格式字符串和字符串替换法统一日期格式信息和数值型信息的步骤如下:
4.根据权...
【专利技术属性】
技术研发人员:刘飞,刘标,林志科,
申请(专利权)人:晋江市诺鹏科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。