一种系统审批理由随意性检测方法及系统技术方案

技术编号:23513095 阅读:12 留言:0更新日期:2020-03-18 00:17
本发明专利技术提供一种系统审批理由随意性检测方法及系统,包括以下步骤:S100.获取审批操作日志历史数据并解析,至少获得审批原因文本数据;S200.规则检测,根据预先规定的规则判断,检测出异常审批原因数据,遍历所有数据获得异常数据集合A;S300.文本分析,对审批原因文本数据进行分词、相似度得分计算、计算每条审批操作日志历史数据的平均分,遍历所有历史数据,获得异常审批原因数据集合B;S400.A∪B得到审批操作日志历。本发明专利技术从审核理由文本数据本身入手,结合规则判断和文本分词之间相似度得分计算,检测审核理由的随意性和合理性。本实施例采用两种检测方法,全面的将所有可能出现的异常情况考虑进来,检测精度高。

A method and system to detect the randomness of reasons for system approval

【技术实现步骤摘要】
一种系统审批理由随意性检测方法及系统
本专利技术涉及数据安全
,具体来说是一种系统审批理由随意性检测方法及系统。
技术介绍
运营商业务系统业务办理工单审批以及4A金库审批都涉及到人工填写审批理由,由于系统审核机制的不完善,有些工作人员在填写通过或者不通过原因的时候通常缺乏认真负责的态度,使其填写的理由缺少语言的完整性和合理性。由于企业某些业务办理工单和4A金库涉及非常敏感且重要的内容,审批理由的随意填写,使得审核流程信息断层,更让企业面临数据安全隐患。现有技术中,对于审批质量把控,一般都采用规则判断,其中规则人为根据经验设定,无法覆盖所有审批异常情况;再者就是通过人工查找,该方法耗时耗力,在数据量大的情况下,可操作性差。
技术实现思路
本专利技术所要解决的技术问题在于现有技术中对于工单审批这一环节中,审批理由存在不符合规范,但却无法全面而快速检测出所有不符合规范的审批数据。本专利技术通过以下技术手段实现解决上述技术问题的:一种系统审批理由随意性检测方法,包括以下步骤:S100.数据采集,采集设定期限内的审批操作日志历史数据,对审批操作日志历史数据进行解析,至少获得审批原因文本数据;S200.规则检测,基于审批原因文本数据构建文本特征数据,通过对文本特征数据的分析,结合预设规则和统计学原理,检测出异常审批原因数据,遍历所有审批操作日志历史数据,获得异常审批原因数据集合,记为集合A;S300.文本分析,对审批原因文本数据进行分词,然后计算分词后的文本词语之间的相似度得分,再求得每条审批操作日志历史数据的平均分,若平均分较高,则认为该条审批操作日志历史数据为异常审批原因数据,遍历所有审批操作日志历史数据,获得异常审批原因数据集合,记作集合B;S400.结果整合,A∪B得到审批操作日志历史数据中所有异常审批原因数据集,记作集合C。本专利技术从审核理由文本数据本身入手,结合规则判断和文本分词之间相似度得分计算,检测审核理由的随意性和合理性。本实施例采用两种检测方法,全面的将所有可能出现的异常情况考虑进来,检测精度高。优选的,所述步骤S100中采用python3的pandas和json包进行日志数据提取和解析,还获得申请人账号、审批人账号、申请时间、审批时间、审批结果、操作对象数据。优选的,所述步骤S400之后还包括步骤S500,审批人员追踪,根据步骤S400中的集合C,追溯审批审批人账户,从而追溯到审批人。优选的,所述步骤S200中构建的文本特征数据包括“文本长度”、“文本中文个数”、“文本非中文和中文个数比例”;集合A中包括了采用“文本中文个数”和“文本非中文和中文个数比例”两种规则判断出的异常审批原因数据,其中基于规则的“文本中文个数”判断具体为:根据经验判断,审批原因中中文个数小于设定值的,将被列为异常审批原因数据;基于规则的“文本非中文和中文个数比例”判断具体为:使用箱形图对特征“文本非中文和中文个数比例”进行分析,计算该特征的外限,规定在上外限以外的值为异常审批原因数据。优选的,所述步骤S300具体为:S301.模型训练,首先获取语料,然后通过Hanlp汉语分词系统进行文档的分词,使用word2vec模型进行训练,得到目标模型;S302.数据预处理,对审批原因文本数据进行清洗,仅保留中文部分,得到样本数据;然后对所有样本数据进行分词,得到分词后的审批原因样本数据S303.相似度计算,针对步骤302中的样本数据,进行1)用步骤S301中的目标模型计算某个样本数据中词语两两之间的相似度得分;2)计算步骤1)中词语得分的平均值,作为该条审批原因文本数据的相似度得分;3)循环步骤1)、2),直到遍历所有审批原因文本数据。相对应的,本专利技术还提供一种系统审批理由随意性检测系统,包括数据采集模块,采集设定期限内的审批操作日志历史数据,对审批操作日志历史数据进行解析,至少获得审批原因文本数据;规则检测模块,基于审批原因文本数据构建文本特征数据,通过对文本特征数据的分析,结合预设规则和统计学原理,检测出异常审批原因数据,遍历所有审批操作日志历史数据,获得异常审批原因数据集合,记为集合A;文本分析模块,对审批原因文本数据进行分词,然后计算分词后的文本词语之间的相似度得分,再求得每条审批操作日志历史数据的平均分,若平均分较高,则认为该条审批操作日志历史数据为异常审批原因数据,遍历所有审批操作日志历史数据,获得异常审批原因数据集合,记作集合B;结果整合模块,A∪B得到审批操作日志历史数据中所有异常审批原因数据集,记作集合C。优选的,所述数据采集模块中采用python3的pandas和json包进行日志数据提取和解析,还获得申请人账号、审批人账号、申请时间、审批时间、审批结果、操作对象数据。优选的,还包括审批人员追踪模块,根据所述集合C,追溯审批审批人账户,从而追溯审批人。优选的,所述规则检测模块中构建的文本特征数据包括“文本长度”、“文本中文个数”、“文本非中文和中文个数比例”;集合A中包括了采用“文本中文个数”和“文本非中文和中文个数比例”两种规则判断出的异常审批原因数据,其中基于规则的“文本中文个数”判断具体为:根据经验判断,审批原因中中文个数小于设定值的,将被列为异常审批原因数据;基于规则的“文本非中文和中文个数比例”判断具体为:使用箱形图对特征“文本非中文和中文个数比例”进行分析,计算该特征的外限,规定在上外限以外的值为异常审批原因数据。优选的,所述文本分析模块具体处理过程为:模型训练,首先获取语料,然后通过Hanlp汉语分词系统进行文档的分词,使用word2vec模型进行训练,得到目标模型;数据预处理,对审批原因文本数据进行清洗,仅保留中文部分,得到样本数据;然后对所有样本数据进行分词,得到分词后的审批原因样本数据相似度计算,针对所述样本数据,进行1)用所述目标模型计算某个样本数据中词语两两之间的相似度得分;2)计算步骤1)中词语得分的平均值,作为该条审批原因文本数据的相似度得分;3)循环步骤1)、2),直到遍历所有审批原因文本数据。本专利技术的优点在于:本专利技术从审核理由文本数据本身入手,结合规则判断和文本分词之间相似度得分计算,检测审核理由的随意性和合理性。本实施例采用两种检测方法,全面的将所有可能出现的异常情况考虑进来,检测精度高。另外,本专利技术在进行“文本非中文和中文个数比例”判断时,采用箱型图获得阈值,避免人为设定阈值对检测结果的影响,该方法实用性更强、更科学。附图说明图1为本专利技术实施例1一种系统审批理由随意性检测方法的流程框图;图2为本专利技术实施例1一种系统审批理由随意性检测方法中。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例,本文档来自技高网...

【技术保护点】
1.一种系统审批理由随意性检测方法,其特征在于:包括以下步骤:/nS100.数据采集,采集设定期限内的审批操作日志历史数据,对审批操作日志历史数据进行解析,至少获得审批原因文本数据;/nS200.规则检测,基于审批原因文本数据构建文本特征数据,通过对文本特征数据的分析,结合预设规则和统计学原理,检测出异常审批原因数据,遍历所有审批操作日志历史数据,获得异常审批原因数据集合,记为集合A;/nS300.文本分析,对审批原因文本数据进行分词,然后计算分词后的文本词语之间的相似度得分,再求得每条审批操作日志历史数据的平均分,若平均分较高,则认为该条审批操作日志历史数据为异常审批原因数据,遍历所有审批操作日志历史数据,获得异常审批原因数据集合,记作集合B;/nS400.结果整合,A∪B得到审批操作日志历史数据中所有异常审批原因数据集,记作集合C。/n

【技术特征摘要】
1.一种系统审批理由随意性检测方法,其特征在于:包括以下步骤:
S100.数据采集,采集设定期限内的审批操作日志历史数据,对审批操作日志历史数据进行解析,至少获得审批原因文本数据;
S200.规则检测,基于审批原因文本数据构建文本特征数据,通过对文本特征数据的分析,结合预设规则和统计学原理,检测出异常审批原因数据,遍历所有审批操作日志历史数据,获得异常审批原因数据集合,记为集合A;
S300.文本分析,对审批原因文本数据进行分词,然后计算分词后的文本词语之间的相似度得分,再求得每条审批操作日志历史数据的平均分,若平均分较高,则认为该条审批操作日志历史数据为异常审批原因数据,遍历所有审批操作日志历史数据,获得异常审批原因数据集合,记作集合B;
S400.结果整合,A∪B得到审批操作日志历史数据中所有异常审批原因数据集,记作集合C。


2.根据权利要求1所述的一种系统审批理由随意性检测方法,其特征在于:所述步骤S100中采用python3的pandas和json包进行日志数据提取和解析,还获得申请人账号、审批人账号、申请时间、审批时间、审批结果、操作对象数据。


3.根据权利要求2所述的一种系统审批理由随意性检测方法,其特征在于:所述步骤S400之后还包括
步骤S500,审批人员追踪,根据步骤S400中的集合C,追溯审批审批人账户,从而追溯到审批人。


4.根据权利要求1至3任一所述的一种系统审批理由随意性检测方法,其特征在于:所述步骤S200中构建的文本特征数据包括“文本长度”、“文本中文个数”、“文本非中文和中文个数比例”;集合A中包括了采用“文本中文个数”和“文本非中文和中文个数比例”两种规则判断出的异常审批原因数据,其中
基于规则的“文本中文个数”判断具体为:根据经验判断,审批原因中中文个数小于设定值的,将被列为异常审批原因数据;
基于规则的“文本非中文和中文个数比例”判断具体为:使用箱形图对特征“文本非中文和中文个数比例”进行分析,计算该特征的外限,规定在上外限以外的值为异常审批原因数据。


5.根据权利要求1或2所述的一种系统审批理由随意性检测方法,其特征在于:所述步骤S300具体为:
S301.模型训练,首先获取语料,然后通过Hanlp汉语分词系统进行文档的分词,使用word2vec模型进行训练,得到目标模型;
S302.数据预处理,对审批原因文本数据进行清洗,仅保留中文部分,得到样本数据;然后对所有样本数据进行分词,得到分词后的审批原因样本数据
S303.相似度计算,针对步骤302中的样本数据,进行
1)用步骤S301中的目标模型计算某个样本数据中词语两两之间的相似度得分;
2)计算步骤1)中词语得分的平均值,作为该条审批原因文本数据的相似度得分;
3...

【专利技术属性】
技术研发人员:马影梁淑云刘胜陶景龙王启凡魏国富徐明殷钱安余贤喆周晓勇
申请(专利权)人:上海观安信息技术股份有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1