一种系统审批理由随意性检测方法及系统技术方案

技术编号：23513095 阅读：12 留言：0更新日期：2020-03-18 00:17

本发明专利技术提供一种系统审批理由随意性检测方法及系统，包括以下步骤：S100.获取审批操作日志历史数据并解析，至少获得审批原因文本数据；S200.规则检测，根据预先规定的规则判断，检测出异常审批原因数据，遍历所有数据获得异常数据集合A；S300.文本分析，对审批原因文本数据进行分词、相似度得分计算、计算每条审批操作日志历史数据的平均分，遍历所有历史数据，获得异常审批原因数据集合B；S400.A∪B得到审批操作日志历。本发明专利技术从审核理由文本数据本身入手，结合规则判断和文本分词之间相似度得分计算，检测审核理由的随意性和合理性。本实施例采用两种检测方法，全面的将所有可能出现的异常情况考虑进来，检测精度高。

A method and system to detect the randomness of reasons for system approval

全部详细技术资料下载

【技术实现步骤摘要】
一种系统审批理由随意性检测方法及系统
本专利技术涉及数据安全
，具体来说是一种系统审批理由随意性检测方法及系统。
技术介绍
运营商业务系统业务办理工单审批以及4A金库审批都涉及到人工填写审批理由，由于系统审核机制的不完善，有些工作人员在填写通过或者不通过原因的时候通常缺乏认真负责的态度，使其填写的理由缺少语言的完整性和合理性。由于企业某些业务办理工单和4A金库涉及非常敏感且重要的内容，审批理由的随意填写，使得审核流程信息断层，更让企业面临数据安全隐患。现有技术中，对于审批质量把控，一般都采用规则判断，其中规则人为根据经验设定，无法覆盖所有审批异常情况；再者就是通过人工查找，该方法耗时耗力，在数据量大的情况下，可操作性差。
技术实现思路
本专利技术所要解决的技术问题在于现有技术中对于工单审批这一环节中，审批理由存在不符合规范，但却无法全面而快速检测出所有不符合规范的审批数据。本专利技术通过以下技术手段实现解决上述技术问题的：一种系统审批理由随意性检测方法，包括以下步骤：S100.数据采集，采集设定期限内的审批操作日志历史数据，对审批操作日志历史数据进行解析，至少获得审批原因文本数据；S200.规则检测，基于审批原因文本数据构建文本特征数据，通过对文本特征数据的分析，结合预设规则和统计学原理，检测出异常审批原因数据，遍历所有审批操作日志历史数据，获得异常审批原因数据集合，记为集合A；S300.文本分析，对审批原因文本数据进行分词，然后计算分...

【技术保护点】
1.一种系统审批理由随意性检测方法，其特征在于：包括以下步骤：/nS100.数据采集，采集设定期限内的审批操作日志历史数据，对审批操作日志历史数据进行解析，至少获得审批原因文本数据；/nS200.规则检测，基于审批原因文本数据构建文本特征数据，通过对文本特征数据的分析，结合预设规则和统计学原理，检测出异常审批原因数据，遍历所有审批操作日志历史数据，获得异常审批原因数据集合，记为集合A；/nS300.文本分析，对审批原因文本数据进行分词，然后计算分词后的文本词语之间的相似度得分，再求得每条审批操作日志历史数据的平均分，若平均分较高，则认为该条审批操作日志历史数据为异常审批原因数据，遍历所有审批操作日志历史数据，获得异常审批原因数据集合，记作集合B；/nS400.结果整合，A∪B得到审批操作日志历史数据中所有异常审批原因数据集，记作集合C。/n

【技术特征摘要】
1.一种系统审批理由随意性检测方法，其特征在于：包括以下步骤：
S100.数据采集，采集设定期限内的审批操作日志历史数据，对审批操作日志历史数据进行解析，至少获得审批原因文本数据；
S200.规则检测，基于审批原因文本数据构建文本特征数据，通过对文本特征数据的分析，结合预设规则和统计学原理，检测出异常审批原因数据，遍历所有审批操作日志历史数据，获得异常审批原因数据集合，记为集合A；
S300.文本分析，对审批原因文本数据进行分词，然后计算分词后的文本词语之间的相似度得分，再求得每条审批操作日志历史数据的平均分，若平均分较高，则认为该条审批操作日志历史数据为异常审批原因数据，遍历所有审批操作日志历史数据，获得异常审批原因数据集合，记作集合B；
S400.结果整合，A∪B得到审批操作日志历史数据中所有异常审批原因数据集，记作集合C。

2.根据权利要求1所述的一种系统审批理由随意性检测方法，其特征在于：所述步骤S100中采用python3的pandas和json包进行日志数据提取和解析，还获得申请人账号、审批人账号、申请时间、审批时间、审批结果、操作对象数据。

3.根据权利要求2所述的一种系统审批理由随意性检测方法，其特征在于：所述步骤S400之后还包括
步骤S500，审批人员追踪，根据步骤S400中的集合C，追溯审批审批人账户，从而追溯到审批人。

4.根据权利要求1至3任一所述的一种系统审批理由随意性检测方法，其特征在于：所述步骤S200中构建的文本特征数据包括“文本长度”、“文本中文个数”、“文本非中文和中文个数比例”；集合A中包括了采用“文本中文个数”和“文本非中文和中文个数比例”两种规则判断出的异常审批原因数据，其中
基于规则的“文本中文个数”判断具体为：根据经验判断，审批原因中中文个数小于设定值的，将被列为异常审批原因数据；
基于规则的“文本非中文和中文个数比例”判断具体为：使用箱形图对特征“文本非中文和中文个数比例”进行分析，计算该特征的外限，规定在上外限以外的值为异常审批原因数据。

5.根据权利要求1或2所述的一种系统审批理由随意性检测方法，其特征在于：所述步骤S300具体为：
S301.模型训练，首先获取语料，然后通过Hanlp汉语分词系统进行文档的分词，使用word2vec模型进行训练，得到目标模型；
S302.数据预处理，对审批原因文本数据进行清洗，仅保留中文部分，得到样本数据；然后对所有样本数据进行分词，得到分词后的审批原因样本数据
S303.相似度计算，针对步骤302中的样本数据，进行
1)用步骤S301中的目标模型计算某个样本数据中词语两两之间的相似度得分；
2)计算步骤1)中词语得分的平均值，作为该条审批原因文本数据的相似度得分；
3...

【专利技术属性】
技术研发人员：马影，梁淑云，刘胜，陶景龙，王启凡，魏国富，徐明，殷钱安，余贤喆，周晓勇，
申请(专利权)人：上海观安信息技术股份有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人