一种用于审计业务的文本自动分类方法技术

技术编号：29983329 阅读：27 留言：0更新日期：2021-09-08 10:20

本发明专利技术公开了一种用于审计业务的文本自动分类方法，属于审计技术领域，包括以下步骤：S1、获取针对目标分类的相关文档集合，S2、将语料库分成训练集和测试集，S3、将文档转换为计算机可处理的特征向量，并调整特征向量中各值的权重。本发明专利技术中，能够对事先准备好分类语料做统计分析从而获得规律，构建出“分类模型”，再运用该“分类模型”对未知文本做所属分类的预测分析，实现自动分类，能够节省大量的人工，实现了文本自动分类，可用于支撑审计结果文档自动标签分类管理，不需要构建完全不同的分类系统，无需重复工作，具备可推广性。具备可推广性。具备可推广性。

全部详细技术资料下载

【技术实现步骤摘要】
一种用于审计业务的文本自动分类方法

[0001]本专利技术涉及审计
，具体为一种用于审计业务的文本自动分类方法。

技术介绍

[0002]近年来，随着大数据、人工智能、云计算、物联网和移动应用等信息技术不断应用与发展，逐渐改变着人们的生活和工作，给审计监督带来了机遇和挑战，内部审计工作正面临着审计信息化的深刻变革。
[0003]在审计信息化过程中，需要对文本进行分类，国外自动分类研究始于1950年代末，H.P.Luhn在这一领域进行了开创性的研究，1962年博科(H.Borko)等人提出了利用因子分析法进行文献的自动分类。其后许多学者在这一领域进行了卓有成效的研究，国内自动分类研究起步较晚，始于20世纪80年代初期。1981年侯汉清对计算机在文献分类工作中的应用作了探讨，并介绍了国外在计算机管理分类表、计算机分类检索、计算机自动分类、计算机编制分类表等方面的概况，但是传统的“知识工程”方法(或者称为“规则法”)，是指由专业人员为每个类别定义大量的推理规则，如果一篇文档能满足某个推理规则，则可以判定为该文档属于对应的类别，知识工程方法有比较明显的缺点，包括：分类的质量依赖于规则的好坏，而规则需要大量的专业人员进行规则的制定，人工投入大且质量不稳定；不同的领域需要构建完全不同的分类系统，重复工作较多，不具备可推广，因此亟需一种具有良好的实际表现的用于审计业务的文本自动分类方法。

技术实现思路

[0004]本专利技术提供的专利技术目的在于提供一种用于审计业务的文本自动分类方法，能够对事先准备好分...

【技术保护点】

【技术特征摘要】
1.一种用于审计业务的文本自动分类方法，其特征在于，包括以下步骤：S1、获取针对目标分类的相关文档集合；S2、将语料库分成训练集和测试集；S3、将文档转换为计算机可处理的特征向量，并调整特征向量中各值的权重；S4、基于完成特征化的文档向量，构建不同的分类模型；S5、构建的最优分类模型在生产系统中部署，并调用分类模型的接口对新增的文档进行评估。2.根据权利要求1所述的一种用于审计业务的文本自动分类方法，其特征在于，根据S1中的操作步骤，所述相关文档集合是指属于相关类别的典型文档的集合。3.根据权利要求1所述的一种用于审计业务的文本自动分类方法，其特征在于，根据S2中的操作步骤，所述语料库包括分类和文档集。4.根据权利要求1所述的一种用于审计业务的文本自动分类方法，其特征在于，根据S2中的操作步骤，所述训练集和测试集的结构与语料库完全相同，文档数量按照80％和20％的比例分给训练集和测试集。5.根据权利要求1所述的一种用于审计业务的文本自动分类方法，其特征在于，根据S3中的操作步骤，包括以下步骤：S301、特征选择：将“词”选择为文档的特征；S302、特征表示：把经过特征选择后的文档内容用数学的“向...

【专利技术属性】
技术研发人员：郑略省，卢伟龙，赵维伟，史泽斌，
申请(专利权)人：国网信息通信产业集团有限公司国网信通亿力科技有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人