一种用于审计业务的文本自动分类方法技术

技术编号:29983329 阅读:27 留言:0更新日期:2021-09-08 10:20
本发明专利技术公开了一种用于审计业务的文本自动分类方法,属于审计技术领域,包括以下步骤:S1、获取针对目标分类的相关文档集合,S2、将语料库分成训练集和测试集,S3、将文档转换为计算机可处理的特征向量,并调整特征向量中各值的权重。本发明专利技术中,能够对事先准备好分类语料做统计分析从而获得规律,构建出“分类模型”,再运用该“分类模型”对未知文本做所属分类的预测分析,实现自动分类,能够节省大量的人工,实现了文本自动分类,可用于支撑审计结果文档自动标签分类管理,不需要构建完全不同的分类系统,无需重复工作,具备可推广性。具备可推广性。具备可推广性。

【技术实现步骤摘要】
一种用于审计业务的文本自动分类方法


[0001]本专利技术涉及审计
,具体为一种用于审计业务的文本自动分类方法。

技术介绍

[0002]近年来,随着大数据、人工智能、云计算、物联网和移动应用等信息技术不断应用与发展,逐渐改变着人们的生活和工作,给审计监督带来了机遇和挑战,内部审计工作正面临着审计信息化的深刻变革。
[0003]在审计信息化过程中,需要对文本进行分类,国外自动分类研究始于1950年代末,H.P.Luhn在这一领域进行了开创性的研究,1962年博科(H.Borko)等人提出了利用因子分析法进行文献的自动分类。其后许多学者在这一领域进行了卓有成效的研究,国内自动分类研究起步较晚,始于20世纪80年代初期。1981年侯汉清对计算机在文献分类工作中的应用作了探讨,并介绍了国外在计算机管理分类表、计算机分类检索、计算机自动分类、计算机编制分类表等方面的概况,但是传统的“知识工程”方法(或者称为“规则法”),是指由专业人员为每个类别定义大量的推理规则,如果一篇文档能满足某个推理规则,则可以判定为该文档属于对应的类别,知识工程方法有比较明显的缺点,包括:分类的质量依赖于规则的好坏,而规则需要大量的专业人员进行规则的制定,人工投入大且质量不稳定;不同的领域需要构建完全不同的分类系统,重复工作较多,不具备可推广,因此亟需一种具有良好的实际表现的用于审计业务的文本自动分类方法。

技术实现思路

[0004]本专利技术提供的专利技术目的在于提供一种用于审计业务的文本自动分类方法,能够对事先准备好分类语料做统计分析从而获得规律,构建出“分类模型”,再运用该“分类模型”对未知文本做所属分类的预测分析,实现自动分类,能够节省大量的人工,不需要构建完全不同的分类系统,无需重复工作,具备可推广性。
[0005]为了实现上述效果,本专利技术提供如下技术方案:一种用于审计业务的文本自动分类方法,包括以下步骤:
[0006]S1、获取针对目标分类的相关文档集合。
[0007]S2、将语料库分成训练集和测试集。
[0008]S3、将文档转换为计算机可处理的特征向量,并调整特征向量中各值的权重。
[0009]S4、基于完成特征化的文档向量,构建不同的分类模型。
[0010]S5、构建的最优分类模型在生产系统中部署,并调用分类模型的接口对新增的文档进行评估。
[0011]进一步的,根据S1中的操作步骤,所述相关文档集合是指属于相关类别的典型文档的集合。
[0012]进一步的,根据S2中的操作步骤,所述语料库包括分类和文档集。
[0013]进一步的,根据S2中的操作步骤,所述训练集和测试集的结构与语料库完全相同,
文档数量按照80%和20%的比例分给训练集和测试集。
[0014]进一步的,根据S3中的操作步骤,包括以下步骤:
[0015]S301、特征选择:将“词”选择为文档的特征。
[0016]S302、特征表示:把经过特征选择后的文档内容用数学的“向量”进行表示。
[0017]S303、特征优化:采用期望交叉熵法调整特征向量中各值的权重。
[0018]进一步的,根据S301中的操作步骤,将文档表示为一系列词,并将停用词剔除。
[0019]进一步的,所述停用词指常用的、无意义的虚词。
[0020]进一步的,根据S302中的操作步骤,将语料库中的所有文档分词组成一个“词典”,从“词典”的第一个词开始判断,如果文档中包含“词典”该位置对应的分词,则在向量的相关位置标记为1,否则标记为0。
[0021]进一步的,根据S4中的操作步骤,基于“训练集”构建分类模型,利用“测试集”对所构建出来的分类模型进行评估。
[0022]进一步的,所述分类模型评估包括两个指标,分别是正确率和召回率,其中正确率是评价分类模型找到的属于某个分类的文档是否正确的指标,召回率是评价分类模型在发现属于该分类文档过程中是否存在“遗漏”的指标。
[0023]本专利技术提供了一种用于审计业务的文本自动分类方法,具备以下有益效果:
[0024](1)本专利技术中,能够对事先准备好分类语料做统计分析从而获得规律,构建出“分类模型”,再运用该“分类模型”对未知文本做所属分类的预测分析,实现自动分类,能够节省大量的人工。
[0025](2)本专利技术中,实现了文本自动分类,可用于支撑审计结果文档自动标签分类管理,不需要构建完全不同的分类系统,无需重复工作,具备可推广性。
附图说明
[0026]图1为一种用于审计业务的文本自动分类方法的流程图。
具体实施方式
[0027]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述;显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例,基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0028]本专利技术提供一种技术方案:请参阅图1,一种用于审计业务的文本自动分类方法,包括以下步骤:
[0029](1)、获取针对目标分类的相关文档集合。
[0030](2)、将语料库分成训练集和测试集。
[0031](3)、将文档转换为计算机可处理的特征向量,并调整特征向量中各值的权重。
[0032](4)、基于完成特征化的文档向量,构建不同的分类模型。
[0033](5)、构建的最优分类模型在生产系统中部署,并调用分类模型的接口对新增的文档进行评估。
[0034]具体的,根据(1)中的操作步骤,相关文档集合是指属于相关类别的典型文档的集
合。
[0035]具体的,根据(2)中的操作步骤,语料库包括分类和文档集。
[0036]具体的,根据(2)中的操作步骤,训练集和测试集的结构与语料库完全相同,文档数量按照80%和20%的比例分给训练集和测试集。
[0037]具体的,根据(3)中的操作步骤,包括以下步骤:
[0038](301)、特征选择:将“词”选择为文档的特征。
[0039](302)、特征表示:把经过特征选择后的文档内容用数学的“向量”进行表示。
[0040](303)、特征优化:采用期望交叉熵法调整特征向量中各值的权重。
[0041]具体的,根据(301)中的操作步骤,将文档表示为一系列词,并将停用词剔除。
[0042]具体的,停用词指常用的、无意义的虚词。
[0043]具体的,根据(302)中的操作步骤,将语料库中的所有文档分词组成一个“词典”,从“词典”的第一个词开始判断,如果文档中包含“词典”该位置对应的分词,则在向量的相关位置标记为1,否则标记为0。
[0044]具体的,根据(4)中的操作步骤,基于“训练集”构建分类模型,利用“测试集”对所构建出来的分类模型进行评估。
[0045]具体的,分类模型评估包括两个指标,分别是正确率和召回率本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于审计业务的文本自动分类方法,其特征在于,包括以下步骤:S1、获取针对目标分类的相关文档集合;S2、将语料库分成训练集和测试集;S3、将文档转换为计算机可处理的特征向量,并调整特征向量中各值的权重;S4、基于完成特征化的文档向量,构建不同的分类模型;S5、构建的最优分类模型在生产系统中部署,并调用分类模型的接口对新增的文档进行评估。2.根据权利要求1所述的一种用于审计业务的文本自动分类方法,其特征在于,根据S1中的操作步骤,所述相关文档集合是指属于相关类别的典型文档的集合。3.根据权利要求1所述的一种用于审计业务的文本自动分类方法,其特征在于,根据S2中的操作步骤,所述语料库包括分类和文档集。4.根据权利要求1所述的一种用于审计业务的文本自动分类方法,其特征在于,根据S2中的操作步骤,所述训练集和测试集的结构与语料库完全相同,文档数量按照80%和20%的比例分给训练集和测试集。5.根据权利要求1所述的一种用于审计业务的文本自动分类方法,其特征在于,根据S3中的操作步骤,包括以下步骤:S301、特征选择:将“词”选择为文档的特征;S302、特征表示:把经过特征选择后的文档内容用数学的“向...

【专利技术属性】
技术研发人员:郑略省卢伟龙赵维伟史泽斌
申请(专利权)人:国网信息通信产业集团有限公司国网信通亿力科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1