用于审计领域的模型训练方法、文本分类方法及相关设备技术

技术编号:36560929 阅读:23 留言:0更新日期:2023-02-04 17:16
本申请提供的用于审计领域的模型训练方法、文本分类方法及相关设备,对获取的原始审计数据进行预处理得到原始训练数据,采用原始训练数据对神经网络模型进行预训练,得到审计领域的预训练审计模型,为审计领域文本分类提供基础。对原始审计数据进行标注,形成训练样本数据,采用训练样本数据对预训练审计模型进行训练,对预训练审计模型的参数进行微调,以得到审计文本分类模型,通过审计文本分类模型对待分类的审计数据进行精确的文本分类。对待分类的审计数据进行精确的文本分类。对待分类的审计数据进行精确的文本分类。

【技术实现步骤摘要】
用于审计领域的模型训练方法、文本分类方法及相关设备


[0001]本申请涉及审计
,尤其涉及一种用于审计领域的模型训练方法、文本分类方法及相关设备。

技术介绍

[0002]预训练语言模型的出发点是一个通用的语言模型,具有语义的解析能力,可以理解为一个处理语言的神经中枢。从第一个预训练语言模型BERT发布至今,已经在多个热门任务下得到应用。无论是工业界还是科研界,对预训练模型的使用方式逐渐灵活,能从预训练模型中拆解出适合任务的部分并组装到本领域的实际任务模型中,以使其在本领域中更好地发挥作用。但是,目前预训练模型在审计领域的应用并不多,如何训练得到适合审计领域的分类模型是亟待解决的问题。

技术实现思路

[0003]有鉴于此,本申请的目的在于提出一种用于审计领域的模型训练方法、文本分类方法及相关设备。
[0004]基于上述目的,本申请的第一方面提供了一种用于审计领域的模型训练方法,包括:
[0005]获取原始审计数据;
[0006]对所述原始审计数据进行预处理,得到原始训练数据;
[0007]基于所述原始训练数据对神经网络模型进行预训练,得到预训练审计模型;
[0008]对所述原始审计数据进行标注,得到训练样本数据;
[0009]基于所述训练样本数据对所述预训练审计模型进行训练,得到审计文本分类模型。
[0010]可选的,所述对所述原始审计数据进行预处理,包括:对所述原始审计数据进行数据去重、格式转换和数据填充。
[0011]可选的,所述对所述原始审计数据进行标注,得到训练样本数据,包括;
[0012]对所述原始审计数据进行数据清洗操作;
[0013]基于预设的审计分类标签对经过数据清洗操作的原始审计数据进行标注,得到所述训练样本数据。
[0014]可选的,所述基于所述训练样本数据对所述预训练审计模型进行训练,包括:
[0015]在所述预训练审计模型上叠加softmax层,得到初始分类模型;
[0016]通过所述训练样本数据对所述初始分类模型进行训练,得到所述审计模型进行训练。
[0017]可选的,所述预设的审计分类标签至少包括财务审计、内控审计、基建项目审计、合同审计、责任审计、专项审计、年度内部控制测试与自我评价审计和其它审计。
[0018]本申请的第二方面提供了一种应用第一方面所述的审计文本分类模型进行文本
分类的方法,包括:
[0019]获取待分类审计数据;
[0020]将所述待分类审计数据输入至所述审计文本分类模型,经由所述审计文本分类模型输入所述待分类审计数据对应的审计类型。
[0021]本申请的第三方面提供了一种用于审计领域的模型训练装置,包括:
[0022]第一获取模块,被配置为获取原始审计数据;
[0023]预处理模块,被配置为对所述原始审计数据进行预处理,得到原始训练数据;
[0024]第一训练模块,被配置为基于所述原始训练数据对神经网络模型进行预训练,得到预训练审计模型;
[0025]标注模块,被配置为对所述原始审计数据进行标注,得到训练样本数据;
[0026]第二训练模块,被配置为基于所述训练样本数据对所述预训练审计模型进行训练,得到审计文本分类模型。
[0027]本申请的第四方面提供了一种应用第三方面所述的审计文本分类模型进行文本分类的装置,包括:
[0028]第二获取模块,被配置为获取待分类审计数据;
[0029]分类模块,被配置为将所述待分类审计数据输入至所述审计文本分类模型,经由所述审计文本分类模型输入所述待分类审计数据对应的审计类型。
[0030]本申请还提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机程序,所述处理器在执行所述计算机程序时实现如上所述的方法。
[0031]本申请还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行如上所述的方法。
[0032]从上面所述可以看出,本申请提供的用于审计领域的模型训练方法、文本分类方法及相关设备,对获取的原始审计数据进行预处理得到原始训练数据,采用原始训练数据对神经网络模型进行预训练,得到审计领域的预训练审计模型,为审计领域文本分类提供基础。对原始审计数据进行标注,形成训练样本数据,采用训练样本数据对预训练审计模型进行训练,对预训练审计模型的参数进行微调,以得到审计文本分类模型,通过审计文本分类模型对待分类的审计数据进行精确的文本分类。本申请通过两次训练过程得到审计领域的文本分类模型,通过预训练和微调的方式对神经网络模型的参数进行训练,提升神经网络模型在审计领域的适用性,使其输出较为准确的审计类型。
附图说明
[0033]为了更清楚地说明本申请或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0034]图1为本申请实施例的用于审计领域的模型训练方法的流程示意图;
[0035]图2为本申请实施例的应用审计文本分类模型进行文本分类的方法的流程示意图;
[0036]图3为本申请实施例的用于审计领域的模型训练装置的结构示意图;
[0037]图4为本申请实施例的应用审计文本分类模型进行文本分类的装置的结构示意图;
[0038]图5为本申请实施例的电子设备结构示意图。
具体实施方式
[0039]为使本申请的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本申请进一步详细说明。
[0040]需要说明的是,除非另外定义,本申请实施例使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。本申请实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
[0041]以下结合附图来详细说明本申请的实施例。
[0042]本申请提供了一种用于审计领域的模型训练方法,参考图1,包括以下步骤:
[0043]步骤102、获取原始审计数据。
[0044]具体的,原始审计数据可以通过网络爬取或从现有数据库中获取,本实施例对于具体获取方式不做限定。原始审计数据包括审计单位、被审计单位、审计问题等等。
[004本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于审计领域的模型训练方法,其特征在于,包括:获取原始审计数据;对所述原始审计数据进行预处理,得到原始训练数据;基于所述原始训练数据对神经网络模型进行预训练,得到预训练审计模型;对所述原始审计数据进行标注,得到训练样本数据;基于所述训练样本数据对所述预训练审计模型进行训练,得到审计文本分类模型。2.根据权利要求1所述的方法,其特征在于,所述对所述原始审计数据进行预处理,包括:对所述原始审计数据进行数据去重、格式转换和数据填充。3.根据权利要求1所述的方法,其特征在于,所述对所述原始审计数据进行标注,得到训练样本数据,包括:对所述原始审计数据进行数据清洗操作;基于预设的审计分类标签对经过数据清洗操作的原始审计数据进行标注,得到所述训练样本数据。4.根据权利要求1所述的方法,其特征在于,所述基于所述训练样本数据对所述预训练审计模型进行训练,得到审计文本分类模型,包括:在所述预训练审计模型上叠加softmax层,得到初始分类模型;通过所述训练样本数据对所述初始分类模型进行训练,得到所述审计文本分类模型。5.根据权利要求3所述的方法,其特征在于,所述预设的审计分类标签至少包括财务审计、内控审计、基建项目审计、合同审计、责任审计、专项审计、年度内部控制测试与自我评价审计和其它审计。6.一种应用权利要求1

5任一项所述的审计文本分类...

【专利技术属性】
技术研发人员:王开志王开向王涌
申请(专利权)人:北京至臻云智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1