用于审计领域的模型训练方法、文本分类方法及相关设备技术

技术编号：36560929 阅读：23 留言：0更新日期：2023-02-04 17:16

本申请提供的用于审计领域的模型训练方法、文本分类方法及相关设备，对获取的原始审计数据进行预处理得到原始训练数据，采用原始训练数据对神经网络模型进行预训练，得到审计领域的预训练审计模型，为审计领域文本分类提供基础。对原始审计数据进行标注，形成训练样本数据，采用训练样本数据对预训练审计模型进行训练，对预训练审计模型的参数进行微调，以得到审计文本分类模型，通过审计文本分类模型对待分类的审计数据进行精确的文本分类。对待分类的审计数据进行精确的文本分类。对待分类的审计数据进行精确的文本分类。

全部详细技术资料下载

【技术实现步骤摘要】
用于审计领域的模型训练方法、文本分类方法及相关设备

[0001]本申请涉及审计
，尤其涉及一种用于审计领域的模型训练方法、文本分类方法及相关设备。

技术介绍

[0002]预训练语言模型的出发点是一个通用的语言模型，具有语义的解析能力，可以理解为一个处理语言的神经中枢。从第一个预训练语言模型BERT发布至今，已经在多个热门任务下得到应用。无论是工业界还是科研界，对预训练模型的使用方式逐渐灵活，能从预训练模型中拆解出适合任务的部分并组装到本领域的实际任务模型中，以使其在本领域中更好地发挥作用。但是，目前预训练模型在审计领域的应用并不多，如何训练得到适合审计领域的分类模型是亟待解决的问题。

技术实现思路

[0003]有鉴于此，本申请的目的在于提出一种用于审计领域的模型训练方法、文本分类方法及相关设备。
[0004]基于上述目的，本申请的第一方面提供了一种用于审计领域的模型训练方法，包括：
[0005]获取原始审计数据；
[0006]对所述原始审计数据进行预处理，得到原始训练数据；
[0007]基于所述原始训练数据对神经网络模型进行预训练，得到预训练审计模型；
[0008]对所述原始审计数据进行标注，得到训练样本数据；
[0009]基于所述训练样本数据对所述预训练审计模型进行训练，得到审计文本分类模型。
[0010]可选的，所述对所述原始审计数据进行预处理，包括：对所述原始审计数据进行数据去重、格式转换和数据填充。
[0011]可选的，所述...

【技术保护点】

【技术特征摘要】
1.一种用于审计领域的模型训练方法，其特征在于，包括：获取原始审计数据；对所述原始审计数据进行预处理，得到原始训练数据；基于所述原始训练数据对神经网络模型进行预训练，得到预训练审计模型；对所述原始审计数据进行标注，得到训练样本数据；基于所述训练样本数据对所述预训练审计模型进行训练，得到审计文本分类模型。2.根据权利要求1所述的方法，其特征在于，所述对所述原始审计数据进行预处理，包括：对所述原始审计数据进行数据去重、格式转换和数据填充。3.根据权利要求1所述的方法，其特征在于，所述对所述原始审计数据进行标注，得到训练样本数据，包括：对所述原始审计数据进行数据清洗操作；基于预设的审计分类标签对经过数据清洗操作的原始审计数据进行标注，得到所述训练样本数据。4.根据权利要求1所述的方法，其特征在于，所述基于所述训练样本数据对所述预训练审计模型进行训练，得到审计文本分类模型，包括：在所述预训练审计模型上叠加softmax层，得到初始分类模型；通过所述训练样本数据对所述初始分类模型进行训练，得到所述审计文本分类模型。5.根据权利要求3所述的方法，其特征在于，所述预设的审计分类标签至少包括财务审计、内控审计、基建项目审计、合同审计、责任审计、专项审计、年度内部控制测试与自我评价审计和其它审计。6.一种应用权利要求1
‑
5任一项所述的审计文本分类...

【专利技术属性】
技术研发人员：王开志，王开向，王涌，
申请(专利权)人：北京至臻云智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人