基于阅读理解模型的文本分类方法及系统技术方案

技术编号：38686668 阅读：18 留言：0更新日期：2023-09-02 23:00

本发明专利技术提供了一种基于阅读理解模型的文本分类方法及系统，其中，方法包括：基于预先定义的问题模板将分类模型的待提取标签转换为输入问题，对分类模型的输入文本中含有潜在标签的上下文文本进行人工标注并进行数据增强；对输入问题以及分类模型的输入文本进行文本预处理，得到阅读理解模型的输入问题和与阅读理解模型输入问题相关的上下文并输入阅读理解模型，得到阅读理解模型的输出；根据阅读理解模型的输出获取分类模型的关键文本片段。以解决无法提取标签相关的判断依据文本片段以及易混淆片段误判和标注误差未处理的情况的问题。问题。问题。

全部详细技术资料下载

【技术实现步骤摘要】
基于阅读理解模型的文本分类方法及系统

[0001]本文件涉及分类模型
，尤其涉及一种基于阅读理解模型的文本分类方法及系统。

技术介绍

[0002]随着电子信息化的推进，在金融、保险、银行等领域的业务场景中产生了海量文本数据，其中蕴含了丰富的业务信息。如电销通话文本中根据客户是否具有经济实力、是否具有保险意识、是否具有购买意愿等可以找出高价值客户；在通话文本质检时需要评价客服是否合规，如判定对话中是否有服务禁忌语、是否有符合规定的开场白结束语等。过去，业界一般将其作为一个文本分类任务，借助经验规则、SVM等传统机器学习模型、以及近年来逐渐成为主流的神经网络分类模型来解决该任务，该解决方案称为基于文本分类技术路线的AI建模。但是使用分类模型来解决该任务有下列缺陷：一、在业务场景中不仅需要分类标签，还需要找出文本中的能表明其标签类别的关键片段，分类模型无法满足该需求；二、分类模型迁移性较差，在冷启动或标注数据少的场景中难以有效建模；三、神经网络可解释性差，导致对分类错误的样例进行分析的难度大，增大了模型优化难度。
[0003]机器阅读理解是NLP任务中的一项综合性任务，它要求机器根据给定的上下文和问题，从上下文中提取或生成问题答案。其提取答案的能力可以满足关键片段抽取的需求；借助模型对上下文+问题的语义理解能力，当面对新的问题时，即使没有标注或仅有少量标注，模型仍具有一定的回答能力，模型迁移性较强。但是传统的阅读理解模型存在一些问题，一：容易对与正确答案片段相似但含义不同的易混淆片段误识别，二:对于标注中存在...

【技术保护点】

【技术特征摘要】
1.一种基于阅读理解模型的文本分类方法，其特征在于，包括：S1、预先定义问题模版，基于所述预先定义的问题模板将分类模型的待提取标签转换为输入问题；S2、对分类模型的输入文本中含有潜在标签的上下文文本进行人工标注并进行数据增强；S3、对所述输入问题以及分类模型的输入文本进行文本预处理，得到阅读理解模型的输入问题和与所述阅读理解模型输入问题相关的上下文；S4、将所述阅读理解模型的输入问题和与所述阅读理解输入问题相关的上下文输入阅读理解模型，得到阅读理解模型的输出；S5、根据所述阅读理解模型的输出获取分类模型的关键文本片段。2.根据权利要求1所述的方法，其特征在于，所述对分类模型的输入文本中含有潜在标签的上下文文本进行人工标注并进行数据增强具体包括：S21、搜集所述输入文本中含有潜在标签的上下文文本，根据所述输入问题进行人工标注，标注内容为标签依据片段和易混淆片段，所述标签依据片段为上下文文本中用于判断标签为真的片段，所述易混淆片段为和标签相关或和所述标签依据片段说法相近但无法说明标签为真的片段；S22、对所述上下文文本应用数据增强技术进行数据增强，具体包括：词的随机替换、增加、删除以及回译，进行数据增强时不对所述标签依据片段和易混淆片段进行修改，仅改动所述上下文文本中除标签依据片段和易混淆片段的其余部分。3.根据权利要求1所述的方法，其特征在于，所述对所述输入问题以及分类模型的输入文本进行文本预处理具体包括：中文分词、词性标注、命名实体标注、交叉信息标注、去停用词、词频统计以及tf
‑
idf统计。4.根据权利要求1所述的方法，其特征在于，所述阅读理解模型需要进行预先构建，所述构建过程具体包括：S41、构建Encoder模块，所述Encoder负责对阅读理解模型的输入问题和与所述阅读理解输入问题相关的上下文编码为语义表示；S42、构建Decoder模块，所述Decoder模块负责将所述语义表示解码为标签分类结果和判断依据片段的起终点；S43、构建prediction模块，所述prediction模块用于定义所述标签依据片段的起始和所述易混淆片段的起始；S44、构建阅读理解模型的损失函数，具体包括：在传统损失函数的基础上，加入所述易混淆片段的起始，使得阅读理解模型区分易混淆偏度和标签依据片段；S45、通过公式1采用带窗口的标签平滑技术进行标签降噪处理：其中，L
i
表示上下文中第i个字为边界的概率，I为正确标签的位置，smoothing为参数用
于调整标签平滑程度，window为假设的标注误差范围，Smooth
end
和Smooth
start
为平滑的标签范围；S46、将步骤S2中标注好的数据以预设比例划分训练集、验证集以及测试集进行训练后得到训练好的阅读理解模型。5.根据权利要求1所述的方法，其特征在于，所述步骤S5具体包括：根据阅读理解模型直接输出是否有答案或根据输出答案的起始位置判断是否有答...

【专利技术属性】
技术研发人员：杨喆，
申请(专利权)人：普强时代珠海横琴信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人