基于阅读理解模型的文本分类方法及系统技术方案

技术编号:38686668 阅读:18 留言:0更新日期:2023-09-02 23:00
本发明专利技术提供了一种基于阅读理解模型的文本分类方法及系统,其中,方法包括:基于预先定义的问题模板将分类模型的待提取标签转换为输入问题,对分类模型的输入文本中含有潜在标签的上下文文本进行人工标注并进行数据增强;对输入问题以及分类模型的输入文本进行文本预处理,得到阅读理解模型的输入问题和与阅读理解模型输入问题相关的上下文并输入阅读理解模型,得到阅读理解模型的输出;根据阅读理解模型的输出获取分类模型的关键文本片段。以解决无法提取标签相关的判断依据文本片段以及易混淆片段误判和标注误差未处理的情况的问题。问题。问题。

【技术实现步骤摘要】
基于阅读理解模型的文本分类方法及系统


[0001]本文件涉及分类模型
,尤其涉及一种基于阅读理解模型的文本分类方法及系统。

技术介绍

[0002]随着电子信息化的推进,在金融、保险、银行等领域的业务场景中产生了海量文本数据,其中蕴含了丰富的业务信息。如电销通话文本中根据客户是否具有经济实力、是否具有保险意识、是否具有购买意愿等可以找出高价值客户;在通话文本质检时需要评价客服是否合规,如判定对话中是否有服务禁忌语、是否有符合规定的开场白结束语等。过去,业界一般将其作为一个文本分类任务,借助经验规则、SVM等传统机器学习模型、以及近年来逐渐成为主流的神经网络分类模型来解决该任务,该解决方案称为基于文本分类技术路线的AI建模。但是使用分类模型来解决该任务有下列缺陷:一、在业务场景中不仅需要分类标签,还需要找出文本中的能表明其标签类别的关键片段,分类模型无法满足该需求;二、分类模型迁移性较差,在冷启动或标注数据少的场景中难以有效建模;三、神经网络可解释性差,导致对分类错误的样例进行分析的难度大,增大了模型优化难度。
[0003]机器阅读理解是NLP任务中的一项综合性任务,它要求机器根据给定的上下文和问题,从上下文中提取或生成问题答案。其提取答案的能力可以满足关键片段抽取的需求;借助模型对上下文+问题的语义理解能力,当面对新的问题时,即使没有标注或仅有少量标注,模型仍具有一定的回答能力,模型迁移性较强。但是传统的阅读理解模型存在一些问题,一:容易对与正确答案片段相似但含义不同的易混淆片段误识别,二:对于标注中存在的标注误差没有进行处理,导致模型效果不佳。

技术实现思路

[0004]本发提供一种基于阅读理解模型的文本分类方法及系统,旨在解决上述问题。
[0005]本专利技术提供了一种基于阅读理解模型的文本分类方法,包括:
[0006]S1、预先定义问题模版,基于预先定义的问题模板将分类模型的待提取标签转换为输入问题;
[0007]S2、对分类模型的输入文本中含有潜在标签的上下文文本进行人工标注并进行数据增强;
[0008]S3、对输入问题以及分类模型的输入文本进行文本预处理,得到阅读理解模型的输入问题和与阅读理解模型输入问题相关的上下文;
[0009]S4、将得到阅读理解模型的输入问题和与阅读理解输入问题相关的上下文输入阅读理解模型,得到阅读理解模型的输出;
[0010]S5、根据阅读理解模型的输出获取分类模型的关键文本片段。
[0011]本专利技术提供了一种基于阅读理解模型的文本分类系统,包括:
[0012]输入问题模块,用于预先定义问题模版,基于预先定义的问题模板将分类模型的
待提取标签转换为输入问题,
[0013]数据标注模块,用于对分类模型的输入文本中含有潜在标签的上下文文本进行人工标注并进行数据增强;
[0014]预处理模块,用于对输入问题以及分类模型的输入文本进行文本预处理,得到阅读理解模型的输入问题和与阅读理解模型输入问题相关的上下文;
[0015]模型输出模块,用于将得到阅读理解模型的输入问题和与阅读理解输入问题相关的上下文输入阅读理解模型,得到阅读理解模型的输出;
[0016]获取关键文本片段模块,用于根据阅读理解模型的输出获取分类模型的关键文本片段。
[0017]采用本专利技术实施例,满足了提取文本片段的业务需求,增强了可迁移性和可解释性,同时完善了现有阅读理解解决方案的缺陷。解决了文本分类存在的下列问题:
[0018]1、无法提取标签相关的判断依据文本片段。
[0019]2、同时对阅读理解方案存在的两个缺陷:易混淆片段误判和标注误差未处理的情况提出了解决方法。
附图说明
[0020]为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0021]图1为本专利技术实施例的基于阅读理解模型的文本分类方法的流程图;
[0022]图2为本专利技术实施例的基于阅读理解模型的文本分类方法的具体执行步骤示意图;
[0023]图3为本专利技术实施例的基于阅读理解模型的文本分类系统的示意图。
具体实施方式
[0024]为了使本
的人员更好地理解本说明书一个或多个实施例中的技术方案,下面将结合本说明书一个或多个实施例中的附图,对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书的一部分实施例,而不是全部的实施例。基于本说明书一个或多个实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本文件的保护范围。
[0025]方法实施例
[0026]本专利技术实施例提供了一种基于阅读理解模型的文本分类方法,图1为本专利技术实施例的基于阅读理解模型的文本分类方法的流程图,根据图1

图2所示,本专利技术实施例的基于阅读理解模型的文本分类方法具体包括:
[0027]步骤S101,预先定义问题模版,基于预先定义的问题模板将分类模型的待提取标签转换为输入问题,具体包括:分类文本作为阅读理解任务的文本片段输入,待分类标签用模版转化为阅读理解的问题输入,阅读理解任务就是根据输入的文本片段和问题来得到答案,从而完成分类和依据片段的提取。
[0028]步骤S102,对分类模型的输入文本中含有潜在标签的上下文文本进行人工标注并进行数据增强;步骤S102具体包括:
[0029]S21、搜集所述输入文本中含有潜在标签的上下文文本,根据所述输入问题进行人工标注,标注内容为标签依据片段和易混淆片段,所述标签依据片段为上下文文本中用于判断标签为真的片段,所述易混淆片段为和标签相关或和所述标签依据片段说法相近但无法说明标签为真的片段;
[0030]S22、对所述上下文文本应用数据增强技术进行数据增强,具体包括:词的随机替换、增加、删除以及回译,进行数据增强时不对所述标签依据片段和易混淆片段进行修改,仅改动所述上下文文本中除标签依据片段和易混淆片段的其余部分。
[0031]步骤S103,对输入问题以及分类模型的输入文本进行文本预处理,得到阅读理解模型的输入问题和与阅读理解模型输入问题相关的上下文;步骤S103中的文本预处理包含但不限于中文分词、词性标注、命名实体标注、交叉信息标注、去停用词、词频统计以及tf

idf统计。
[0032]经过步骤S103进行文本预处理后得到的阅读理解模型的输入包括:
[0033]question_word_id:问题词id列表;
[0034]question_pos:问题词性id列表;
[0035]question_ner:问题命名实体id列表;
[0036]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于阅读理解模型的文本分类方法,其特征在于,包括:S1、预先定义问题模版,基于所述预先定义的问题模板将分类模型的待提取标签转换为输入问题;S2、对分类模型的输入文本中含有潜在标签的上下文文本进行人工标注并进行数据增强;S3、对所述输入问题以及分类模型的输入文本进行文本预处理,得到阅读理解模型的输入问题和与所述阅读理解模型输入问题相关的上下文;S4、将所述阅读理解模型的输入问题和与所述阅读理解输入问题相关的上下文输入阅读理解模型,得到阅读理解模型的输出;S5、根据所述阅读理解模型的输出获取分类模型的关键文本片段。2.根据权利要求1所述的方法,其特征在于,所述对分类模型的输入文本中含有潜在标签的上下文文本进行人工标注并进行数据增强具体包括:S21、搜集所述输入文本中含有潜在标签的上下文文本,根据所述输入问题进行人工标注,标注内容为标签依据片段和易混淆片段,所述标签依据片段为上下文文本中用于判断标签为真的片段,所述易混淆片段为和标签相关或和所述标签依据片段说法相近但无法说明标签为真的片段;S22、对所述上下文文本应用数据增强技术进行数据增强,具体包括:词的随机替换、增加、删除以及回译,进行数据增强时不对所述标签依据片段和易混淆片段进行修改,仅改动所述上下文文本中除标签依据片段和易混淆片段的其余部分。3.根据权利要求1所述的方法,其特征在于,所述对所述输入问题以及分类模型的输入文本进行文本预处理具体包括:中文分词、词性标注、命名实体标注、交叉信息标注、去停用词、词频统计以及tf

idf统计。4.根据权利要求1所述的方法,其特征在于,所述阅读理解模型需要进行预先构建,所述构建过程具体包括:S41、构建Encoder模块,所述Encoder负责对阅读理解模型的输入问题和与所述阅读理解输入问题相关的上下文编码为语义表示;S42、构建Decoder模块,所述Decoder模块负责将所述语义表示解码为标签分类结果和判断依据片段的起终点;S43、构建prediction模块,所述prediction模块用于定义所述标签依据片段的起始和所述易混淆片段的起始;S44、构建阅读理解模型的损失函数,具体包括:在传统损失函数的基础上,加入所述易混淆片段的起始,使得阅读理解模型区分易混淆偏度和标签依据片段;S45、通过公式1采用带窗口的标签平滑技术进行标签降噪处理:其中,L
i
表示上下文中第i个字为边界的概率,I为正确标签的位置,smoothing为参数用
于调整标签平滑程度,window为假设的标注误差范围,Smooth
end
和Smooth
start
为平滑的标签范围;S46、将步骤S2中标注好的数据以预设比例划分训练集、验证集以及测试集进行训练后得到训练好的阅读理解模型。5.根据权利要求1所述的方法,其特征在于,所述步骤S5具体包括:根据阅读理解模型直接输出是否有答案或根据输出答案的起始位置判断是否有答...

【专利技术属性】
技术研发人员:杨喆
申请(专利权)人:普强时代珠海横琴信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1