自然语言处理方法、装置及计算机设备制造方法及图纸

技术编号:33551844 阅读:23 留言:0更新日期:2022-05-26 22:48
本申请公开了一种自然语言处理方法、装置及计算机设备,涉及人工智能技术领域,可解决针对不同的自然语言处理任务,需要量身定做相应的模型,同时进行各种“魔改”,导致任务处理效率低、成本高,且通用领域模型表征能力有限,在垂直下游任务中拟合能力较差的技术问题。其中方法包括:根据预设训练任务对通用领域下的BERT模型进行增量预训练,得到自然语言处理模型,其中,预设训练任务包括字词级别的第一训练任务和任务级别的第二训练任务;获取待进行自然语言处理的文本数据,并对文本数据进行预处理,其中,预处理包括数据清洗处理、停用词滤除处理中的至少一种;将预处理后的文本数据输入自然语言处理模型中,获取自然语言处理结果。果。果。

【技术实现步骤摘要】
自然语言处理方法、装置及计算机设备


[0001]本申请涉及人工智能
,尤其涉及到一种自然语言处理方法、装置及计算机设备。

技术介绍

[0002]在保险医疗场景中,有着丰富多样的自然语言处理任务,包括文本分类、情感分析、文本聚类、实体识别、文本相似度计算、信息抽取等。每一类任务中又有很多细分场景,比如在实体识别中,既有疾病名称和人物名称提取,也有药品、时间提取,也有医疗诊断证明中的关键实体提取等等。在情感分析中,除了常见的用户情感二分类以外,还需要对同一个事件进行多维度情感分析,比如坐席说话语气、坐席与用户交互轮次等等,这样方便业务人员可以对这个标的进行深入的竞争分析,业绩预测等等。可见,保险医疗领域的NLP任务具有任务庞杂、异构等特点。
[0003]目前,对于自然语言处理任务,在常见的解决方案中,算法工程师一般会针对每一类问题,量身定做相应的模型,同时进行各种“魔改”。这会导致大量的时间和精力消耗在了模型选择和测试中。同时,对于保险医疗这类垂直领域的问题,往往还面临着低资源的困境,这主要体现在两个方面:少样本,即数据搜集的成本很高。由于很多问题和具体业务场景有关系,因此能够搜集到的数据总量是有限的;少标注,即数据标注成本很高。对于保险领域的问题,数据标注往往需要专业医疗团队的深度参与,这极大增加了数据标注成本。

技术实现思路

[0004]有鉴于此,本申请公开了一种自然语言处理方法、装置及计算机设备,可用于解决目前在进行自然语言任务处理时,针对不同的处理任务,需要量身定做相应的模型,同时进行各种“魔改”,导致任务处理效率低、成本高,且通用领域模型表征能力有限,在垂直下游任务中拟合能力较差的技术问题。
[0005]根据本申请的一个方面,提供了一种自然语言处理方法,该方法包括:
[0006]根据预设训练任务对通用领域下的BERT模型进行增量预训练,得到自然语言处理模型,其中,所述预设训练任务包括字词级别的第一训练任务和任务级别的第二训练任务;
[0007]获取待进行自然语言处理的文本数据,并对所述文本数据进行预处理,其中,所述预处理包括数据清洗处理、停用词滤除处理中的至少一种;
[0008]将预处理后的所述文本数据输入所述自然语言处理模型中,获取自然语言处理结果。
[0009]可选地,所述根据预设训练任务对通用领域下的BERT模型进行增量预训练,得到自然语言处理模型,包括:
[0010]获取所述第一训练任务对应的第一样本语料,以及所述第二训练任务对应的第二样本语料;
[0011]根据第一训练任务以及所述第一样本语料对所述BERT模型进行字词级别的第一
预训练;
[0012]根据第二训练任务以及所述第二样本语料对所述BERT模型进行任务级别的第二预训练;
[0013]在判断所述BERT模型完成所述第一预训练和所述第二预训练后,将所述BERT模型确定为自然语言处理模型。
[0014]可选地,所述第一训练任务包括全词Mask任务、语句顺序预测任务,所述根据第一训练任务以及所述第一样本语料对所述BERT模型进行字词级别的第一预训练,包括:
[0015]对所述第一样本语料进行分词处理,得到包含各个字符的文本序列,在所述文本序列中抽取与预设词典共现的字符或由至少两个字符构成的词语对所述BERT模型进行全词Mask预训练;以及,
[0016]按照预设字符标识对所述第一样本语料进行语句划分,得到包含各个语句的语句序列,利用所述语句序列中连续的两个语句构建所述语句顺序预测任务的正例样本语句对,将所述连续的两个语句进行顺序交换后构建所述语句顺序预测任务的负例样本语句对,利用所述正例样本语句对和所述负例样本语句对对所述BERT模型进行语句顺序预测预训练。
[0017]可选地,在所述文本序列中抽取与预设词典共现的字符或由至少两个字符构成的词语对所述BERT模型进行全词Mask预训练之前,还包括:
[0018]基于TF

IDF算法从标准行业文件中提取所述预设训练任务对应的行业关键词;
[0019]根据各个所述行业关键词以及所述行业关键词在语料库中所属语种的语种内关联关系,获取各个所述行业关键词的关联词语,所述关联词语包括同义词、近义词、音似词和形似词中的至少一种;
[0020]基于所述行业关键词和所述关联词语构建预设词典。
[0021]可选地,所述利用所述正例样本语句对和所述负例样本语句对对所述BERT模型进行语句顺序预测预训练,包括:
[0022]将所述正例样本语句对和所述负例样本语句对分别输入所述BERT模型,获取所述正例样本语句对中两个语句对应的第一语句向量和第二语句向量,以及所述负例样本语句对中两个语句对应的第三语句向量和第四语句向量;
[0023]计算所述第一语句向量和所述第二语句向量的第一向量特征距离,以及所述第三语句向量和所述第四语句向量的第二向量特征距离,根据所述第一向量特征距离和所述第二向量特征距离更新所述BERT模型的模型参数,以使所述第一向量特征距离小于第一预设阈值,且所述第二向量特征距离大于第二预设阈值,其中,所述第二预设阈值大于所述第一预设阈值。
[0024]可选地,所述第二训练任务包括对话场景对象的分类任务和实体识别任务;
[0025]所述根据第二训练任务以及所述第二样本语料对所述BERT模型进行任务级别的第二预训练,包括:
[0026]为所述第二样本语料配置任务标签,所述任务标签包括对象标签和实体标签;
[0027]以所述第二样本语料作为所述BERT模型的输入特征,以及以所述对象标签或所述实体标签为训练标签训练所述BERT模型,获取任务训练结果;
[0028]根据所述任务标签和所述任务训练结果计算所述BERT模型的损失函数;
[0029]若所述损失函数达到模型收敛要求,则判定所述BERT模型完成所述分类任务的第二预训练;
[0030]若判断所述损失函数未达到模型收敛要求,则更新所述BERT模型的模型参数,并对更新后的BERT模型进行迭代训练,直至所述损失函数符合模型收敛要求。
[0031]可选地在所述将预处理后的所述文本数据输入所述自然语言处理模型中,获取自然语言处理结果之前,还包括:
[0032]确定所述文本数据对应的目标下游任务,利用与所述目标下游任务匹配的适应数据对所述自然语言处理模型进行微调处理;
[0033]所述将预处理后的所述文本数据输入所述自然语言处理模型中,获取自然语言处理结果,包括:
[0034]将预处理后的所述文本数据输入微调处理后的自然语言处理模型中,获取所述目标下游任务对应的自然语言处理结果。
[0035]根据本申请的另一个方面,提供了一种自然语言处理装置,该装置包括:
[0036]训练模块,用于根据预设训练任务对通用领域下的BERT模型进行增量预训练,得到自然语言处理模型,其中,所述预设训练任务包括字词级别的第一训练本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种自然语言处理方法,其特征在于,包括:根据预设训练任务对通用领域下的BERT模型进行增量预训练,得到自然语言处理模型,其中,所述预设训练任务包括字词级别的第一训练任务和任务级别的第二训练任务;获取待进行自然语言处理的文本数据,并对所述文本数据进行预处理,其中,所述预处理包括数据清洗处理、停用词滤除处理中的至少一种;将预处理后的所述文本数据输入所述自然语言处理模型中,获取自然语言处理结果。2.根据权利要求1所述的方法,其特征在于,所述根据预设训练任务对通用领域下的BERT模型进行增量预训练,得到自然语言处理模型,包括:获取所述第一训练任务对应的第一样本语料,以及所述第二训练任务对应的第二样本语料;根据第一训练任务以及所述第一样本语料对所述BERT模型进行字词级别的第一预训练;根据第二训练任务以及所述第二样本语料对所述BERT模型进行任务级别的第二预训练;在判断所述BERT模型完成所述第一预训练和所述第二预训练后,将所述BERT模型确定为自然语言处理模型。3.根据权利要求2所述的方法,其特征在于,所述第一训练任务包括全词Mask任务、语句顺序预测任务,所述根据第一训练任务以及所述第一样本语料对所述BERT模型进行字词级别的第一预训练,包括:对所述第一样本语料进行分词处理,得到包含各个字符的文本序列,在所述文本序列中抽取与预设词典共现的字符或由至少两个字符构成的词语对所述BERT模型进行全词Mask预训练;以及,按照预设字符标识对所述第一样本语料进行语句划分,得到包含各个语句的语句序列,利用所述语句序列中连续的两个语句构建所述语句顺序预测任务的正例样本语句对,将所述连续的两个语句进行顺序交换后构建所述语句顺序预测任务的负例样本语句对,利用所述正例样本语句对和所述负例样本语句对对所述BERT模型进行语句顺序预测预训练。4.根据权利要求3所述的方法,其特征在于,在所述文本序列中抽取与预设词典共现的字符或由至少两个字符构成的词语对所述BERT模型进行全词Mask预训练之前,还包括:基于TF

IDF算法从标准行业文件中提取所述预设训练任务对应的行业关键词;根据各个所述行业关键词以及所述行业关键词在语料库中所属语种的语种内关联关系,获取各个所述行业关键词的关联词语,所述关联词语包括同义词、近义词、音似词和形似词中的至少一种;基于所述行业关键词和所述关联词语构建预设词典。5.根据权利要求3所述的方法,其特征在于,所述利用所述正例样本语句对和所述负例样本语句对对所述BERT模型进行语句顺序预测预训练,包括:将所述正例样本语句对和所述负例样本语句对分别输入所述BERT模型,获取所述正例样本语句对中两个语句对应的第一语句向量和第...

【专利技术属性】
技术研发人员:侯盼盼黄明星王福钋张航飞徐华韫曹富康沈鹏
申请(专利权)人:北京健康之家科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1