自然语言处理方法、装置及计算机设备制造方法及图纸

技术编号：33551844 阅读：32 留言：0更新日期：2022-05-26 22:48

本申请公开了一种自然语言处理方法、装置及计算机设备，涉及人工智能技术领域，可解决针对不同的自然语言处理任务，需要量身定做相应的模型，同时进行各种“魔改”，导致任务处理效率低、成本高，且通用领域模型表征能力有限，在垂直下游任务中拟合能力较差的技术问题。其中方法包括：根据预设训练任务对通用领域下的BERT模型进行增量预训练，得到自然语言处理模型，其中，预设训练任务包括字词级别的第一训练任务和任务级别的第二训练任务；获取待进行自然语言处理的文本数据，并对文本数据进行预处理，其中，预处理包括数据清洗处理、停用词滤除处理中的至少一种；将预处理后的文本数据输入自然语言处理模型中，获取自然语言处理结果。果。果。

全部详细技术资料下载

【技术实现步骤摘要】
自然语言处理方法、装置及计算机设备

[0001]本申请涉及人工智能
，尤其涉及到一种自然语言处理方法、装置及计算机设备。

技术介绍

[0002]在保险医疗场景中，有着丰富多样的自然语言处理任务，包括文本分类、情感分析、文本聚类、实体识别、文本相似度计算、信息抽取等。每一类任务中又有很多细分场景，比如在实体识别中，既有疾病名称和人物名称提取，也有药品、时间提取，也有医疗诊断证明中的关键实体提取等等。在情感分析中，除了常见的用户情感二分类以外，还需要对同一个事件进行多维度情感分析，比如坐席说话语气、坐席与用户交互轮次等等，这样方便业务人员可以对这个标的进行深入的竞争分析，业绩预测等等。可见，保险医疗领域的NLP任务具有任务庞杂、异构等特点。
[0003]目前，对于自然语言处理任务，在常见的解决方案中，算法工程师一般会针对每一类问题，量身定做相应的模型，同时进行各种“魔改”。这会导致大量的时间和精力消耗在了模型选择和测试中。同时，对于保险医疗这类垂直领域的问题，往往还面临着低资源的困境，这主要体现在两个方面：少样本，即数据搜集的成本很高。由于很多问题和具体业务场景有关系，因此能够搜集到的数据总量是有限的；少标注，即数据标注成本很高。对于保险领域的问题，数据标注往往需要专业医疗团队的深度参与，这极大增加了数据标注成本。

技术实现思路

[0004]有鉴于此，本申请公开了一种自然语言处理方法、装置及计算机设备，可用于解决目前在进行自然语言任务处理时，针对不同的处理任务，需要量身定做相应的模型，同时进...

【技术保护点】

【技术特征摘要】
1.一种自然语言处理方法，其特征在于，包括：根据预设训练任务对通用领域下的BERT模型进行增量预训练，得到自然语言处理模型，其中，所述预设训练任务包括字词级别的第一训练任务和任务级别的第二训练任务；获取待进行自然语言处理的文本数据，并对所述文本数据进行预处理，其中，所述预处理包括数据清洗处理、停用词滤除处理中的至少一种；将预处理后的所述文本数据输入所述自然语言处理模型中，获取自然语言处理结果。2.根据权利要求1所述的方法，其特征在于，所述根据预设训练任务对通用领域下的BERT模型进行增量预训练，得到自然语言处理模型，包括：获取所述第一训练任务对应的第一样本语料，以及所述第二训练任务对应的第二样本语料；根据第一训练任务以及所述第一样本语料对所述BERT模型进行字词级别的第一预训练；根据第二训练任务以及所述第二样本语料对所述BERT模型进行任务级别的第二预训练；在判断所述BERT模型完成所述第一预训练和所述第二预训练后，将所述BERT模型确定为自然语言处理模型。3.根据权利要求2所述的方法，其特征在于，所述第一训练任务包括全词Mask任务、语句顺序预测任务，所述根据第一训练任务以及所述第一样本语料对所述BERT模型进行字词级别的第一预训练，包括：对所述第一样本语料进行分词处理，得到包含各个字符的文本序列，在所述文本序列中抽取与预设词典共现的字符或由至少两个字符构成的词语对所述BERT模型进行全词Mask预训练；以及，按照预设字符标识对所述第一样本语料进行语句划分，得到包含各个语句的语句序列，利用所述语句序列中连续的两个语句构建所述语句顺序预测任务的正例样本语句对，将所述连续的两个语句进行顺序交换后构建所述语句顺序预测任务的负例样本语句对，利用所述正例样本语句对和所述负例样本语句对对所述BERT模型进行语句顺序预测预训练。4.根据权利要求3所述的方法，其特征在于，在所述文本序列中抽取与预设词典共现的字符或由至少两个字符构成的词语对所述BERT模型进行全词Mask预训练之前，还包括：基于TF
‑
IDF算法从标准行业文件中提取所述预设训练任务对应的行业关键词；根据各个所述行业关键词以及所述行业关键词在语料库中所属语种的语种内关联关系，获取各个所述行业关键词的关联词语，所述关联词语包括同义词、近义词、音似词和形似词中的至少一种；基于所述行业关键词和所述关联词语构建预设词典。5.根据权利要求3所述的方法，其特征在于，所述利用所述正例样本语句对和所述负例样本语句对对所述BERT模型进行语句顺序预测预训练，包括：将所述正例样本语句对和所述负例样本语句对分别输入所述BERT模型，获取所述正例样本语句对中两个语句对应的第一语句向量和第...

【专利技术属性】
技术研发人员：侯盼盼，黄明星，王福钋，张航飞，徐华韫，曹富康，沈鹏，
申请(专利权)人：北京健康之家科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人