语言模型的预训练方法、语言文本的处理方法及装置制造方法及图纸

技术编号:33083671 阅读:28 留言:0更新日期:2022-04-15 10:42
本申请公开了一种语言模型的预训练方法、语言文本的处理方法及装置,涉及自然语言处理领域。该方法在对初始模型进行预训练的过程中,能够通过知识探针对预训练后的初始模型的准确度进行检测,并能够在检测到准确度收敛时停止预训练,得到语言模型。由此,可以避免语言模型在预训练的过程中出现过拟合或者欠拟合的现象,确保预训练得到的语言模型的性能较好。并且,通过知识探针对初始模型进行检测,可以较为准确地确定出初始模型对训练样本集合中各个训练样本的学习情况,进而能准确地确定预训练的较佳停止点。预训练的较佳停止点。预训练的较佳停止点。

【技术实现步骤摘要】
语言模型的预训练方法、语言文本的处理方法及装置


[0001]本申请实施例涉及自然语言处理(Natural Language Processing,NLP)领域,特别涉及一种语言模型的预训练方法、装置及存储介质。

技术介绍

[0002]在自然语言处理过程中,可以采用大量无标注的语言文本对初始模型进行预训练(Pre

training)从而得到与具体任务无关的语言模型。之后,可以基于具体任务(例如阅读理解或实体识别等)对该语言模型进行微调(Fine

tuning),以得到用于执行具体任务的目标语言模型。
[0003]但是,在对初始模型进行预训练的过程中,容易出现过拟合或者欠拟合的现象,导致语言模型的预训练效果较差。

技术实现思路

[0004]本申请实施例提供了一种语言模型的预训练方法、语言文本的处理方法及装置,能够有效提高语言模型的预训练效果。所述技术方案如下。
[0005]一方面,提供了一种语言模型的预训练方法,所述方法包括:
[0006]采用训练样本集合对初始模型进行预训练;
[0007]在对所述初始模型进行预训练的过程中,采用知识探针对预训练后的所述初始模型进行检测,得到所述初始模型的准确度;
[0008]若所述准确度未收敛,则继续采用所述训练样本集合对所述初始模型进行预训练;
[0009]若所述准确度收敛,则停止采用所述训练样本集合对所述初始模型进行预训练,得到预训练后的语言模型。
[0010]另一方面,提供了一种语言文本的处理方法,所述方法包括:
[0011]获取用于描述目标对象的生理健康状况的语言文本;
[0012]将所述语言文本输入预测模型,得到所述预测模型输出的预测结果,所述预测结果用于指示所述目标对象与目标疾病的关联性;其中,所述预测模型采用上述方面所述的语言模型的预训练方法训练得到。
[0013]又一方面,提供了一种语言模型的预训练装置,所述装置包括:
[0014]训练模块,用于采用训练样本集合对初始模型进行预训练;
[0015]检测模块,用于在对所述初始模型进行预训练的过程中,采用知识探针对预训练后的所述初始模型进行检测,得到所述初始模型的准确度;
[0016]所述训练模块,还用于:
[0017]若所述准确度未收敛,则继续采用所述训练样本集合对所述初始模型进行预训练;
[0018]若所述准确度收敛,则停止采用所述训练样本集合对所述初始模型进行预训练,
得到预训练后的语言模型。
[0019]再一方面,提供了一种语言文本的处理装置,所述装置包括:
[0020]获取模块,用于获取用于描述目标对象的生理健康状况的语言文本;
[0021]处理模块,用于将所述语言文本输入预测模型,得到所述预测模型输出的预测结果,所述预测结果用于指示所述目标对象与目标疾病的关联性;
[0022]其中,所述预测模型采用上述方面所述的语言模型的预训练装置训练得到。
[0023]再一方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述方面所述的语言模型的预训练方法,或如上述方面所述的语言文本的处理方法。
[0024]再一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述方面所述的语言模型的预训练方法,或如上述方面所述的语言文本的处理方法。
[0025]再一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方面所述的语言模型的预训练方法,或上述方面所述的语言文本的处理方法。
[0026]本申请提供的技术方案带来的有益效果至少包括:
[0027]本申请提供了一种语言模型的预训练方法、语言文本的处理方法及装置。本申请提供的方案在对初始模型进行预训练的过程中,能够通过知识探针对预训练后的初始模型的准确度进行检测,并能够在检测到准确度收敛时停止预训练,得到语言模型。由此,可以避免语言模型在预训练的过程中出现过拟合或者欠拟合的现象,确保预训练得到的语言模型的性能较好。并且,通过知识探针对初始模型进行检测,可以较为准确地确定出初始模型对训练样本集合中各个训练样本的学习情况,进而能准确地确定预训练的较佳停止点。
附图说明
[0028]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0029]图1是本申请实施例提供的一种语言模型的预训练系统的结构示意图;
[0030]图2是本申请实施例提供的一种语言模型的预训练方法的流程图;
[0031]图3是本申请实施例提供的另一种语言模型的预训练方法的流程图;
[0032]图4是本申请实施例提供的一种语言模型的准确度随训练样本的数量变化的示意图;
[0033]图5是本申请实施例提供的另一种语言模型的准确度随训练样本的数量变化的示意图;
[0034]图6是本申请实施例提供的又一种语言模型的准确度随训练样本的数量变化的示
意图;
[0035]图7是本申请实施例提供的再一种语言模型的准确度随训练样本的数量变化的示意图;
[0036]图8是本申请实施例提供的一种语言文本的处理方法的流程图;
[0037]图9是本申请实施例提供的一种语言模型的预训练装置的结构框图;
[0038]图10是本申请实施例提供的一种语言文本的处理装置的结构框图;
[0039]图11是本申请实施例提供的一种服务器的结构框图。
具体实施方式
[0040]为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
[0041]本申请实施例提供的方案可以应用于云技术、人工智能、智慧交通等各种场景。首先,针对本申请实施例中涉及的名词进行简单介绍。
[0042]人工智能(Artificial Intelligence,AI):是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语言模型的预训练方法,其特征在于,所述方法包括:采用训练样本集合对初始模型进行预训练;在对所述初始模型进行预训练的过程中,采用知识探针对预训练后的所述初始模型进行检测,得到所述初始模型的准确度;若所述准确度未收敛,则继续采用所述训练样本集合对所述初始模型进行预训练;若所述准确度收敛,则停止采用所述训练样本集合对所述初始模型进行预训练,得到预训练后的语言模型。2.根据权利要求1所述的方法,其特征在于,所述训练样本集合包括多个训练样本;所述知识探针包括多个探测样本,每个所述探测样本包括基于一个所述训练样本得到的输入文本和输出文本;所述采用知识探针对预训练后的所述初始模型进行检测,得到所述初始模型的准确度,包括:将每个所述探测样本中的输入文本输入至预训练后的所述初始模型,得到所述初始模型输出的预测文本;基于所述多个探测样本中目标探测样本的占比,确定所述初始模型的准确度,其中,所述目标探测样本为输出文本与所述初始模型输出的预测文本相匹配的探测样本。3.根据权利要求2所述的方法,其特征在于,若所述准确度未收敛,则继续采用所述训练样本集合对所述初始模型进行预训练,包括:若所述准确度未收敛,则将所述训练样本集合中已被所述初始模型学习到的目标训练样本删除,所述目标探测样本基于所述目标训练样本得到;采用删除目标训练样本后的所述训练样本集合对所述初始模型进行预训练。4.根据权利要求2所述的方法,其特征在于,所述知识探针包括的探测样本的数量小于所述训练样本集合中的训练样本的数量。5.根据权利要求1至4任一所述的方法,其特征在于,所述方法还包括:若连续确定出的N个所述准确度的增幅均小于阈值,则确定所述准确度收敛,所述N为大于1的整数。6.根据权利要求1至4任一所述的方法,其特征在于,所述在对所述初始模型进行预训练的过程中,采用知识探针对预训练后的所述初始模型进行检测,包括:在每采用所述训练样本集合对初始模型进行一次或多次预训练后,采用知识探针对预训练后的所述初始模型进行检测。7.根据权利要求1至4任...

【专利技术属性】
技术研发人员:侯逸帆杨奕凡
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1