语言模型训练、数据处理方法、装置、设备、介质及产品制造方法及图纸

技术编号:33788523 阅读:76 留言:0更新日期:2022-06-12 14:44
本公开提供了一种语言模型训练、数据处理方法、装置、设备、介质及产品,涉及人工智能领域,尤其涉及自然语言处理、深度学习、知识图谱领域。具体实现方案为:获取已标注的第一训练数据和未标注的第二训练数据;第一训练数据和第二训练数据为文本数据;对第二训练数据进行数据扩展处理,获得第二训练数据对应的扩展数据;以第一训练数据的标签作为第一训练数据在待训练的语言模型的比对数据,计算获得第一损失值;以扩展数据作为对应的第二训练数据在语言模型的比对数据,计算获得第二损失值;若确定第一损失值和第二损失值之和满足损失条件,则确定语言模型训练结束,获得语言模型的目标模型参数。本公开的技术方案提高了语言模型的模型精度。模型精度。模型精度。

【技术实现步骤摘要】
语言模型训练、数据处理方法、装置、设备、介质及产品


[0001]本公开涉及人工智能领域中的自然语言处理、深度学习、知识图谱领域,尤其涉及一种语言模型训练、数据处理方法、装置、设备、介质及产品。

技术介绍

[0002]自然语言处理(全称:Natural Language Processing,NLP)模型是研究人与计算机交互的语言问题的一门学科,主要目的是让计算机理解自然语言。通常,可以采用NLP模型将自然语言转换为计算机可以理解的特征向量或者特征矩阵。在实际应用中,NLP模型的获取需要通过训练获得,而参与训练的训练数据通常需要设置有标签,标签是对训练数据对应的真实内容的记录,以通过带有标签的数据对语言模型进行训练。但是这种通过标签训练的方式获得的NLP模型并不是很准确,导致模型的精度较低。

技术实现思路

[0003]本公开提供了一种用于自然语言模型精度提高的语言模型训练、数据处理方法、装置、设备、介质及产品。
[0004]根据本公开的第一方面,提供了一种语言模型训练方法,包括:
[0005]获取已标注的第一训练数据和未标注的第二训练数据;所述第一训练数据和所述第二训练数据为文本数据;
[0006]对所述第二训练数据进行数据扩展处理,获得所述第二训练数据对应的扩展数据;
[0007]以所述第一训练数据的标签作为所述第一训练数据在待训练的语言模型的比对数据,计算获得第一损失值;
[0008]以所述扩展数据作为对应的第二训练数据在所述语言模型的比对数据,计算获得第二损失值;
[0009]若确定所述第一损失值和所述第二损失值之和满足损失条件,则确定所述语言模型训练结束,获得所述语言模型的目标模型参数。
[0010]根据本公开的第二方面,提供了一种数据处理方法,包括:
[0011]接收用户设备发送的待处理文本数据;所述待处理文本数据的数据类型与第一训练数据或者第二训练数据的数据类型相同;所述待处理文本数据为文本数据、图像数据、语音数据以及视频数据中的任一种;
[0012]将所述待处理文本数据输入目标模型参数对应的语言模型,获得所述语言模型对所述待处理文本数据的语言处理结果;所述目标模型参数基于第一方面的语言模型训练方法训练获得;
[0013]发送所述语言处理结果至所述用户设备,所述语言处理结果由所述用户设备展示。
[0014]根据本公开的第三方面,提供了一种语言模型训练装置,包括:
[0015]数据获取单元,用于获取已标注的第一训练数据和未标注的第二训练数据;所述第一训练数据和所述第二训练数据为文本数据;
[0016]数据扩展单元,用于对所述第二训练数据进行数据扩展处理,获得所述第二训练数据对应的扩展数据;
[0017]第一处理单元,用于以所述第一训练数据的标签作为所述第一训练数据在待训练的语言模型的比对数据,计算获得第一损失值;
[0018]第二处理单元,用于以所述扩展数据作为对应的第二训练数据在所述语言模型的比对数据,计算获得第二损失值;
[0019]目标确定单元,用于若确定所述第一损失值和所述第二损失值之和满足损失条件,则确定所述语言模型训练结束,获得所述语言模型的目标模型参数。
[0020]根据本公开的第四方面,提供了一种数据处理装置,包括:
[0021]数据接收单元,用于接收用户设备发送的待处理文本数据;所述待处理文本数据的数据类型与第一训练数据或者第二训练数据的数据类型相同;
[0022]结果获取单元,用于将所述待处理文本数据输入目标模型参数对应的语言模型,获得所述语言模型对所述待处理文本数据的语言处理结果;所述目标模型参数基于第一方面的语言模型训练方法训练获得;
[0023]结果发送单元,用于发送所述语言处理结果至所述用户设备,所述语言处理结果由所述用户设备展示。
[0024]根据本公开的第五方面,提供了一种电子设备,包括:
[0025]至少一个处理器;以及
[0026]与所述至少一个处理器通信连接的存储器;其中,
[0027]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面或第二方面中任一项所述的方法。
[0028]根据本公开的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行第一方面或第二方面中任一项的方法。
[0029]根据本公开的第七方面,提供了一种计算机程序产品,所述计算机程序产品包括:计算机程序,所述计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序,所述至少一个处理器执行所述计算机程序使得电子设备执行第一方面或者第二方面所述的方法。
[0030]根据本公开的技术解决了通过标签训练的方式获得的NLP模型并不是很准确,导致模型的精度较低的问题,采用已标注的第一训练数据和未标注的第二训练数据。通过两种训练数据同时对待训练的语言模型进行训练,可以对语言模型进行更准确的训练,获得的目标模型参数所对应的语言模型可以对已标注的第一训练数据和未标注的第二训练数据均产生准确度较高的处理结果。提高语言模型的训练精度。
[0031]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0032]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0033]图1是根据本公开第一实施例提供的语言模型训练方法和数据处理方法的应用场景图;
[0034]图2是根据本公开第二实施例提供的一种语言模型训练方法的流程图;
[0035]图3是根据本公开第三实施例提供的一种语言模型训练方法的流程图;
[0036]图4是根据本公开第四实施例提供的一种语言模型训练方法的流程图;
[0037]图5是根据本公开第五实施例提供的一种语言模型训练方法的流程图;
[0038]图6是根据本公开第六实施例提供的一种语言模型训练方法的流程图;
[0039]图7是根据本公开第七实施例提供的一种数据处理方法的流程图;
[0040]图8是根据本公开第八实施例提供的一种语言模型训练装置的结构示意图;
[0041]图9是根据本公开第九实施例提供的一种数据处理装置的结构示意图;
[0042]图10是用来实现本公开实施例的语言模型训练方法或者数据处理方法的电子设备的框图。
具体实施方式
[0043]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语言模型训练方法,包括:获取已标注的第一训练数据和未标注的第二训练数据;所述第一训练数据和所述第二训练数据为文本数据;对所述第二训练数据进行数据扩展处理,获得所述第二训练数据对应的扩展数据;以所述第一训练数据的标签作为所述第一训练数据在待训练的语言模型的比对数据,计算获得第一损失值;以所述扩展数据作为对应的第二训练数据在所述语言模型的比对数据,计算获得第二损失值;若所述第一损失值和所述第二损失值之和满足损失条件,则所述语言模型训练结束,获得所述语言模型的目标模型参数。2.根据权利要求1所述的方法,其中,所述对所述第二训练数据进行数据扩展处理,获得所述第二训练数据对应的扩展数据,包括:对所述第二训练数据进行分词,获得所述第二训练数据对应的至少一个初始词语;利用词语扩展策略,对至少一个所述初始词语进行词语扩展处理,获得所述第二训练数据对应的扩展数据。3.根据权利要求2所述的方法,其中,所述词语扩展策略包括:业务扩展策略;所述利用词语扩展策略,对至少一个所述初始词语进行词语扩展处理,获得所述第二训练数据对应的扩展数据,包括:利用所述业务扩展策略,对至少一个所述初始词语进行词语扩展处理,获得第一扩展词语;确定所述第一扩展词语为所述第二训练数据的扩展数据。4.根据权利要求2所述的方法,其中,所述词语扩展策略包括:知识扩展策略;所述利用词语扩展策略,对至少一个所述初始词语进行词语扩展处理,获得所述第二训练数据对应的扩展数据,包括:利用所述知识扩展策略,对至少一个所述初始词语进行词语扩展处理,获得第二扩展词语;确定所述第二扩展词语为所述第二训练数据的扩展数据。5.根据权利要求2所述的方法,其中,所述词语扩展策略包括:业务扩展策略和知识扩展策略;所述利用词语扩展策略,对至少一个所述初始词语进行词语扩展处理,获得所述第二训练数据对应的扩展数据,包括:利用所述业务扩展策略,对至少一个所述初始词语进行词语扩展处理,获得第一扩展词语;利用所述知识扩展策略,对至少一个所述初始词语进行词语扩展处理,获得第二扩展词语;确定所述第一扩展词语和所述第二扩展词语为所述第二训练数据的扩展数据。6.根据权利要求3或5所述的方法,其中,所述利用所述业务扩展策略,对至少一个所述初始词语进行词语扩展处理,获得第一扩展词语,包括:确定所述业务扩展策略对应的至少一个候选词语;
针对任一个初始词语,从至少一个所述候选词语中确定与所述初始词语相匹配的第一词语,以确定至少一个所述初始词语分别对应的第一词语为所述第一扩展词语。7.根据权利要求6所述的方法,其中,所述针对任一个初始词语,从至少一个所述候选词语中确定与所述初始词语相匹配的第一词语,包括:将至少一个所述候选词语划分为候选实体词以及候选非实体词;若确定任一个初始词语为实体词,则从所述候选实体词中确定与所述初始词语相匹配的第一词语;若确定任一个初始词语为非实体词,则从所述候选非实体词中确定与所述初始词语相匹配的第一词语。8.根据权利要求4或5所述的方法,其中,所述利用所述知识扩展策略,对至少一个所述初始词语进行词语扩展处理,获得第二扩展词语,包括:确定与所述第二训练数据的数据内容相匹配的知识图谱;所述知识图谱包括:以知识关键词形成的节点以及以知识关键词之间的关联关系形成的边;利用所述知识图谱,对至少一个所述初始词语进行词语扩展处理,获得第二扩展词语。9.根据权利要求1

8任一项所述的方法,还包括:将所述第一训练数据、所述第二训练数据以及所述扩展数据分别输入所述语言模型,获得所述第一训练数据对应的第一预测结果、所述第二训练数据对应的第二预测结果以及所述扩展数据对应的扩展预测结果;所述以所述第一训练数据的标签作为所述第一训练数据在待训练的语言模型的比对数据,计算获得第一损失值,包括:基于所述第一训练数据的标签和第一预测结果进行损失计算,获得所述第一损失值;所述以所述扩展数据作为对应的第二训练数据在所述语言模型的比对数据,计算获得第二损失值,包括:基于所述第二训练数据的第二预测结果和所述扩展数据对应的扩展预测结果进行损失计算,获得所述第二损失值。10.根据权利要求9所述的方法,其中,所述基于所述第二训练数据的第二预测结果和所述扩展数据对应的扩展预测结果进行损失计算,获得所述第二损失值,包括:采用相对损失函数,对所述第二预测结果和所述扩展预测结果之间的结果差异进行损失计算,获得所述第二损失值。11.根据权利要求1

10任一项所述的方法,还包括:若确定所述第一损失值和所述第二损失值之和不满足损失条件,则更新所述语言模型,并返回至所述以所述第一训练数据的标签作为所述第一训练数据在待训练的语言模型的比对数据,计算获得第一损失值继续执行。12.根据权利要求11所述的方法,其中,所述更新所述语言模型,包括:确定当前的所述语言模型对应的至少一个计算节点;基于节点选择策略,对至少一个所述计算节点进行选择,获得目标计算节点;基于参数调整策略,对所述目标计算节点的参数进行调整处理,获得所述目标计算节点对应的目标参数;确定设置有所述目标参数的所述目标计算节点为更新后的语言模型。
13.根据权利要求12所述的方法,其中,所述基于节点选择策略,对至少一个所述计算节点进行选择,获得目标计算节点,包括:以预设目标概率值作为所述计算节点被选择为目标计算节点的选择概率,并根据所述选择概率随机对至少一个所述计算节点进行选择,获得目标计算节点。14.根据权利要求12或13所述的方法,其中,所述基于参数调整策略,对所述目标计算节点的参数进行调整处理,获得所述目标计算节点对应的目标参数,包括:以网络搜索调参算法为所述参数调整策略,对所述目标计算节点的参数进行调整处理,获得所述目标计算节点对应的目标参数。15.根据权利要求1

14任一项所述的方法,其中,所述获取已标注的第一训练数据和未标注的第二训练数据,包括:基于数据清洗策略,对原始数据进行清洗,获得训练数据;将所述训练数据划分为第一数据和第二数据;对所述第一数据进行标注处理,获得所述已标注的第一训练数据;确定所述第二数据为所述未标注的第二训练数据。16.根据权利要求15所述的方法,其中,所述对所述第一数据进行标注处理,获得所述已标注的第一训练数据,包括:将所述第一数据发送至标注电子设备;接收所述标注电子设备发送的所述第一数据的标签,以获得具有标签的所述第一数据为所述已标注的第一训练数据。17.根据权利要求15或16所述的方法,其中,所述数据清洗策略包括:拼写转换策略、符号清除策略、格式一致策略、数据清除策略中的至少一个;所述拼写转换策略包括将训练数据中拼写方式不同的字符按照同一方式拼写;所述符号清除策略包括将训练数据中的目标符号进行清除;所述格式一致策略包括将训练数据中的字符格式按照目标格式进行设置;所述数据清除策略包括将训练数据中的无效数据进行删除。18.一种数据处理方法,包括:接收用户设备发送的待处理文本数据;所述待处理文本数据的数据类型与第一训练数据或者第二训练数据的数据类型相同;将所述待处理文本数据输入目标模型参数对应的语言模型,获得所述语言模型对所述待处理文本数据的语言处理结果;所述目标模型参数基于权利要求1

17的语言模型训练方法训练获得;发送所述语言处理结果至所述用户设备,所述语言处理结果由所述用户设备展示。19.一种语言模型训练装置,包括:数据获取单元,用于获取已标注的第一训练数据和未标注的第二训练数据;所述第一训练数据和所述第二训练数据为文本数据;数据扩展单元,用于对所述第二训练数据进行...

【专利技术属性】
技术研发人员:朱泽润
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1