语言模型训练、数据处理方法、装置、设备、介质及产品制造方法及图纸

技术编号：33788523 阅读：76 留言：0更新日期：2022-06-12 14:44

本公开提供了一种语言模型训练、数据处理方法、装置、设备、介质及产品，涉及人工智能领域，尤其涉及自然语言处理、深度学习、知识图谱领域。具体实现方案为：获取已标注的第一训练数据和未标注的第二训练数据；第一训练数据和第二训练数据为文本数据；对第二训练数据进行数据扩展处理，获得第二训练数据对应的扩展数据；以第一训练数据的标签作为第一训练数据在待训练的语言模型的比对数据，计算获得第一损失值；以扩展数据作为对应的第二训练数据在语言模型的比对数据，计算获得第二损失值；若确定第一损失值和第二损失值之和满足损失条件，则确定语言模型训练结束，获得语言模型的目标模型参数。本公开的技术方案提高了语言模型的模型精度。模型精度。模型精度。

全部详细技术资料下载

【技术实现步骤摘要】
语言模型训练、数据处理方法、装置、设备、介质及产品

[0001]本公开涉及人工智能领域中的自然语言处理、深度学习、知识图谱领域，尤其涉及一种语言模型训练、数据处理方法、装置、设备、介质及产品。

技术介绍

[0002]自然语言处理(全称：Natural Language Processing，NLP)模型是研究人与计算机交互的语言问题的一门学科，主要目的是让计算机理解自然语言。通常，可以采用NLP模型将自然语言转换为计算机可以理解的特征向量或者特征矩阵。在实际应用中，NLP模型的获取需要通过训练获得，而参与训练的训练数据通常需要设置有标签，标签是对训练数据对应的真实内容的记录，以通过带有标签的数据对语言模型进行训练。但是这种通过标签训练的方式获得的NLP模型并不是很准确，导致模型的精度较低。

技术实现思路

[0003]本公开提供了一种用于自然语言模型精度提高的语言模型训练、数据处理方法、装置、设备、介质及产品。
[0004]根据本公开的第一方面，提供了一种语言模型训练方法，包括：
[0005]获取已标注的第一训练数据和未标注的第二训练数据；所述第一训练数据和所述第二训练数据为文本数据；
[0006]对所述第二训练数据进行数据扩展处理，获得所述第二训练数据对应的扩展数据；
[0007]以所述第一训练数据的标签作为所述第一训练数据在待训练的语言模型的比对数据，计算获得第一损失值；
[0008]以所述扩展数据作为对应的第二训练数据在所述语言模型的比对数据，计算获得第二损...

【技术保护点】

【技术特征摘要】
1.一种语言模型训练方法，包括：获取已标注的第一训练数据和未标注的第二训练数据；所述第一训练数据和所述第二训练数据为文本数据；对所述第二训练数据进行数据扩展处理，获得所述第二训练数据对应的扩展数据；以所述第一训练数据的标签作为所述第一训练数据在待训练的语言模型的比对数据，计算获得第一损失值；以所述扩展数据作为对应的第二训练数据在所述语言模型的比对数据，计算获得第二损失值；若所述第一损失值和所述第二损失值之和满足损失条件，则所述语言模型训练结束，获得所述语言模型的目标模型参数。2.根据权利要求1所述的方法，其中，所述对所述第二训练数据进行数据扩展处理，获得所述第二训练数据对应的扩展数据，包括：对所述第二训练数据进行分词，获得所述第二训练数据对应的至少一个初始词语；利用词语扩展策略，对至少一个所述初始词语进行词语扩展处理，获得所述第二训练数据对应的扩展数据。3.根据权利要求2所述的方法，其中，所述词语扩展策略包括：业务扩展策略；所述利用词语扩展策略，对至少一个所述初始词语进行词语扩展处理，获得所述第二训练数据对应的扩展数据，包括：利用所述业务扩展策略，对至少一个所述初始词语进行词语扩展处理，获得第一扩展词语；确定所述第一扩展词语为所述第二训练数据的扩展数据。4.根据权利要求2所述的方法，其中，所述词语扩展策略包括：知识扩展策略；所述利用词语扩展策略，对至少一个所述初始词语进行词语扩展处理，获得所述第二训练数据对应的扩展数据，包括：利用所述知识扩展策略，对至少一个所述初始词语进行词语扩展处理，获得第二扩展词语；确定所述第二扩展词语为所述第二训练数据的扩展数据。5.根据权利要求2所述的方法，其中，所述词语扩展策略包括：业务扩展策略和知识扩展策略；所述利用词语扩展策略，对至少一个所述初始词语进行词语扩展处理，获得所述第二训练数据对应的扩展数据，包括：利用所述业务扩展策略，对至少一个所述初始词语进行词语扩展处理，获得第一扩展词语；利用所述知识扩展策略，对至少一个所述初始词语进行词语扩展处理，获得第二扩展词语；确定所述第一扩展词语和所述第二扩展词语为所述第二训练数据的扩展数据。6.根据权利要求3或5所述的方法，其中，所述利用所述业务扩展策略，对至少一个所述初始词语进行词语扩展处理，获得第一扩展词语，包括：确定所述业务扩展策略对应的至少一个候选词语；
针对任一个初始词语，从至少一个所述候选词语中确定与所述初始词语相匹配的第一词语，以确定至少一个所述初始词语分别对应的第一词语为所述第一扩展词语。7.根据权利要求6所述的方法，其中，所述针对任一个初始词语，从至少一个所述候选词语中确定与所述初始词语相匹配的第一词语，包括：将至少一个所述候选词语划分为候选实体词以及候选非实体词；若确定任一个初始词语为实体词，则从所述候选实体词中确定与所述初始词语相匹配的第一词语；若确定任一个初始词语为非实体词，则从所述候选非实体词中确定与所述初始词语相匹配的第一词语。8.根据权利要求4或5所述的方法，其中，所述利用所述知识扩展策略，对至少一个所述初始词语进行词语扩展处理，获得第二扩展词语，包括：确定与所述第二训练数据的数据内容相匹配的知识图谱；所述知识图谱包括：以知识关键词形成的节点以及以知识关键词之间的关联关系形成的边；利用所述知识图谱，对至少一个所述初始词语进行词语扩展处理，获得第二扩展词语。9.根据权利要求1
‑
8任一项所述的方法，还包括：将所述第一训练数据、所述第二训练数据以及所述扩展数据分别输入所述语言模型，获得所述第一训练数据对应的第一预测结果、所述第二训练数据对应的第二预测结果以及所述扩展数据对应的扩展预测结果；所述以所述第一训练数据的标签作为所述第一训练数据在待训练的语言模型的比对数据，计算获得第一损失值，包括：基于所述第一训练数据的标签和第一预测结果进行损失计算，获得所述第一损失值；所述以所述扩展数据作为对应的第二训练数据在所述语言模型的比对数据，计算获得第二损失值，包括：基于所述第二训练数据的第二预测结果和所述扩展数据对应的扩展预测结果进行损失计算，获得所述第二损失值。10.根据权利要求9所述的方法，其中，所述基于所述第二训练数据的第二预测结果和所述扩展数据对应的扩展预测结果进行损失计算，获得所述第二损失值，包括：采用相对损失函数，对所述第二预测结果和所述扩展预测结果之间的结果差异进行损失计算，获得所述第二损失值。11.根据权利要求1
‑
10任一项所述的方法，还包括：若确定所述第一损失值和所述第二损失值之和不满足损失条件，则更新所述语言模型，并返回至所述以所述第一训练数据的标签作为所述第一训练数据在待训练的语言模型的比对数据，计算获得第一损失值继续执行。12.根据权利要求11所述的方法，其中，所述更新所述语言模型，包括：确定当前的所述语言模型对应的至少一个计算节点；基于节点选择策略，对至少一个所述计算节点进行选择，获得目标计算节点；基于参数调整策略，对所述目标计算节点的参数进行调整处理，获得所述目标计算节点对应的目标参数；确定设置有所述目标参数的所述目标计算节点为更新后的语言模型。
13.根据权利要求12所述的方法，其中，所述基于节点选择策略，对至少一个所述计算节点进行选择，获得目标计算节点，包括：以预设目标概率值作为所述计算节点被选择为目标计算节点的选择概率，并根据所述选择概率随机对至少一个所述计算节点进行选择，获得目标计算节点。14.根据权利要求12或13所述的方法，其中，所述基于参数调整策略，对所述目标计算节点的参数进行调整处理，获得所述目标计算节点对应的目标参数，包括：以网络搜索调参算法为所述参数调整策略，对所述目标计算节点的参数进行调整处理，获得所述目标计算节点对应的目标参数。15.根据权利要求1
‑
14任一项所述的方法，其中，所述获取已标注的第一训练数据和未标注的第二训练数据，包括：基于数据清洗策略，对原始数据进行清洗，获得训练数据；将所述训练数据划分为第一数据和第二数据；对所述第一数据进行标注处理，获得所述已标注的第一训练数据；确定所述第二数据为所述未标注的第二训练数据。16.根据权利要求15所述的方法，其中，所述对所述第一数据进行标注处理，获得所述已标注的第一训练数据，包括：将所述第一数据发送至标注电子设备；接收所述标注电子设备发送的所述第一数据的标签，以获得具有标签的所述第一数据为所述已标注的第一训练数据。17.根据权利要求15或16所述的方法，其中，所述数据清洗策略包括：拼写转换策略、符号清除策略、格式一致策略、数据清除策略中的至少一个；所述拼写转换策略包括将训练数据中拼写方式不同的字符按照同一方式拼写；所述符号清除策略包括将训练数据中的目标符号进行清除；所述格式一致策略包括将训练数据中的字符格式按照目标格式进行设置；所述数据清除策略包括将训练数据中的无效数据进行删除。18.一种数据处理方法，包括：接收用户设备发送的待处理文本数据；所述待处理文本数据的数据类型与第一训练数据或者第二训练数据的数据类型相同；将所述待处理文本数据输入目标模型参数对应的语言模型，获得所述语言模型对所述待处理文本数据的语言处理结果；所述目标模型参数基于权利要求1
‑
17的语言模型训练方法训练获得；发送所述语言处理结果至所述用户设备，所述语言处理结果由所述用户设备展示。19.一种语言模型训练装置，包括：数据获取单元，用于获取已标注的第一训练数据和未标注的第二训练数据；所述第一训练数据和所述第二训练数据为文本数据；数据扩展单元，用于对所述第二训练数据进行...

【专利技术属性】
技术研发人员：朱泽润，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人