System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本公开涉及计算机,特别是涉及一种词嵌入数据处理方法、装置、电子设备及存储介质。
技术介绍
1、随着自然语言处理技术的发展,语言模型已经能够应对多种自然语言处理任务,比如智能问答、机器翻译和文本生成等。
2、目前,语言模型通常会在在词嵌入矩阵中预设一个固定的未知词嵌入向量,在处理文本时,语言模型会将文本中未记载在词表中的词语映射为未知词嵌入向量,由于固定的未知词嵌入向量无法有效地捕捉词语的语义信息和语法信息,导致语言模型的泛化性能较低,降低语言模型在自然语言处理任务上的表现。
技术实现思路
1、以下是对本公开详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
2、本公开实施例提供了一种词嵌入数据处理方法、装置、电子设备及存储介质,能够提高语言模型的泛化性能,从而提升语言模型在自然语言处理任务上的表现。
3、一方面,本公开实施例提供了一种词嵌入数据处理方法,包括:
4、在语料库中挖掘第一词语,其中,所述第一词语为语言模型的原始词表中未记载的词语,所述语言模型是基于第一训练文本预训练得到的,所述第一训练文本包括所述原始词表中已记载的词语;
5、获取包括所述第一词语的第二训练文本,基于所述第二训练文本训练所述语言模型,得到所述第一词语的目标词嵌入向量,其中,在训练所述语言模型过程中,冻结所述语言模型中除了所述目标词嵌入向量以外的参数;
6、基于扩展词表关联存储所述第一词语与所述目标词嵌入向量,其中,所述扩展
7、另一方面,本公开实施例还提供了一种词嵌入数据处理装置,包括:
8、处理模块,用于在语料库中挖掘第一词语,其中,所述第一词语为语言模型的原始词表中未记载的词语,所述语言模型是基于第一训练文本预训练得到的,所述第一训练文本包括所述原始词表中已记载的词语;
9、训练模块,用于获取包括所述第一词语的第二训练文本,基于所述第二训练文本训练所述语言模型,得到所述第一词语的目标词嵌入向量,其中,在训练所述语言模型过程中,冻结所述语言模型中除了所述目标词嵌入向量以外的参数;
10、存储模块,用于基于扩展词表关联存储所述第一词语与所述目标词嵌入向量,其中,所述扩展词表与所述原始词表为相互独立的词表。
11、进一步,所述词嵌入数据处理装置还包括推理模块,推理模块具体用于:
12、获取目标文本,将所述目标文本输入至训练后的所述语言模型,在所述原始词表中检索所述目标文本中的第二词语;
13、当所述原始词表中未记载所述第二词语时,基于所述扩展词表查询所述第二词语对应的所述目标词嵌入向量并进行模型推理。
14、进一步,上述推理模块具体用于:
15、当所述扩展词表被远程部署时,获取所述扩展词表对应的嵌入服务的远程调用地址,基于所述第二词语构建调用请求,向所述远程调用地址发送所述调用请求,以使所述嵌入服务响应所述调用请求后基于所述扩展词表查询所述第二词语对应的所述目标词嵌入向量,接收所述嵌入服务发送的所述第二词语对应的所述目标词嵌入向量并进行模型推理;
16、或者,当所述扩展词表被本地部署时,维持内存中的所述原始词表不变,将所述扩展词表重加载至所述内存中,访问所述内存的所述扩展词表查询所述第二词语对应的所述目标词嵌入向量并进行模型推理。
17、进一步,所述第一词语的数量为多个,多个所述第一词语被划分至多个不同的所述扩展词表进行存储,对应同一话题的所述第一词语被划分至同一个所述扩展词表,当所述扩展词表被远程部署时,上述推理模块具体用于:
18、对所述目标文本进行分类,得到第一分类标识,其中,所述第一分类标识用于指示所述目标文本对应的话题;
19、获取多个第二分类标识,分别将各个所述第二分类标识与所述第一分类标识进行一致性匹配,其中,多个所述第二分类标识分别关联各个所述扩展词表对应的嵌入服务的远程调用地址,所述第二分类标识用于指示所述扩展词表中的所述第一词语对应的话题;
20、当所述第二分类标识与所述第一分类标识相一致时,获取所述第二分类标识关联的所述远程调用地址。
21、进一步,所述词嵌入数据处理装置还包括预测模块,预测模块具体用于:
22、获取所述语言模型进行模型推理后输出的所述目标文本的文本特征;
23、获取所述扩展词表关联的第二分类标识,其中,所述第二分类标识用于指示所述扩展词表中的所述第一词语对应的话题;
24、将所述文本特征与所述第二分类标识进行融合,得到融合特征;
25、将所述融合特征输入至预测模型进行预测,得到所述目标文本的预测结果。
26、进一步,所述第二训练文本还包括参考词语,所述参考词语为所述原始词表中已记载的词语,所述语言模型设置有词嵌入层和编码层,上述训练模块具体用于:
27、将分词后的所述第二训练文本输入至所述词嵌入层,加载所述第一词语初始的第一词嵌入向量以及所述原始词表已训练的原始词嵌入矩阵,在所述原始词嵌入矩阵中提取所述参考词语的第二词嵌入向量;
28、将所述第一词嵌入向量以及所述第二词嵌入向量输入至所述编码层进行编码,得到所述第一词语的目标编码向量;
29、冻结多个所述第二词嵌入向量以及所述编码层的参数,基于所述目标编码向量更新所述第一词嵌入向量,直至所述语言模型收敛,得到所述第一词语的目标词嵌入向量。
30、进一步,上述训练模块具体用于:
31、融合所述第一词嵌入向量以及所述原始词嵌入矩阵,得到目标词嵌入矩阵;
32、根据所述目标编码向量与所述目标词嵌入矩阵的内积得到目标向量,对所述目标向量进行归一化,得到目标概率分布;
33、将所述目标概率分布中与所述第一词嵌入向量对应的概率确定为待调整概率,通过最大化所述待调整概率的对数似然更新所述第一词嵌入向量。
34、进一步,所述加载所述第一词语初始的第一词嵌入向量以及所述原始词表已训练的原始词嵌入矩阵之前,上述训练模块还用于:
35、确定所述第一词语与所述原始词表中各个词语之间的编辑距离,对多个所述编辑距离进行排序,将所述原始词表中所述编辑距离最小的词语作为第三词语;
36、获取所述第二训练文本关联的训练语音,对所述训练语音进行语音识别得到参考文本,基于所述第一词语在所述第二训练文本中的位置从所述参考文本中提取出第四词语;
37、当所述第四词语为语言模型的原始词表中记载的词语时,对所述第三词语的所述第二词嵌入向量以及所述第四词语的所述第三词嵌入向量进行加权平均,得到所述第一词嵌入向量。
38、进一步,所述扩展词表被划分为多个扩展子词表,多个所述扩展子词表分别存储至各自对应的数据分片,上述存储模块具体用于:
39、将所述第一词语与所述目标词嵌入向量发送至元数据服本文档来自技高网...
【技术保护点】
1.一种词嵌入数据处理方法,其特征在于,包括:
2.根据权利要求1所述的词嵌入数据处理方法,其特征在于,所述词嵌入数据处理方法还包括:
3.根据权利要求2所述的词嵌入数据处理方法,其特征在于,所述基于所述扩展词表查询所述第二词语对应的所述目标词嵌入向量并进行模型推理,包括:
4.根据权利要求3所述的词嵌入数据处理方法,其特征在于,所述第一词语的数量为多个,多个所述第一词语被划分至多个不同的所述扩展词表进行存储,对应同一话题的所述第一词语被划分至同一个所述扩展词表,当所述扩展词表被远程部署时,所述获取所述扩展词表对应的嵌入服务的远程调用地址,包括:
5.根据权利要求2所述的词嵌入数据处理方法,其特征在于,所述词嵌入数据处理方法还包括:
6.根据权利要求1所述的词嵌入数据处理方法,其特征在于,所述第二训练文本还包括参考词语,所述参考词语为所述原始词表中已记载的词语,所述语言模型设置有词嵌入层和编码层,所述基于所述第二训练文本训练所述语言模型,得到所述第一词语的目标词嵌入向量,包括:
7.根据权利要求6所述的词嵌入
8.根据权利要求6所述的词嵌入数据处理方法,其特征在于,所述加载所述第一词语初始的第一词嵌入向量以及所述原始词表已训练的原始词嵌入矩阵之前,所述词嵌入数据处理方法还包括:
9.根据权利要求1所述的词嵌入数据处理方法,其特征在于,所述扩展词表被划分为多个扩展子词表,多个所述扩展子词表分别存储至各自对应的数据分片,所述基于扩展词表关联存储所述第一词语与所述目标词嵌入向量,包括:
10.根据权利要求1所述的词嵌入数据处理方法,其特征在于,所述词嵌入数据处理方法还包括:
11.根据权利要求1所述的词嵌入数据处理方法,其特征在于,所述在语料库中挖掘第一词语,包括:
12.一种词嵌入数据处理装置,其特征在于,包括:
13.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至11任意一项所述的词嵌入数据处理方法。
14.一种计算机可读存储介质,所述存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至11任意一项所述的词嵌入数据处理方法。
15.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至11任意一项所述的词嵌入数据处理方法。
...【技术特征摘要】
1.一种词嵌入数据处理方法,其特征在于,包括:
2.根据权利要求1所述的词嵌入数据处理方法,其特征在于,所述词嵌入数据处理方法还包括:
3.根据权利要求2所述的词嵌入数据处理方法,其特征在于,所述基于所述扩展词表查询所述第二词语对应的所述目标词嵌入向量并进行模型推理,包括:
4.根据权利要求3所述的词嵌入数据处理方法,其特征在于,所述第一词语的数量为多个,多个所述第一词语被划分至多个不同的所述扩展词表进行存储,对应同一话题的所述第一词语被划分至同一个所述扩展词表,当所述扩展词表被远程部署时,所述获取所述扩展词表对应的嵌入服务的远程调用地址,包括:
5.根据权利要求2所述的词嵌入数据处理方法,其特征在于,所述词嵌入数据处理方法还包括:
6.根据权利要求1所述的词嵌入数据处理方法,其特征在于,所述第二训练文本还包括参考词语,所述参考词语为所述原始词表中已记载的词语,所述语言模型设置有词嵌入层和编码层,所述基于所述第二训练文本训练所述语言模型,得到所述第一词语的目标词嵌入向量,包括:
7.根据权利要求6所述的词嵌入数据处理方法,其特征在于,所述基于所述目标编码向量更新所述第一词嵌入向量,包括:
8.根据权利要求6所述的词嵌入数据...
【专利技术属性】
技术研发人员:崔开元,赵博,陈曦,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。