文本数据的标注方法和装置、电子设备和存储介质制造方法及图纸

技术编号:28736252 阅读:28 留言:0更新日期:2021-06-06 11:43
本申请提供了一种文本数据的标注方法和装置、电子设备和存储介质,其中,该方法包括:获取待标注的目标文本;将目标文本输入目标数据标注模型,确定目标文本的文本标注,其中,目标数据标注模型是使用文本编码、知识编码和训练文本对初始数据标注模型的参数进行调整得到的,训练文本携带有第一文本标注,文本编码是对训练文本进行编码得到的,知识编码是对训练文本的知识信息进行编码得到的。通过本申请,解决了相关技术中存在的人工数据标注效率低的问题。低的问题。低的问题。

【技术实现步骤摘要】
文本数据的标注方法和装置、电子设备和存储介质


[0001]本申请涉及数据处理领域,尤其涉及一种文本数据的标注方法和装置、电子设备和存储介质。

技术介绍

[0002]随着自然语言技术的盛行,文本/短文本作为自然语言处理中最主要的数据来源,需要事先对文本/短文本进行数据标注,利用标注后的数据来保证后续数据应用的准确性,因此,当下对数据标注的需求愈加强烈。
[0003]在现有的数据标注方式中,主要是依靠人工完成的,但是面对呈现指数级增加的数据,传统的依靠人工标注存在效率低的问题,导致人工标注已经不能满足日益高涨的数据需求。
[0004]因此,相关技术中存在人工标注效率低的问题。

技术实现思路

[0005]本申请提供了一种文本数据的标注方法和装置、电子设备和存储介质,以至少解决相关技术中存在人工标注效率低的问题。
[0006]根据本申请实施例的一个方面,提供了一种文本数据的标注方法,该方法包括:
[0007]获取待标注的目标文本;
[0008]将所述目标文本输入目标数据标注模型,确定所述目标文本的文本标注,其中,所述目标数据标注模型是使用文本编码、知识编码和训练文本对初始数据标注模型的参数进行调整得到的,所述训练文本携带有第一文本标注,所述文本编码是对训练文本进行编码得到的,所述知识编码是对训练文本的知识信息进行编码得到的。
[0009]可选地,在所述获取待标注文本数据之前,所述方法还包括:
[0010]获取所述训练文本;
[0011]利用实体链接和实体知识库对所述训练文本进行处理,得到概念实体数据;
[0012]利用目标词处理方案和目标网络模型对所述训练文本进行处理,得到所述文本编码;
[0013]利用目标词处理方案和目标网络模型对所述概念实体数据进行处理,得到所述知识编码。
[0014]可选地,所述利用实体链接和实体知识库对所述训练文本进行处理,得到概念实体数据包括:
[0015]利用所述实体链接对所述训练文本进行实体链接操作,确定所述训练文本的实体数据集,其中,所述实体链接操作用于将所述训练文本映射到所述实体知识库的实体上;
[0016]利用所述实体知识库对所述实体数据集进行概念化操作,得到所述概念实体数据,其中,所述概念化操作用于获取所述实体的属性。
[0017]可选地,所述利用目标词处理方案和目标网络模型对所述训练文本进行处理,得
到所述文本编码包括:
[0018]利用所述目标词处理方案将所述训练文本映射为第一数字向量,其中,所述目标词处理方案用于将词语数据转换为数字向量;
[0019]将所述第一数字向量输入第一网络模型,得到语义编码,其中,所述目标网络模型包括所述第一网络模型,所述第一网络模型用于获取所述语义编码;
[0020]将所述语义编码输入第二网络模型,得到所述文本编码,其中,所述目标网络模型包括所述第二网络模型,所述第二网络模型用于获取所述文本编码。
[0021]可选地,所述利用目标词处理方案和目标网络模型对所述概念实体数据进行处理,得到所述知识编码包括:
[0022]利用所述目标词处理方案将所述概念实体数据映射为第二数字向量;
[0023]将所述第二数字向量输入所述第一网络模型,得到语义编码数据;
[0024]将所述语义编码数据输入所述第二网络模型,得到所述知识编码。
[0025]可选地,在所述将所述目标文本输入目标数据标注模型,确定所述目标文本的文本标注之前,所述方法还包括:
[0026]根据所述文本编码和所述知识编码,确定子概念实体数据,其中,所述概念实体数据包括所述子概念实体数据;
[0027]将所述训练文本和所述子概念实体数据输入全连接网络层,得到所述训练文本的第二文本标注;
[0028]根据所述第二文本标注、所述第一文本标注以及输入初始数据标注模型的训练文本,调整所述初始数据标注模型的参数,得到所述目标数据标注模型。
[0029]可选地,所述根据所述文本编码和所述知识编码,确定子概念实体数据包括:
[0030]将所述文本编码和所述知识编码进行融合,得到融合后的编码数据;
[0031]将所述融合后的编码数据输入第三网络模型,得到所述训练文本属于每个所述概念实体数据的概率,其中,所述第三网络模型用于获取所述训练文本属于概念实体数据的概率;
[0032]将概率数值最大的概念实体数据,确定为所述子概念实体数据。
[0033]根据本申请实施例的另一个方面,提供了一种文本数据的标注装置,该装置包括:
[0034]第一获取单元,用于获取待标注的目标文本;
[0035]第一确定单元,用于将所述目标文本输入目标数据标注模型,确定所述目标文本的文本标注,其中,所述目标数据标注模型是使用文本编码、知识编码和训练文本对初始数据标注模型的参数进行调整得到的,所述训练文本携带有第一文本标注,所述文本编码是对训练文本进行编码得到的,所述知识编码是对训练文本的知识信息进行编码得到的。
[0036]可选地,该装置还包括:
[0037]第二获取单元,用于在所述获取待标注文本数据之前,获取所述训练文本;
[0038]第一处理单元,用于利用实体链接和实体知识库对所述训练文本进行处理,得到概念实体数据;
[0039]第二处理单元,用于利用目标词处理方案和目标网络模型对所述训练文本进行处理,得到所述文本编码;
[0040]第三处理单元,用于利用目标词处理方案和目标网络模型对所述概念实体数据进
行处理,得到所述知识编码。
[0041]可选地,第一处理单元包括:
[0042]实体链接操作模块,用于利用所述实体链接对所述训练文本进行实体链接操作,确定所述训练文本的实体数据集;
[0043]概念化操作模块,用于利用所述实体知识库对所述实体数据集进行概念化操作,得到所述概念实体数据。
[0044]可选地,第二处理单元包括:
[0045]第一映射模块,用于利用所述目标词处理方案将所述训练文本映射为第一数字向量,其中,所述目标词处理方案用于将词语数据转换为数字向量;
[0046]第一得到模块,用于将所述第一数字向量输入第一网络模型,得到语义编码,其中,所述目标网络模型包括所述第一网络模型,所述第一网络模型用于获取所述语义编码;
[0047]第二得到模块,用于将所述语义编码输入第二网络模型,得到所述文本编码,其中,所述目标网络模型包括所述第二网络模型,所述第二网络模型用于获取所述文本编码。
[0048]可选地,第三处理单元包括:
[0049]第二映射模块,用于利用所述目标词处理方案将所述概念实体数据映射为第二数字向量;
[0050]第三得到模块,用于将所述第二数字向量输入所述第一网络模型,得到语义编码数据;
[0051]第四得到模块,用于将所述语义编码数据输入所述第二网络模型本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本数据的标注方法,其特征在于,所述方法包括:获取待标注的目标文本;将所述目标文本输入目标数据标注模型,确定所述目标文本的文本标注,其中,所述目标数据标注模型是使用文本编码、知识编码和训练文本对初始数据标注模型的参数进行调整得到的,所述训练文本携带有第一文本标注,所述文本编码是对训练文本进行编码得到的,所述知识编码是对训练文本的知识信息进行编码得到的。2.根据权利要求1所述的方法,其特征在于,在所述获取待标注文本数据之前,所述方法还包括:获取所述训练文本;利用实体链接和实体知识库对所述训练文本进行处理,得到概念实体数据;利用目标词处理方案和目标网络模型对所述训练文本进行处理,得到所述文本编码;利用目标词处理方案和目标网络模型对所述概念实体数据进行处理,得到所述知识编码。3.根据权利要求2所述的方法,其特征在于,所述利用实体链接和实体知识库对所述训练文本进行处理,得到概念实体数据包括:利用所述实体链接对所述训练文本进行实体链接操作,确定所述训练文本的实体数据集,其中,所述实体链接操作用于将所述训练文本映射到所述实体知识库的实体上;利用所述实体知识库对所述实体数据集进行概念化操作,得到所述概念实体数据,其中,所述概念化操作用于获取所述实体的属性。4.根据权利要求2所述的方法,其特征在于,所述利用目标词处理方案和目标网络模型对所述训练文本进行处理,得到所述文本编码包括:利用所述目标词处理方案将所述训练文本映射为第一数字向量,其中,所述目标词处理方案用于将词语数据转换为数字向量;将所述第一数字向量输入第一网络模型,得到语义编码,其中,所述目标网络模型包括所述第一网络模型,所述第一网络模型用于获取所述语义编码;将所述语义编码输入第二网络模型,得到所述文本编码,其中,所述目标网络模型包括所述第二网络模型,所述第二网络模型用于获取所述文本编码。5.根据权利要求4所述的方法,其特征在于,所述利用目标词处理方案和目标网络模型对所述概念实体数据进行处理,得到所述知识编码包括:利用所述目标词处理方案将所述概念实体数据映射为第二数字向量;将所述第二数字向量输入所述第一网络模...

【专利技术属性】
技术研发人员:朱志强
申请(专利权)人:上海明略人工智能集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1