System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及文本生成,尤其涉及一种文本数据生成方法、装置、设备及介质。
技术介绍
1、目前,神经网络的训练方法主要依赖于标注的文本数据,因此,基于结构化数据生成文本(data-to-text,d2t)是自然语言处理的一项核心任务。利用结构化数据生成的文本数据可以应用于广泛的应用领域/场景,如从统计数据中自动生成新闻、从病人检测结果中组成医疗诊断报告、制作金融报告和从数字输入生成天气预报、体育比赛的现场解说等。
2、现有的将结构化数据转换为文本的技术,通常依靠模板或规则将数据转换为文本,数据和文本通常依赖于专家的领域知识对数据进行手工编写、标注,涉及内容选择、内容排序、词法化等多个步骤,需要耗费大量的人力和领域知识。
技术实现思路
1、本申请提供了一种文本数据生成方法、装置、设备及介质,有效的提升数据标注的效率和准确度,弥补神经网络模型缺乏大规模的标注数据的问题,从而解决现有技术依赖于专家进行数据标注所导致的需要耗费大量的人力和领域知识的问题。
2、第一方面,本申请提供了一种文本数据生成方法,包括:
3、获取结构化数据对应的待处理文本数据,所述待处理文本数据包含非标注数据;
4、针对所述非标注数据,通过预设的标注模型进行数据标注,得到自然语言文本,所述自然语言文本包含至少一个待验证标注数据;
5、通过预设的验证模型对每一个所述待验证标注数据进行文本验证,得到所述待验证标注数据对应的验证结果,所述验证结果包含初始验证结果和二次验
6、依据所述初始验证结果和所述二次验证结果,对所述自然语言文本进行数据精练,得到目标文本数据。
7、可选的,所述获取结构化数据对应的待处理文本数据,包括:
8、获取结构化数据集,所述结构化数据集包含结构化数据;
9、依据所述结构化数据进行数据转换,得到目标字符串数据;
10、基于所述目标字符串数据进行文本分词,得到所述待处理文本数据。
11、可选的,所述验证模型包含第一验证模型和第二验证模型,所述通过预设的验证模型对每一个所述待验证标注数据进行文本验证,得到所述待验证标注数据对应的验证结果,包括:
12、获取预设的验证规则;
13、基于所述验证规则,通过所述第一验证模型对所述待验证标注数据进行数据验证,得到初始验证结果;
14、通过所述第二验证模型对所述第一验证结果和所述待验证标注数据进行二次验证,得到二次验证结果。
15、可选的,所述初始验证结果包含目标验证结果和非目标验证结果,所述基于所述验证规则,通过所述第一验证模型对所述待验证标注数据进行数据验证,得到初始验证结果,包括:
16、所述第一验证模型判断所述待验证标注数据是否符合所述验证规则;
17、在所述待验证标注数据符合所述验证规则时,生成目标验证结果,所述目标验证结果包含目标验证观点和目标验证指令;
18、在所述待验证标注数据不符合所述验证规则时,生成非目标验证结果,所述非目标验证结果包含非目标验证观点和非目标验证指令。
19、可选的,所述二次验证结果包含目标判别结果和非目标判别结果,所述通过所述第二验证模型对所述第一验证结果和所述待验证标注数据进行二次验证,得到二次验证结果,包括:
20、通过所述第二验证模型对所述待验证标注数据进行文本验证,得到文本验证结果;
21、在所述初始验证结果为目标验证结果时,判断所述文本验证结果与所述目标验证结果是否相符合;
22、若所述文本验证结果与所述目标验证结果相符合,则基于所述文本验证结果和所述目标验证结果,生成目标判别结果;
23、若所述文本验证结果与所述目标验证结果不符合,则基于所述文本验证结果,生成非目标判别结果。
24、可选的,所述依据所述初始验证结果和所述二次验证结果,对所述自然语言文本进行数据精练,得到目标文本数据,包括:
25、在所述初始验证结果为目标验证结果,且所述二次验证结果为目标判别结果时,基于所述自然语言文本生成所述目标文本数据;
26、在所述初始验证结果为非目标验证结果,和/或,所述二次验证结果为非目标判别结果时,从所述自然语言文本中过滤所述验证结果对应的待验证标注数据,得到所述目标文本数据。
27、可选的,所述得到目标文本数据之后,还包括:
28、基于所述目标文本数据和所述目标文本数据对应的结构化数据构建训练集;
29、基于所述训练集对所述标注模型进行参数微调,得到损失函数;
30、根据所述损失函数进行反向传播,得到梯度数据;
31、利用所述梯度数据对所述标注模型进行模型更新。
32、第二方面,本申请提供了一种文本数据生成装置,包括:
33、获取模块,用于获取结构化数据对应的待处理文本数据,所述待处理文本数据包含非标注数据;
34、数据标注模块,用于针对所述非标注数据,通过预设的标注模型进行数据标注,得到自然语言文本,所述自然语言文本包含至少一个待验证标注数据;
35、文本验证模块,用于通过预设的验证模型对每一个所述待验证标注数据进行文本验证,得到所述待验证标注数据对应的验证结果,所述验证结果包含初始验证结果和二次验证结果;
36、数据精练模块,用于依据所述初始验证结果和所述二次验证结果,对所述自然语言文本进行数据精练,得到目标文本数据。
37、第三方面,本申请提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
38、存储器,用于存放计算机程序;
39、处理器,用于执行存储器上所存放的程序时,实现如第一方面任一项实施例所述的文本数据生成方法的步骤。
40、第四方面,本申请提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面任一项实施例所述的文本数据生成方法的步骤。
41、综上,本申请实施例通过获取结构化数据对应的待处理文本数据,以基于待处理文本数据包含的非标注数据,通过预设的标注模型进行数据标注,得到自然语言文本,然后通过预设的验证模型对自然语言文本包含的每一个待验证标注数据进行文本验证,得到验证结果,依据验证结果包含初始验证结果和二次验证结果,对自然语言文本进行数据精练,得到目标文本数据,从而解决现有技术依赖于专家进行数据标注所导致的需要耗费大量的人力和领域知识的问题,提升数据标注的效率和准确度,进而弥补神经网络模型缺乏大规模的标注数据的问题。
本文档来自技高网...【技术保护点】
1.一种文本数据生成方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述获取结构化数据对应的待处理文本数据,包括:
3.根据权利要求1所述的方法,其特征在于,所述验证模型包含第一验证模型和第二验证模型,所述通过预设的验证模型对每一个所述待验证标注数据进行文本验证,得到所述待验证标注数据对应的验证结果,包括:
4.根据权利要求3所述的方法,其特征在于,所述初始验证结果包含目标验证结果和非目标验证结果,所述基于所述验证规则,通过所述第一验证模型对所述待验证标注数据进行数据验证,得到初始验证结果,包括:
5.根据权利要求4所述的方法,其特征在于,所述二次验证结果包含目标判别结果和非目标判别结果,所述通过所述第二验证模型对所述第一验证结果和所述待验证标注数据进行二次验证,得到二次验证结果,包括:
6.根据权利要求5所述的方法,其特征在于,所述依据所述初始验证结果和所述二次验证结果,对所述自然语言文本进行数据精练,得到目标文本数据,包括:
7.根据权利要求1-6任一项所述的方法,其特征在于,所述得到
8.一种文本数据生成装置,其特征在于,包括:
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的文本数据生成方法的步骤。
...【技术特征摘要】
1.一种文本数据生成方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述获取结构化数据对应的待处理文本数据,包括:
3.根据权利要求1所述的方法,其特征在于,所述验证模型包含第一验证模型和第二验证模型,所述通过预设的验证模型对每一个所述待验证标注数据进行文本验证,得到所述待验证标注数据对应的验证结果,包括:
4.根据权利要求3所述的方法,其特征在于,所述初始验证结果包含目标验证结果和非目标验证结果,所述基于所述验证规则,通过所述第一验证模型对所述待验证标注数据进行数据验证,得到初始验证结果,包括:
5.根据权利要求4所述的方法,其特征在于,所述二次验证结果包含目标判别结果和非目标判别结果,所述通过所述第二验证模型对所...
【专利技术属性】
技术研发人员:张蔚天,孙旭,朱艳春,马晓媛,冯春芳,郑宇浩,高伟,
申请(专利权)人:人工智能与数字经济广东省实验室广州,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。