System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及文本数据生成领域,尤其涉及一种基于用户需求的文本数据的生成方法、装置、设备及介质。
技术介绍
1、随着大模型技术的发展,大模型逐渐被应用到各种场景中。为保证大模型能够符合用户在对应场景下的需求,需要通过使用大量对应场景的数据,构成用于大模型训练的数据集,并使用数据集对大模型进行训练,使大模型能够处理对应场景的任务,符合对应场景的用户需求。
2、目前,构建文本训练集的方法多依赖于人工标注或网络爬虫爬取数据,效率低下且成本高昂,数据质量参差不齐。因此,如何快速高效的获取大量符合用户需求的文本数据,成为目前亟待解决的问题。
技术实现思路
1、本申请实施例提供基于用户需求的文本数据的生成方法、装置、设备及介质,用以达到快速生成大量符合用户需求的文本数据的效果。
2、第一方面,本申请实施例提供一种基于用户需求的文本数据的生成方法,包括:
3、获取预设的初始文本数据;其中,预设的初始文本数据为满足用户需求的文本数据;
4、对预设的初始文本数据进行切分处理,得到预设的初始文本数据中的语义部分和实体部分;其中,语义部分表征文本数据中的语义信息;实体部分表征文本数据中的实体词语;
5、对语义部分进行语义改写处理,得到改写后的语义部分,以及对实体部分进行词语更新处理,得到更新后的实体部分;
6、根据改写后的语义部分和更新后的实体部分,生成目标文本数据。
7、可选地,如上所述的方法,对实体部分进行词语更新处理,
8、从预设的实体数据库中,查找与实体部分关联的实体词,为关联实体;其中,预设的实体数据库中存储有多个实体词;
9、从关联实体中确定待更新词语,并对待更新词语进行遮蔽处理,将遮蔽后的关联实体确定为更新后的实体部分。
10、可选地,如上所述的方法,从关联实体中确定待更新词语,包括:
11、若确定关联实体的语法结构为动宾结构,则对关联实体中的动词和宾语分别进行语义识别处理,从动词和宾语中确定待更新词语。
12、可选地,如上所述的方法,预先设置有需求信息,需求信息表征用户需求;对关联实体中的动词和宾语分别进行语义识别处理,从动词和宾语中确定待更新词语,包括:
13、对关联实体中的动词进行语义识别处理,确定动词与需求信息之间的相关度,为第一相关度,以及对关联实体中的宾语进行语义识别处理,确定宾语与需求信息之间的相关度,为第二相关度;
14、根据第一相关度和第二相关度,从动词和宾语中确定待更新词语。
15、可选地,如上所述的方法,从关联实体中确定待更新词语,包括:
16、若确定关联实体的语法结构不是动宾结构,则将关联实体确定为待更新词语
17、可选地,如上所述的方法,从预设的实体数据库中,查找与实体部分关联的实体词,为关联实体,包括:
18、获取预设的实体数据库中的实体词,确定实体部分和实体词之间的关联度;其中,关联度表征实体部分和实体词之间的相关程度;
19、根据实体部分和实体词之间的关联度,从预设的实体数据库中确定关联实体。
20、可选地,如上所述的方法,对预设的初始文本数据进行切分处理,得到预设的初始文本数据中的语义部分和实体部分,包括:
21、基于预设的识别模型,从预设的初始文本数据中识别出语义部分和实体部分,并对语义部分和实体部分进行切分处理;其中,预设的识别模型为预训练的语言模型,用于识别出文本数据中的语义和实体
22、可选地,如上所述的方法,根据改写后的语义部分和更新后的实体部分,生成目标文本数据,包括:
23、将改写后的语义部分和更新后的实体部分进行拼接处理,得到第一待处理文本;
24、对第一待处理文本进行扩写处理,得到第二待处理文本;
25、将待更新词语添加至第二待处理文本中被遮蔽的部分,得到目标文本数据。
26、第二方面,本申请实施例提供一种基于用户需求的文本数据的生成装置,包括:
27、获取单元,用于获取预设的初始文本数据;其中,预设的初始文本数据为满足用户需求的文本数据;
28、切分单元,用于对预设的初始文本数据进行切分处理,得到预设的初始文本数据中的语义部分和实体部分;其中,语义部分表征文本数据中的语义信息;实体部分表征文本数据中的实体词语;
29、处理单元,用于对语义部分进行语义改写处理,得到改写后的语义部分,以及对实体部分进行词语更新处理,得到更新后的实体部分;
30、生成单元,用于根据改写后的语义部分和更新后的实体部分,生成目标文本数据。
31、第三方面,本申请实施例提供一种基于用户需求的文本数据的生成设备,包括:存储器,处理器;
32、所述存储器存储计算机执行指令;
33、所述处理器执行所述存储器存储的计算机执行指令,使得所述处理器执行如上第一方面和/或第一方面各种可能的实施方式。
34、第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如上第一方面和/或第一方面各种可能的实施方式。
35、第五方面,本申请实施例提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如上第一方面和/或第一方面各种可能的实施方式。
36、本申请实施例提供的基于用户需求的文本数据的生成方法、装置、设备及介质,通过获取用户预设的初始文本数据,并对文本数据进行切分,得到预设的初始文本数据的语义部分和实体部分,对语义部分进行改写处理,对实体部分进行词语更新处理,根据改写后的语义部分和更新后的实体部分,生成目标文本数据。通过对初始文本数据进行切分,精准的得到了文本数据的语义部分与实体部分,便于操作;对语义部分进行改写,生成语义相似但表述不同的语句,丰富了数据的种类;对实体部分进行更新,得到更多新的相关联的更新后的实体部分;通过根据改写后的语义部分与更新后的实体部分,可以快速生成大量符合需求的目标文本数据,提高数据生成的效率和多样性。
本文档来自技高网...【技术保护点】
1.一种基于用户需求的文本数据的生成方法,其特征在于,包括;
2.根据权利要求1所述的方法,其特征在于,对所述实体部分进行词语更新处理,得到更新后的实体部分,包括:
3.根据权利要求2所述的方法,其特征在于,从所述关联实体中确定待更新词语,包括:
4.根据权利要求3所述的方法,其特征在于,预先设置有需求信息,所述需求信息表征用户需求;对所述关联实体中的动词和宾语分别进行语义识别处理,从所述动词和所述宾语中确定所述待更新词语,包括:
5.根据权利要求2所述的方法,其特征在于,从所述关联实体中确定待更新词语,包括:
6.根据权利要求2所述的方法,其特征在于,从预设的实体数据库中,查找与所述实体部分关联的实体词,为关联实体,包括:
7.根据权利要求1所述的方法,其特征在于,对所述预设的初始文本数据进行切分处理,得到所述预设的初始文本数据中的语义部分和实体部分,包括:
8.根据权利要求2所述的方法,其特征在于,根据所述改写后的语义部分和所述更新后的实体部分,生成目标文本数据,包括:
9.一种基
10.一种基于用户需求的文本数据的生成电子设备,其特征在于,包括:处理器,以及与所述处理器通信连接的存储器;
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至8任一项所述的方法。
12.一种计算机程序产品,其特征在于,包括计算机程序,该计算机程序被处理器执行时实现权利要求1-8中任一项所述的方法。
...【技术特征摘要】
1.一种基于用户需求的文本数据的生成方法,其特征在于,包括;
2.根据权利要求1所述的方法,其特征在于,对所述实体部分进行词语更新处理,得到更新后的实体部分,包括:
3.根据权利要求2所述的方法,其特征在于,从所述关联实体中确定待更新词语,包括:
4.根据权利要求3所述的方法,其特征在于,预先设置有需求信息,所述需求信息表征用户需求;对所述关联实体中的动词和宾语分别进行语义识别处理,从所述动词和所述宾语中确定所述待更新词语,包括:
5.根据权利要求2所述的方法,其特征在于,从所述关联实体中确定待更新词语,包括:
6.根据权利要求2所述的方法,其特征在于,从预设的实体数据库中,查找与所述实体部分关联的实体词,为关联实体,包括:
7.根据权利要求1所述的方法,其...
【专利技术属性】
技术研发人员:张春晓,张华正,雷雪娇,安美娟,王恺,廉士国,
申请(专利权)人:中国联合网络通信集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。