System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于用户需求的文本数据的生成方法、装置、设备及介质制造方法及图纸_技高网

基于用户需求的文本数据的生成方法、装置、设备及介质制造方法及图纸

技术编号:44926728 阅读:15 留言:0更新日期:2025-04-08 19:06
本申请实施例提供一种基于用户需求的文本数据的生成方法、装置、设备及介质。该方法包括:获取预设的初始文本数据;其中,预设的初始文本数据为满足用户需求的文本数据;对预设的初始文本数据进行切分处理,得到预设的初始文本数据中的语义部分和实体部分;其中,语义部分表征文本数据中的语义信息;实体部分表征文本数据中的实体词语;对语义部分进行语义改写处理,得到改写后的语义部分,以及对实体部分进行词语更新处理,得到更新后的实体部分;根据改写后的语义部分和更新后的实体部分,生成目标文本数据。该方法用以达到快速生成大量符合用户需求的文本数据的效果。

【技术实现步骤摘要】

本申请涉及文本数据生成领域,尤其涉及一种基于用户需求的文本数据的生成方法、装置、设备及介质


技术介绍

1、随着大模型技术的发展,大模型逐渐被应用到各种场景中。为保证大模型能够符合用户在对应场景下的需求,需要通过使用大量对应场景的数据,构成用于大模型训练的数据集,并使用数据集对大模型进行训练,使大模型能够处理对应场景的任务,符合对应场景的用户需求。

2、目前,构建文本训练集的方法多依赖于人工标注或网络爬虫爬取数据,效率低下且成本高昂,数据质量参差不齐。因此,如何快速高效的获取大量符合用户需求的文本数据,成为目前亟待解决的问题。


技术实现思路

1、本申请实施例提供基于用户需求的文本数据的生成方法、装置、设备及介质,用以达到快速生成大量符合用户需求的文本数据的效果。

2、第一方面,本申请实施例提供一种基于用户需求的文本数据的生成方法,包括:

3、获取预设的初始文本数据;其中,预设的初始文本数据为满足用户需求的文本数据;

4、对预设的初始文本数据进行切分处理,得到预设的初始文本数据中的语义部分和实体部分;其中,语义部分表征文本数据中的语义信息;实体部分表征文本数据中的实体词语;

5、对语义部分进行语义改写处理,得到改写后的语义部分,以及对实体部分进行词语更新处理,得到更新后的实体部分;

6、根据改写后的语义部分和更新后的实体部分,生成目标文本数据。

7、可选地,如上所述的方法,对实体部分进行词语更新处理,得到更新后的实体部分,包括:

8、从预设的实体数据库中,查找与实体部分关联的实体词,为关联实体;其中,预设的实体数据库中存储有多个实体词;

9、从关联实体中确定待更新词语,并对待更新词语进行遮蔽处理,将遮蔽后的关联实体确定为更新后的实体部分。

10、可选地,如上所述的方法,从关联实体中确定待更新词语,包括:

11、若确定关联实体的语法结构为动宾结构,则对关联实体中的动词和宾语分别进行语义识别处理,从动词和宾语中确定待更新词语。

12、可选地,如上所述的方法,预先设置有需求信息,需求信息表征用户需求;对关联实体中的动词和宾语分别进行语义识别处理,从动词和宾语中确定待更新词语,包括:

13、对关联实体中的动词进行语义识别处理,确定动词与需求信息之间的相关度,为第一相关度,以及对关联实体中的宾语进行语义识别处理,确定宾语与需求信息之间的相关度,为第二相关度;

14、根据第一相关度和第二相关度,从动词和宾语中确定待更新词语。

15、可选地,如上所述的方法,从关联实体中确定待更新词语,包括:

16、若确定关联实体的语法结构不是动宾结构,则将关联实体确定为待更新词语

17、可选地,如上所述的方法,从预设的实体数据库中,查找与实体部分关联的实体词,为关联实体,包括:

18、获取预设的实体数据库中的实体词,确定实体部分和实体词之间的关联度;其中,关联度表征实体部分和实体词之间的相关程度;

19、根据实体部分和实体词之间的关联度,从预设的实体数据库中确定关联实体。

20、可选地,如上所述的方法,对预设的初始文本数据进行切分处理,得到预设的初始文本数据中的语义部分和实体部分,包括:

21、基于预设的识别模型,从预设的初始文本数据中识别出语义部分和实体部分,并对语义部分和实体部分进行切分处理;其中,预设的识别模型为预训练的语言模型,用于识别出文本数据中的语义和实体

22、可选地,如上所述的方法,根据改写后的语义部分和更新后的实体部分,生成目标文本数据,包括:

23、将改写后的语义部分和更新后的实体部分进行拼接处理,得到第一待处理文本;

24、对第一待处理文本进行扩写处理,得到第二待处理文本;

25、将待更新词语添加至第二待处理文本中被遮蔽的部分,得到目标文本数据。

26、第二方面,本申请实施例提供一种基于用户需求的文本数据的生成装置,包括:

27、获取单元,用于获取预设的初始文本数据;其中,预设的初始文本数据为满足用户需求的文本数据;

28、切分单元,用于对预设的初始文本数据进行切分处理,得到预设的初始文本数据中的语义部分和实体部分;其中,语义部分表征文本数据中的语义信息;实体部分表征文本数据中的实体词语;

29、处理单元,用于对语义部分进行语义改写处理,得到改写后的语义部分,以及对实体部分进行词语更新处理,得到更新后的实体部分;

30、生成单元,用于根据改写后的语义部分和更新后的实体部分,生成目标文本数据。

31、第三方面,本申请实施例提供一种基于用户需求的文本数据的生成设备,包括:存储器,处理器;

32、所述存储器存储计算机执行指令;

33、所述处理器执行所述存储器存储的计算机执行指令,使得所述处理器执行如上第一方面和/或第一方面各种可能的实施方式。

34、第四方面,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如上第一方面和/或第一方面各种可能的实施方式。

35、第五方面,本申请实施例提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如上第一方面和/或第一方面各种可能的实施方式。

36、本申请实施例提供的基于用户需求的文本数据的生成方法、装置、设备及介质,通过获取用户预设的初始文本数据,并对文本数据进行切分,得到预设的初始文本数据的语义部分和实体部分,对语义部分进行改写处理,对实体部分进行词语更新处理,根据改写后的语义部分和更新后的实体部分,生成目标文本数据。通过对初始文本数据进行切分,精准的得到了文本数据的语义部分与实体部分,便于操作;对语义部分进行改写,生成语义相似但表述不同的语句,丰富了数据的种类;对实体部分进行更新,得到更多新的相关联的更新后的实体部分;通过根据改写后的语义部分与更新后的实体部分,可以快速生成大量符合需求的目标文本数据,提高数据生成的效率和多样性。

本文档来自技高网...

【技术保护点】

1.一种基于用户需求的文本数据的生成方法,其特征在于,包括;

2.根据权利要求1所述的方法,其特征在于,对所述实体部分进行词语更新处理,得到更新后的实体部分,包括:

3.根据权利要求2所述的方法,其特征在于,从所述关联实体中确定待更新词语,包括:

4.根据权利要求3所述的方法,其特征在于,预先设置有需求信息,所述需求信息表征用户需求;对所述关联实体中的动词和宾语分别进行语义识别处理,从所述动词和所述宾语中确定所述待更新词语,包括:

5.根据权利要求2所述的方法,其特征在于,从所述关联实体中确定待更新词语,包括:

6.根据权利要求2所述的方法,其特征在于,从预设的实体数据库中,查找与所述实体部分关联的实体词,为关联实体,包括:

7.根据权利要求1所述的方法,其特征在于,对所述预设的初始文本数据进行切分处理,得到所述预设的初始文本数据中的语义部分和实体部分,包括:

8.根据权利要求2所述的方法,其特征在于,根据所述改写后的语义部分和所述更新后的实体部分,生成目标文本数据,包括:

9.一种基于用户需求的文本数据的生成装置,其特征在于,包括:

10.一种基于用户需求的文本数据的生成电子设备,其特征在于,包括:处理器,以及与所述处理器通信连接的存储器;

11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至8任一项所述的方法。

12.一种计算机程序产品,其特征在于,包括计算机程序,该计算机程序被处理器执行时实现权利要求1-8中任一项所述的方法。

...

【技术特征摘要】

1.一种基于用户需求的文本数据的生成方法,其特征在于,包括;

2.根据权利要求1所述的方法,其特征在于,对所述实体部分进行词语更新处理,得到更新后的实体部分,包括:

3.根据权利要求2所述的方法,其特征在于,从所述关联实体中确定待更新词语,包括:

4.根据权利要求3所述的方法,其特征在于,预先设置有需求信息,所述需求信息表征用户需求;对所述关联实体中的动词和宾语分别进行语义识别处理,从所述动词和所述宾语中确定所述待更新词语,包括:

5.根据权利要求2所述的方法,其特征在于,从所述关联实体中确定待更新词语,包括:

6.根据权利要求2所述的方法,其特征在于,从预设的实体数据库中,查找与所述实体部分关联的实体词,为关联实体,包括:

7.根据权利要求1所述的方法,其...

【专利技术属性】
技术研发人员:张春晓张华正雷雪娇安美娟王恺廉士国
申请(专利权)人:中国联合网络通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1