System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于大模型算法的数据处理方法、装置、设备及存储介质制造方法及图纸_技高网

一种基于大模型算法的数据处理方法、装置、设备及存储介质制造方法及图纸

技术编号:43001070 阅读:17 留言:0更新日期:2024-10-15 13:28
本公开提供了一种基于大模型算法的数据处理方法、装置、设备及存储介质,根据具有相同标签的至少两个目标数据和所述标签,利用大模型,确定所有所述目标数据对应的中心意图以及每个所述目标数据的意图为所述中心意图的概率;根据所述概率和预设阈值确定目标数据集,所述目标数据集中各目标数据的意图与所述中心意图相同。

【技术实现步骤摘要】

本公开涉及大模型,尤其涉及一种基于大模型算法的数据处理方法、装置、设备及存储介质


技术介绍

1、在现有的数据的意图分类方案得到的结果中,存在同一个数据出现在不同类别的情况,因此,分类结果质量不高。现有针对这种情况,需要对已经意图分类的数据进行优化,现有一些方案的具体做法是,将这个类别中的每个数据与该类别的标准数据基于文本进行相似度计算,将相似度不高的数据剔除,但是这种相似度计算确定出的是描述与标准数据表述不相似的数据,而不是意图不相似的数据,优化效果不理想。


技术实现思路

1、本公开提供了一种基于大模型算法的数据处理方法、装置、设备及存储介质,以至少解决现有技术中存在的以上技术问题。

2、本申请第一方面提供一种基于大模型算法的数据处理方法,该方法包括:

3、根据具有相同标签的至少两个目标数据和所述标签,利用大模型,确定所有所述目标数据对应的中心意图以及每个所述目标数据的意图为所述中心意图的概率;

4、根据所述概率和预设阈值确定目标数据集,所述目标数据集中各目标数据的意图与所述中心意图相同。

5、其中,确定所述每个所述目标数据的意图为所述中心意图的概率,包括:

6、根据所述目标数据的第一描述信息,利用所述大模型,得到所述中心意图的第二描述信息中每一个字符与第一描述信息相关联的概率;

7、根据所述第二描述信息中所有字符的概率,确定所述目标数据的意图为中心意图的概率;

8、其中,所述第二描述信息由至少一个字符组成。

9、其中,所述得到所述中心意图的第二描述信息中每一个字符与第一描述信息相关联的概率,包括:

10、根据所述目标数据的第一描述信息以及所述中心意图的第二描述信息中第1至第n-1个字符构建提示词,根据该提示词,利用所述大模型,得到所述第二描述信息中第n个字符与第一描述信息相关联的概率,所述n为大于等于1的整数。

11、其中,根据所述第二描述信息中所有字符的概率,确定所述目标数据的意图为中心意图的概率,包括:

12、将所述第二描述信息中所有字符的概率的平均值作为所述目标数据的意图为中心意图的概率。

13、其中,所述根据具有相同标签的至少两个目标数据和所述标签,利用大模型,确定所有所述目标数据对应的中心意图,包括:

14、对所述具有相同标签的所有目标数据进行分类,每个分类中目标数据的文本表述方式相似,不同分类的目标数据的文本表述方式不相似;

15、从每个分类中选取目标数据,并根据所选取的所有目标数据和所述标签,利用大模型,确定所述具有相同标签的所有目标数据对应的中心意图。

16、其中,所述利用大模型,确定所有所述目标数据对应的中心意图,包括:

17、获取目标数据的第一描述信息;

18、根据所有所述目标数据的第一描述信息和所述标签构建提示词;

19、根据该提示词,利用大模型,确定所述中心意图的第二描述信息。

20、本申请第二方面提供一种基于大模型算法的数据处理装置,包括:

21、意图分析模块,用于根据具有相同标签的至少两个目标数据和所述标签,利用大模型,确定所有所述目标数据对应的中心意图以及每个所述目标数据的意图为所述中心意图的概率;

22、数据筛选模块,用于根据根据所述概率和预设阈值确定目标数据集,所述目标数据集中各目标数据的意图与所述中心意图相同。

23、其中,所述意图分析模块,还用于根据所述目标数据的第一描述信息,利用所述大模型,得到所述中心意图的第二描述信息中每一个字符与第一描述信息相关联的概率,并根据所述第二描述信息中所有字符的概率,确定所述目标数据的意图为中心意图的概率;

24、其中,所述第二描述信息由至少一个字符组成。

25、本申请第三方面提供一种电子设备,包括:

26、至少一个处理器;以及

27、与所述至少一个处理器通信连接的存储器;其中,

28、所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述的基于大模型算法的数据处理方法。

29、本申请第四方面提供一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使计算机执行上述的基于大模型算法的数据处理方法。

30、应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

本文档来自技高网...

【技术保护点】

1.一种基于大模型算法的数据处理方法,该方法包括:

2.根据权利要求1所述的方法,确定所述每个所述目标数据的意图为所述中心意图的概率,包括:

3.根据权利要求2所述的方法,所述得到所述中心意图的第二描述信息中每一个字符与第一描述信息相关联的概率,包括:

4.根据权利要求2所述的方法,根据所述第二描述信息中所有字符的概率,确定所述目标数据的意图为中心意图的概率,包括:

5.根据权利要求1所述的方法,所述根据具有相同标签的至少两个目标数据和所述标签,利用大模型,确定所有所述目标数据对应的中心意图,包括:

6.根据权利要求1或5所述的方法,所述利用大模型,确定所有所述目标数据对应的中心意图,包括:

7.一种基于大模型算法的数据处理装置,包括:

8.根据权利要求7所述的装置,

9.一种电子设备,包括:

10.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使计算机执行根据权利要求1-6任一项所述的方法。

【技术特征摘要】

1.一种基于大模型算法的数据处理方法,该方法包括:

2.根据权利要求1所述的方法,确定所述每个所述目标数据的意图为所述中心意图的概率,包括:

3.根据权利要求2所述的方法,所述得到所述中心意图的第二描述信息中每一个字符与第一描述信息相关联的概率,包括:

4.根据权利要求2所述的方法,根据所述第二描述信息中所有字符的概率,确定所述目标数据的意图为中心意图的概率,包括:

5.根据权利要求1所述的方法,所述根据具有相同标签的至...

【专利技术属性】
技术研发人员:李让
申请(专利权)人:联想诺谛北京智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1