System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 数据挖掘方法、装置及存储介质制造方法及图纸_技高网

数据挖掘方法、装置及存储介质制造方法及图纸

技术编号:41896679 阅读:5 留言:0更新日期:2024-07-05 14:05
本申请适用于数据处理技术领域,提供了一种数据挖掘方法、装置及存储介质,其中,该方法首先获取当前时间段的待挖掘数据集,然后基于上一时间段的聚类结果对应的标注数据集调整语言模型,进一步利用调整后的语言模型,分别对待挖掘数据集中的每个文本进行向量编码得到编码向量,最后对编码向量进行聚类,得到当前时间段的聚类结果。由此,通过利用上一时间段聚类结果的标注数据,对当前时间段的预训练语言模型进行优化调整,从而提高了当前时间段的聚类精度,通过这种方式,每一时间段的聚类精度相较于上一时间段均有所提升,提高了数据挖掘的准确率。

【技术实现步骤摘要】

本申请属于数据处理,尤其涉及一种数据挖掘方法、装置及存储介质


技术介绍

1、随着计算机和网络应用的飞速发展,以及不同领域的业务种类的日益丰富,从海量数据中有效地挖掘出不同类别的对象,以便针对不同类别的对象实施不同的处理方案变的越来越重要。例如在物流行业,各公司的客服部门会记录大量有关售前咨询、售后投诉等数据,为了精确定位用户的明确要求或潜在需要,需要对数据进行挖掘,从而为客服人员提供更多的协助,尽快解决用户的问题,以及改善用户的体验。

2、相关技术中,系统会定期对收集到的数据进行挖掘,但是数据挖掘的准确性不可能为百分之百,难免会存在误差,如果不及时改善,后续的挖掘可能会出现之前同样的错误,影响了数据挖掘的准确率。


技术实现思路

1、本申请实施例提供了一种数据挖掘方法、装置及存储介质,可以解决系统会定期对收集到的数据进行挖掘,但是数据挖掘的准确性不可能为百分之百,难免会存在误差,如果不及时改善,后续的挖掘可能会出现之前同样的错误,影响了数据挖掘的准确率的问题。

2、本申请实施例的第一方面提供了一种数据挖掘方法,包括:

3、获取当前时间段的待挖掘数据集,其中,待挖掘数据集包括多个文本;

4、基于上一时间段的聚类结果对应的标注数据集,对预训练语言模型的网络参数进行调整,以生成调整后的语言模型;

5、利用调整后的语言模型,分别对每个文本进行向量编码,以确定编码向量;

6、对编码向量进行聚类,以确定当前时间段的待挖掘数据集对应的聚类结果。

7、可选的,在第一方面一种可能的实现方式中,上述获取当前时间段的待挖掘数据集,包括:

8、获取当前时间段的原始数据集;

9、对原始数据集进行维度分类,以确定原始数据集中包含的各个维度对应的原始数据子集;

10、将任一维度对应的原始数据子集确定为待挖掘数据集。

11、可选的,在第一方面一种可能的实现方式中,上述上一时间段的聚类结果对应的标注数据集包括:各个维度对应的标注数据集,上述基于上一时间段的聚类结果对应的标注数据集,对预训练语言模型的网络参数进行调整,以生成调整后的语言模型,包括:

12、基于与待挖掘数据集维度相同的标注数据集,对预训练语言模型的网络参数进行调整,以生成调整后的语言模型。

13、可选的,在第一方面一种可能的实现方式中,上述利用调整后的语言模型,分别对每个文本进行向量编码,以确定编码向量之前,还包括:

14、基于标点符号对每个文本进行分句,以确定每个文本包含的至少一个句子;

15、利用调整后的语言模型,分别对每个文本进行向量编码,以确定编码向量,包括:

16、利用调整后的语言模型,分别对每个文本包含的各个句子进行向量编码,以确定每个句子对应的编码数据;

17、利用各个句子对应的编码数据,构成编码向量。

18、可选的,在第一方面一种可能的实现方式中,上述利用调整后的语言模型,分别对每个文本包含的各个句子进行向量编码,以确定每个句子对应的编码数据之前,还包括:

19、根据预设的干扰词库,分别对各个句子进行第一过滤处理。

20、可选的,在第一方面一种可能的实现方式中,上述标注数据集包括句子有效性标注子集,上述利用调整后的语言模型,分别对每个文本进行向量编码,以确定编码向量之前,还包括:

21、基于上一时间段的聚类结果对应的句子有效性标注子集,对预先生成的文本分类模型进行训练优化,以生成调整后的文本分类模型,其中,文本分类模型用于判断句子是否有效;

22、利用调整后的文本分类模型,分别对经过第一过滤处理的各个句子进行第二过滤处理。

23、可选的,在第一方面一种可能的实现方式中,上述标注数据集包括类簇有效性标注子集及句子归类标注子集,上述基于上一时间段的聚类结果对应的标注数据集,对预训练语言模型的网络参数进行调整,以生成调整后的语言模型,包括:

24、基于上一时间段的聚类结果对应的类簇有效性标注子集及句子归类标注子集,对预训练语言模型的网络参数进行调整,以生成调整后的语言模型。

25、可选的,在第一方面一种可能的实现方式中,上述利用各个句子对应的编码数据,构成编码向量之前,还包括:

26、对各个句子对应的编码数据分别进行降维处理。

27、可选的,在第一方面一种可能的实现方式中,上述对编码向量进行聚类,以确定当前时间段的待挖掘数据集对应的聚类结果,包括:

28、将编码向量输入至预生成的集成聚类模型中,确定编码向量中的各个编码数据的类簇划分结果;

29、将编码向量中的各个编码数据的类簇划分结果,确定为当前时间段的待挖掘数据集对应的聚类结果。

30、可选的,在第一方面一种可能的实现方式中,上述集成聚类模型的网络参数包括预设聚类次数、预设类簇数及预设相似度阈值,上述将编码向量输入至预生成的集成聚类模型中,确定编码向量中的各个编码数据的类簇划分结果,包括:

31、根据预设聚类次数及预设类簇数,对编码向量进行聚类,以生成相似度矩阵,其中,相似度矩阵用于表示编码向量中任意两组编码数据出现在同一类簇的次数;

32、对相似度矩阵进行归一化处理,以生成相似度归一化矩阵;

33、根据相似度归一化矩阵及预设相似度阈值,确定编码向量中的各个编码数据的类簇划分结果。

34、可选的,在第一方面一种可能的实现方式中,上述对编码向量进行聚类,以确定当前时间段的待挖掘数据集对应的聚类结果之后,包括:

35、对当前时间段的待挖掘数据集对应的聚类结果进行标注,以生成当前时间段的聚类结果对应的标注数据集。

36、本申请实施例的第二方面提供了一种数据挖掘装置,包括:

37、获取模块,用于获取当前时间段的待挖掘数据集,其中,待挖掘数据集包括多个文本;

38、调整模块,用于基于上一时间段的聚类结果对应的标注数据集,对预训练语言模型的网络参数进行调整,以生成调整后的语言模型;

39、确定模块,用于利用调整后的语言模型,分别对每个文本进行向量编码,以确定编码向量;

40、聚类模块,用于对编码向量进行聚类,以确定当前时间段的待挖掘数据集对应的聚类结果。

41、本申请实施例的第三方面提供了一种终端设备,包括:存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述第一方面的数据挖掘方法。

42、本申请实施例的第四方面提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述第一方面的数据挖掘方法。

43、本申请实施例的第五方面提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行上述第一方面的数据挖掘方法。

4本文档来自技高网...

【技术保护点】

1.一种数据挖掘方法,其特征在于,包括:

2.如权利要求1所述的数据挖掘方法,其特征在于,所述获取当前时间段的待挖掘数据集,包括:

3.如权利要求2所述的数据挖掘方法,其特征在于,所述上一时间段的聚类结果对应的标注数据集包括:各个所述维度对应的标注数据集,所述基于上一时间段的聚类结果对应的标注数据集,对预训练语言模型的网络参数进行调整,以生成调整后的语言模型,包括:

4.如权利要求1所述的数据挖掘方法,其特征在于,所述利用所述调整后的语言模型,分别对每个所述文本进行向量编码,以确定编码向量之前,还包括:

5.如权利要求4所述的数据挖掘方法,其特征在于,所述利用所述调整后的语言模型,分别对每个所述文本包含的各个所述句子进行向量编码,以确定每个所述句子对应的编码数据之前,还包括:

6.如权利要求5所述的数据挖掘方法,其特征在于,所述标注数据集包括句子有效性标注子集,所述利用所述调整后的语言模型,分别对每个所述文本进行向量编码,以确定编码向量之前,还包括:

7.如权利要求4所述的数据挖掘方法,其特征在于,所述标注数据集包括类簇有效性标注子集及句子归类标注子集,所述基于上一时间段的聚类结果对应的标注数据集,对预训练语言模型的网络参数进行调整,以生成调整后的语言模型,包括:

8.如权利要求4所述的数据挖掘方法,其特征在于,所述利用各个所述句子对应的编码数据,构成所述编码向量之前,还包括:

9.如权利要求4所述的数据挖掘方法,其特征在于,所述对所述编码向量进行聚类,以确定所述当前时间段的所述待挖掘数据集对应的聚类结果,包括:

10.如权利要求9所述的数据挖掘方法,其特征在于,所述集成聚类模型的网络参数包括预设聚类次数、预设类簇数及预设相似度阈值,所述将所述编码向量输入至预生成的集成聚类模型中,确定所述编码向量中的各个所述编码数据的类簇划分结果,包括:

11.如权利要求1所述的数据挖掘方法,其特征在于,所述对所述编码向量进行聚类,以确定所述当前时间段的所述待挖掘数据集对应的聚类结果之后,包括:

12.一种数据挖掘装置,其特征在于,包括:

13.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至11任一项所述的方法。

...

【技术特征摘要】

1.一种数据挖掘方法,其特征在于,包括:

2.如权利要求1所述的数据挖掘方法,其特征在于,所述获取当前时间段的待挖掘数据集,包括:

3.如权利要求2所述的数据挖掘方法,其特征在于,所述上一时间段的聚类结果对应的标注数据集包括:各个所述维度对应的标注数据集,所述基于上一时间段的聚类结果对应的标注数据集,对预训练语言模型的网络参数进行调整,以生成调整后的语言模型,包括:

4.如权利要求1所述的数据挖掘方法,其特征在于,所述利用所述调整后的语言模型,分别对每个所述文本进行向量编码,以确定编码向量之前,还包括:

5.如权利要求4所述的数据挖掘方法,其特征在于,所述利用所述调整后的语言模型,分别对每个所述文本包含的各个所述句子进行向量编码,以确定每个所述句子对应的编码数据之前,还包括:

6.如权利要求5所述的数据挖掘方法,其特征在于,所述标注数据集包括句子有效性标注子集,所述利用所述调整后的语言模型,分别对每个所述文本进行向量编码,以确定编码向量之前,还包括:

7.如权利要求4所述的数据挖掘方法,其特征在于,所述标注数据集包括类簇有效性标注子集及句...

【专利技术属性】
技术研发人员:武晓波
申请(专利权)人:顺丰科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1