基于深度迁移学习的大语言模型数据挖掘方法技术

技术编号：40443675 阅读：22 留言：0更新日期：2024-02-22 23:05

本发明专利技术涉及数据处理技术领域，提出了基于深度迁移学习的大语言模型数据挖掘方法，包括：获取文本数据集；利用主题模型获取每个主题下的主题特征词；利用深度优先搜索算法基于包含每个主题特征词对应节点的无向图确定文本无向路径；基于文本无向路径确定主题含义关联系数；基于主题含义关联系数以及主题特征词出现的频率确定主题含义凸显度；基于每个主题下所有主题特征词的主题含义凸显度的分布特征以及不同主题之间的语义差异确定主题过滤指数；基于主题过滤指数得到文本集合中的增强主题；将源域模型中的权重参数迁移到所述增强主题训练的文本分类模型中得到数据挖掘结果。本发明专利技术通过主题增强的方式提高文本数据分类的准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数字数据处理，具体涉及基于深度迁移学习的大语言模型数据挖掘方法。

技术介绍

1、基于深度迁移学习的大语言模型是指利用深度学习和迁移学习技术，构建用于处理自然语言文本的大型人工智能模型，比如gpt(generative pre-trained transformer)、bert(bidirectional encoder representations from transformers)模型，通过在大规模文本数据上进行大型语言模型的预训练，然后将预训练得到的大语言模型在特定任务中进行微调，以实现对各类任务的应用，比如问答系统、文本分类、机器翻译等任务。大语言模型解决了生成文本的流畅性问题，但是由于大语言模型的训练文本具有多样性和不平衡性的特点，使得大语言模型很难生成指定主题情感和关键词的文本，进而影响大语言模型在问答系统、文本分类等任务中的应用效果，因此需要对大语言模型的训练文本进行潜在主题特征词信息的挖掘，并将训练文本及其主题特征词一起输入进行大语言模型的自监督训练，以提高大语言模型对具体下游任务的应用效果。

2、基于隐含狄利克雷分布lda（latent dirichlet allocation）主题模型的主题提取方法是一种主流的文本数据处理方法，能够以无监督的方式从大规模的文本数据集中有效地挖掘出文本潜在的主题信息，在文本主体识别、文本分类、信息检索等领域有广泛的应用。由于大型语言模型的训练数据集具有大规模性和多样性的特点，使得训练数据集中的文本数据出现主题混杂、主题重叠的问题，而这可能会导致lda

技术实现思路

1、本专利技术提供基于深度迁移学习的大语言模型数据挖掘方法，以解决文本数据集中噪声主题对大语言模型数据挖掘结果的准确性产生影响的问题，所采用的技术方案具体如下：

2、本专利技术一个实施例基于深度迁移学习的大语言模型数据挖掘方法，该方法包括以下步骤：

3、获取文本数据集；

4、利用主题模型获取每个主题下的主题特征词；利用深度优先搜索算法基于包含每个主题特征词对应节点的无向图确定包含每个主题特征词的文本无向路径；

5、采用tf-idf算法基于包含不同主题特征词的每个文本的文本无向路径确定两个主题特征词之间的主题含义关联系数；

6、基于每个主题下不同主题特征词之间的主题含义关联系数以及主题特征词出现的频率确定每个主题特征词的主题含义凸显度；

7、基于每个主题下所有主题特征词的主题含义凸显度的分布特征以及不同主题之间的语义差异确定每个主题的主题过滤指数；

8、基于所有主题的主题过滤指数得到文本集合中的增强主题；将源域模型中的权重参数迁移到所述增强主题训练的文本分类模型中得到数据挖掘结果。

9、优选的，所述利用主题模型获取每个主题下的主题特征词的方法为：

10、将利用分词工具对文本数据集中的每个文本进行预处理后的结果组成的集合作为文本集合；

11、将文本集合中的所有词语作为输入，利用lda主题模型获取文本集合中每个主题下的主题特征词集合、每个主题下每个主题特征词的频率。

12、优选的，所述利用深度优先搜索算法基于包含每个主题特征词对应节点的无向图确定包含每个主题特征词的文本无向路径的方法为：

13、对文本集合中每个文本的预处理结果进行去重复词处理，将任意一个去重复词后的文本作为一个去重文本；

14、将文本集合中所有不相同词语组成的集合作为词汇表，将词汇表中每个词语作为一个节点，将出现在同一去重文本中的两个词语对应的节点进行连接得到若干无向图；

15、将每个主题特征词对应的节点作为起始节点，利用深度优先搜索算法在任意一个包含起始节点的无向图上获取包含起始节点的联通分量，将所述联通分量上所有节点组成的路径作为一个包含主题特征词的文本无向路径。

16、优选的，所述采用tf-idf算法基于包含不同主题特征词的每个文本的文本无向路径确定两个主题特征词之间的主题含义关联系数的方法为：

17、将文本集合中所有的词语作为输入，利用tf-idf算法获取词汇表中每个词语的tf-idf得分；

18、分别获取每个包含主题特征词的文本无向路径上所有节点对应词语的tf-idf得分，将以每个包含主题特征词的文本无向路径上所有节点对应词语为横坐标，以所述所有节点对应词语的tf-idf得分为纵坐标组成的直方图作为每个包含主题特征词的文本无向路径的得分直方图；

19、将任意两个包含两个主题特征词的文本无向路径的得分直方图之间的度量距离在包含两个主题特征词的所有文本无向路径上累加结果的均值作为第一度量值；将第一度量值与预设参数之和的倒数作为两个主题特征词之间的主题含义关联系数。

20、优选的，所述基于每个主题下不同主题特征词之间的主题含义关联系数以及主题特征词出现的频率确定每个主题特征词的主题含义凸显度的方法为：

21、根据每个主题特征词与包含每个主题特征词的文本无向路径上节点对应主题特征词之间的主题含义关联系数确定每个主题特征词的主题含义贴合度；

22、将每个主题下每个主题特征词在其余所有主题的主题特征词集合中出现频率的均值作为频率均值，将每个主题下每个主题特征词出现的频率与频率均值的比值作为每个主题下每个主题特征词的主题排他程度；

23、每个主题特征词的主题含义凸显度由每个主题特征词的主题含义贴合度、主题排他程度两部分组成，其中，所述主题含义凸显度分别与主题含义贴合度、主题排他程度成正比关系。

24、优选的，所述根据每个主题特征词与包含每个主题特征词的文本无向路径上节点对应主题特征词之间的主题含义关联系数确定每个主题特征词的主题含义贴合度的方法为：

25、将任意一个包含每个主题特征词的文本无向路径上任意一个节点对应主题特征词与每个主题特征词之间的主题含义关联系数在所属文本无向路径上所有节点上累加结果的均值作为第一特征值；

26、将任意一个包含每个主题特征词的文本无向路径上节点的数量与主题特征词所属主题下数量的比值作为比例因子，将比例因子与第一特征值的乘积作为第二特征值；

27、将第二特征值在所有包含每个主题特征词的文本无向路径上的累加均值作为每个主题特征词的主题含义贴合度。

28、优选的，所述基于每个主题下所有主题特征词的主题含义凸显度的分布特征以及不同主题之间的语义差异确定每个主题的主题过滤指数的方法为：

29、将以每个主题下所有主题特征词为横坐标，以每个主题下所有主题特征词的主题含义凸显度为纵坐标构成的直方图作为每个主题的含义分布直方图；

30、将每个主题与其余所有主题的含义分布直方图之间度量距离本文档来自技高网...

【技术保护点】

1.基于深度迁移学习的大语言模型数据挖掘方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的基于深度迁移学习的大语言模型数据挖掘方法，其特征在于，所述利用主题模型获取每个主题下的主题特征词的方法为：

3.根据权利要求1所述的基于深度迁移学习的大语言模型数据挖掘方法，其特征在于，所述利用深度优先搜索算法基于包含每个主题特征词对应节点的无向图确定包含每个主题特征词的文本无向路径的方法为：

4.根据权利要求1所述的基于深度迁移学习的大语言模型数据挖掘方法，其特征在于，所述采用TF-IDF算法基于包含不同主题特征词的每个文本的文本无向路径确定两个主题特征词之间的主题含义关联系数的方法为：

5.根据权利要求1所述的基于深度迁移学习的大语言模型数据挖掘方法，其特征在于，所述基于每个主题下不同主题特征词之间的主题含义关联系数以及主题特征词出现的频率确定每个主题特征词的主题含义凸显度的方法为：

6.根据权利要求5所述的基于深度迁移学习的大语言模型数据挖掘方法，其特征在于，所述根据每个主题特征词与包含每个主题特征词的文本无向路

7.根据权利要求1所述的基于深度迁移学习的大语言模型数据挖掘方法，其特征在于，所述基于每个主题下所有主题特征词的主题含义凸显度的分布特征以及不同主题之间的语义差异确定每个主题的主题过滤指数的方法为：

8.根据权利要求7所述的基于深度迁移学习的大语言模型数据挖掘方法，其特征在于，所述基于每个主题下所有主题特征词的主题含义凸显度确定每个主题的主题可解释程度的方法为：

9.根据权利要求1所述的基于深度迁移学习的大语言模型数据挖掘方法，其特征在于，所述基于所有主题的主题过滤指数得到文本集合中的增强主题的方法为：

10.根据权利要求1所述的基于深度迁移学习的大语言模型数据挖掘方法，其特征在于，所述将源域模型中的权重参数迁移到所述增强主题训练的文本分类模型中得到数据挖掘结果的方法为：

...

【技术特征摘要】

1.基于深度迁移学习的大语言模型数据挖掘方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的基于深度迁移学习的大语言模型数据挖掘方法，其特征在于，所述利用主题模型获取每个主题下的主题特征词的方法为：

4.根据权利要求1所述的基于深度迁移学习的大语言模型数据挖掘方法，其特征在于，所述采用tf-idf算法基于包含不同主题特征词的每个文本的文本无向路径确定两个主题特征词之间的主题含义关联系数的方法为：

6.根据权利要求5所述的基于深度迁移学习的大...

【专利技术属性】
技术研发人员：屠静，王亚，赵策，苏岳，万晶晶，李伟伟，颉彬，周勤民，
申请(专利权)人：卓世科技海南有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人