System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及数据挖掘,具体为一种基于大模型的数据挖掘系统及方法。
技术介绍
1、数据挖掘指从大量的数据中,提取隐藏在其中的,事先不知道的、但潜在有用的信息的过程,现有技术中的基于数据挖掘的智能匹配方法及系统,涉及人工智能
,结合用户数据评估网络,对用户相关性评估网络进行网络优化操作,以得到用户相关性评估网络对应的目标相关性评估网络;提取到需要匹配的用户数据组合中的第一用户数据和第二用户数据;利用目标匹配性评估网络,将第一用户数据和第二用户数据进行用户匹配性评估操作,以输出用户数据组合中第一用户数据和第二用户数据之间的匹配性表征数据。基于上述内容,可以在一定程度上提高数据匹配的可靠度。”
2、但是该现有技术仅仅解决了数据挖掘中数据匹配可靠度低的问题,现有的数据挖掘系统通常基于特定的算法和工具,如聚类、分类、关联规则等,来进行数据分析和处理,然而,这些方法存在着一定的局限性,在进行数据挖掘的过程中,往往由于算法的限制,现有的数据挖掘系统无法全面地揭示数据中的隐藏信息和模式,同时现有的数据挖掘系统缺乏对大规模数据的处理能力,使得在处理海量数据时效率低下,此外,随着现代生活中数字信息化的发展,产生的数据日益庞大,而现有的数据挖掘系统往往需要专业人员操作,导致在进行数据挖掘时,对设备算力的要求不断增加,也导致专业人员的时间精力消耗巨大,同时对于普通用户来说也难以实际参与使用。
技术实现思路
1、本专利技术的目的在于提供一种基于大模型的数据挖掘系统及方法,以解决现有技术中无
2、为实现上述目的,本专利技术提供如下技术方案:
3、根据本申请实施例的第一方面,提供一种基于大模型的数据挖掘系统,包括:
4、数据准备单元(1)、数据整合单元(2)、数据挖掘单元(3)和数据评估单元(4);
5、所述数据准备单元(1)用于通过互联网选择的数据源收集并准备一个预设规模的文本数据集,对所述文本数据集中的数据进行预处理,得到预处理后的数据,并将预处理后的数据发送到所述数据整合单元(2);
6、所述数据整合单元(2)用于对预处理后的数据进行整合分类,得到待挖掘数据,并将待挖掘数据发送到所述数据挖掘单元(3);
7、所述数据挖掘单元(3)用于通过大语言模型对所述待挖掘数据进行挖掘,将挖掘后数据发送到所述数据评估单元(4);
8、所述数据评估单元(4)用于对挖掘后数据进行评估,将评估得到数据进行收集与展示,还将评估得到的数据作为下次循环进行时的数据源之一。
9、优选地,所述数据准备单元(1)包括数据采集模块(11)和数据清洗模块(12);
10、所述数据采集模块(11)通过设置网络爬虫,利用互联网进行数据源选择,设置好数据源后对预设规模的文本数据进行收集;所述数据源包括网页文本、新闻文章、小说和论文;
11、所述数据清洗模块(12)对所述数据采集模块(11)通过不同数据源采集到的所有文本数据进行自动分析,并根据分析结果对文本数据进行清洗;清洗规则包括:寻找文本数据中的缺失值并对缺失值进行自动填充处理,对缺失的异常数据进行自动过滤或数据变换处理,将格式出错的数据进行转化或格式化处理,将重复的数据进行去重处理。
12、优选地,所述数据准备单元(1)还包括数据集成模块(13)和数据预处理模块(14);
13、所述数据集成模块(13)将经过数据清洗模块(12)清洗后的来源不同的文本数据进行集成形成一个数据集;
14、所述数据预处理模块(14)对数据集成模块(13)形成的数据集进行预处理,对数据集中的噪声数据进行去噪处理,通过信息增益算法对数据集中的英文文本数据进行降维处理,通过检索算法对数据集中的中文文本数据进行降维处理,通过平滑聚集和数据规范化将与数据挖掘目相关的文本数据处理成数据挖掘形式;所述噪声数据为包括连词、副词和介词的文本数据。
15、优选地,所述数据整合单元(2)包括特征处理模块(21)和数据分类模块(22);
16、所述特征处理模块(21)对经过数据预处理模块(14)处理后的数据进行特征提取,将特征提取后的文本数据发送到数据分类模块(22);所述特征提取包括:采用基于字典匹配的分词技术,将文本数据从一个句子拆分成多个词语,将与数据挖掘目相关的特征进行标识;
17、所述数据分类模块(22)对特征提取后的文本数据进行分类,同时将分类后的文本数据中对文本内容理解无作用的词去除,得到待挖掘数据,将所述待挖掘数据发送到所述数据挖掘单元(3)。
18、优选地,所述数据挖掘单元(3)包括大语言模型建立模块(31);
19、所述大语言模型建立模块(31)通过循环神经网络建立大语言模型;包括:在循环神经网络层的两端分别构建词嵌入层和softmax层;在词嵌入层将每个文本数据变换为向量的表现形式再输入到循环神经网络层中,使得文本数据中的自然语言以数字化形式表示,并将词表以预设维度嵌入到实数空间中,以向量的形式来表现不同的词汇,在循环神经网络层中基于所有的上下文进行预测,在softmax层中将循环神经网络层的输出转换为每个词的概率。
20、优选地,所述数据挖掘单元(3)还包括大语言模型训练模块(32);
21、所述大语言模型训练模块(32)接收所述数据分类模块(22)发送的所述待挖掘数据,根据所述待挖掘数据训练所述大语言模型,在训练过程中,采用人类反馈强化训练的方式提高文本数据生成质量;
22、其中,根据所述待挖掘数据训练所述大语言模型,包括:
23、训练微调模型、训练奖励模型和训练强化模型;
24、所述训练微调模型包括:基于gpt3.5,使用标注过的答案训练一个有监督的微调模型;
25、所述训练奖励模型包括:向微调模型输入问题后,根据概率采样输出若干答案,并根据人类偏好进行打分;
26、所述训练强化模型包括:根据奖励模型中所得到的答案分值进行微调模型参数调整,使大语言模型的每次回答都能得到更高的分数。
27、优选地,所述数据挖掘单元(3)还包括数据挖掘模块(33);
28、所述大语言模型训练模块(32)将训练后文本数据发送到数据挖掘模块(33);
29、所述数据挖掘模块(33)通过聚类算法对训练后文本数据进行挖掘;包括:通过无监督学习从训练后文本数据中发现隐含的挖掘目标,利用文本中词项的深层特征进行文本主题结构挖掘,通过doc计数矩阵描述每个文档中的主题频率分布,通过word计数矩阵表示每个主题下词的频率分布,利用gibbs采样公式计算取主题的概率,通过遍历训练后文本数据以及答案,按照本文档来自技高网...
【技术保护点】
1.一种基于大模型的数据挖掘系统,其特征在于,包括:
2.根据权利要求1所述的一种基于大模型的数据挖掘系统,其特征在于,所述数据准备单元(1)包括数据采集模块(11)和数据清洗模块(12);
3.根据权利要求2所述的一种基于大模型的数据挖掘系统,其特征在于,所述数据准备单元(1)还包括数据集成模块(13)和数据预处理模块(14);
4.根据权利要求3所述的一种基于大模型的数据挖掘系统,其特征在于,所述数据整合单元(2)包括特征处理模块(21)和数据分类模块(22);
5.根据权利要求4所述的一种基于大模型的数据挖掘系统,其特征在于,所述数据挖掘单元(3)包括大语言模型建立模块(31);
6.根据权利要求5所述的一种基于大模型的数据挖掘系统,其特征在于,所述数据挖掘单元(3)还包括大语言模型训练模块(32);
7.根据权利要求6所述的一种基于大模型的数据挖掘系统,其特征在于,所述数据挖掘单元(3)还包括数据挖掘模块(33);
8.根据权利要求7所述的一种基于大模型的数据挖掘系统,其特征在于,所述数据
9.一种基于大模型的数据挖掘方法,其特征在于,包括:
...【技术特征摘要】
1.一种基于大模型的数据挖掘系统,其特征在于,包括:
2.根据权利要求1所述的一种基于大模型的数据挖掘系统,其特征在于,所述数据准备单元(1)包括数据采集模块(11)和数据清洗模块(12);
3.根据权利要求2所述的一种基于大模型的数据挖掘系统,其特征在于,所述数据准备单元(1)还包括数据集成模块(13)和数据预处理模块(14);
4.根据权利要求3所述的一种基于大模型的数据挖掘系统,其特征在于,所述数据整合单元(2)包括特征处理模块(21)和数据分类模块(22);
5.根据权利要求4所述的一种基于大模型的数据挖掘系统,...
【专利技术属性】
技术研发人员:张鹏,王莲,项洋,朱建宇,邹林娟,黄波,张振体,吴敏,李超,马强,
申请(专利权)人:北京滴普科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。