System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及数据分析,具体涉及一种基于大模型的智能化数据治理系统。
技术介绍
1、随着大数据技术的不断进步,如企业和社会组织等主体所面对的数据量呈爆炸性的增长,数据来源于包括社交媒体、物联网设备、企业业务系统等各种渠道,具有海量、高速、多样的特点,因此,需要对如此大量的数据进行智能化的数据治理,以满足数据量的增长和高速需求,而大模型技术的发展为智能化数据治理提供了关键的技术支撑,大模型具有强大的语义理解和推理能力,可以自动识别并纠正数据中的错误,提高数据清洗的效率和准确性。
2、由于数据获取的过程中存在着数据偏差的情况,影响数据应用过程的准确性和精度,因此,如何识别数据中的偏差程度,针对性的实施相应的校正治理措施,是我们要解决的问题,为此,现提出一种基于大模型的智能化数据治理系统。
技术实现思路
1、本专利技术目的在于提供一种基于大模型的智能化数据治理系统,以解决上述
技术介绍
中提出的问题。
2、为解决上述技术问题,本专利技术所采用的技术方案是:
3、一种基于大模型的智能化数据治理系统,所述智能化数据治理系统包括数据获取模块、数据清洗融合模块、模型训练模块、偏差趋势分析模块、数据标注分析模块和数据校正治理模块,其中,各模块间电信号连接;
4、所述数据获取模块,用于从实施数据治理的数据源中获取基础数据,其中,基础数据包括历史数据和当前数据,确保数据的高效汇聚和一致性,为后续的数据处理和分析提供基础;
5、所述数据清洗融合模块
6、所述模型训练模块,基于数据融合序列中的历史数据,训练偏差分析模型,分析数据的偏差情况;
7、所述偏差趋势分析模块,结合数据偏差情况的分析结果和历史数据,确定数据治理的基准数据,并计算数据偏差值,以明确偏差程度;
8、所述数据标注分析模块,基于偏差程度分析结果,预设偏差阈值,确定偏差数据的偏差程度,并进行数据标注;
9、所述数据校正治理模块,明确当前数据的偏差程度,并匹配相应的校正措施进行数据治理。
10、本专利技术技术方案的进一步改进在于:所述数据获取模块中,基础数据的获取过程为:
11、根据数据治理的目标和需求,识别出需接入实施数据治理的数据源类型,包括内部业务系统、外部合作伙伴系统、社交媒体平台以及物联网设备等,并与相应的数据源建立连接;
12、根据业务需求和数据治理策略,定义数据抽取规则,确定需抽取的数据字段、数据格式和数据频率等,并制定数据抽取的优先级和顺序,确保关键数据的优先处理,按照定义的规则,从建立连接的数据源中抽取包括历史数据和当前数据的基础数据;
13、对于历史数据,采用批量采集的方式,一次性获取存储在数据库中的所需求的数据,对于当前数据,采用实时采集的方式,通过实时数据流持续不断地获取数据;
14、将采集到的数据转换为统一的格式,方便后续的数据处理和分析,并对数据进行标准化处理,消除不同数据源之间的差异,确保数据的一致性。
15、本专利技术技术方案的进一步改进在于:所述数据清洗融合模块中,数据融合序列的整合获取过程为:
16、将采集到的基础数据统一导入到数据清洗融合模块中,并对数据进行初步分析,明确数据的结构、类型、分布及潜在问题;
17、扫描集成有基础数据的数据集,进行数据清洗,包括缺失值处理、异常值检测和重复数据处理,并根据数据的特性和业务需求,识别出缺失值所在的字段和记录,实施填充缺失值或删除缺失值的处理措施;
18、将来自不同数据源的相同实体的数据记录进行水平整合,并将同一数据源中不同时间段的数据记录进行整合,形成连续的时间序列数据集;
19、为每组数据创建唯一的id号,并根据数据之间的时间戳关联属性,建立各数据与id号之间的关联关系,整合形成数据融合序列。
20、本专利技术技术方案的进一步改进在于:所述模型训练模块中,数据偏差情况的分析过程为:
21、从数据融合序列中提取出历史数据部分,作为训练偏差分析模型的输入,并选择支持向量机模型以训练偏差分析模型,历史数据部分包含过去一段时间内各个实体的相关信息和特征,能够反映出数据在不同时间段的变化规律和趋势;
22、对历史数据进行特征分析,提取用于偏差分析的特征,包括标准差、偏度和峰度,整合各特征得到特征数据集,其中,标准差用于衡量数据分布的离散程度,表示数据点与均值之间的平均偏差,标准差越大,数据的波动性越大,说明数据点之间的差异较大,标准差可用来评估数据的稳定性和一致性,帮助识别数据中的异常波动,偏度用于衡量数据分布的不对称性,表示数据分布的偏斜方向和程度,偏度为正表示数据右偏,即数据的右尾较长,偏度为负表示数据左偏,即数据的左尾较长,偏度可帮助识别数据分布的形状是否偏离正态分布,从而发现潜在的偏差,峰度用于衡量数据分布的尖峭程度,表示数据分布的峰顶形状,峰度可用来评估数据分布的极端值情况,帮助识别数据中的异常值,特征数据集中的每个样本对应于历史数据中的一个实体,包含了该实体的标准差、偏度和峰度特征值,以及相应的偏差标签,偏差标签为是否存在偏差;
23、将特征数据集划分为训练集和测试集,使用训练集数据结合支持向量机模型训练偏差分析模型,通过调整模型参数优化模型的性能,使用交叉验证方法评估模型的稳定性和泛化能力,并使用测试集对训练好的模型进行评估,计算模型的准确率、召回率和f1分数评估指标,根据评估结果判断模型的性能是否满足业务需求;
24、利用训练好的模型对数据融合序列中的数据进行偏差分析,识别出数据中的偏差情况,预测数据是否存在偏差,并对识别出的偏差进行解释,分析偏差产生的原因和影响。
25、本专利技术技术方案的进一步改进在于:所述偏差趋势分析模块中,数据偏差值的计算过程为:
26、遍历数据融合序列中包含数据偏差情况的分析结果和历史数据,获取每个实体在不同时间段的相关信息和特征;
27、结合历史数据和业务需求,从历史数据中选择固定评价周期和数据范围,确定包括标准差、偏度和峰度特征的基准数据,作为数据治理的基准数据,其中,基准数据是历史数据中各特征的平均值;
28、逐一对比分析每个数据点中各特征与其相应基准数据间的差异,计算特征偏差值;
29、整合各特征偏差值,综合计算得到数据偏差值,对计算得到的数据偏差值进行分析,明确数据的偏差程度和分布情况;
30、通过分析偏差值随时间的变化趋势,识别出数据的偏差趋势,利用图表工具(折线图)展示偏差值随时间的变化情况,观察偏差趋势中的关键节点和转折点,分析偏差产生的原因和影响。
31、本专利技术技术方案的进一步改进在于:所述数据偏差值的计算表达式为:
32、;
33、式中,是数据偏差本文档来自技高网...
【技术保护点】
1.一种基于大模型的智能化数据治理系统,其特征在于:所述智能化数据治理系统包括数据获取模块、数据清洗融合模块、模型训练模块、偏差趋势分析模块、数据标注分析模块和数据校正治理模块,其中,各模块间电信号连接;
2.根据权利要求1所述的一种基于大模型的智能化数据治理系统,其特征在于:所述数据获取模块中,基础数据的获取过程为:
3.根据权利要求2所述的一种基于大模型的智能化数据治理系统,其特征在于:所述数据清洗融合模块中,数据融合序列的整合获取过程为:
4.根据权利要求3所述的一种基于大模型的智能化数据治理系统,其特征在于:所述模型训练模块中,数据偏差情况的分析过程为:
5.根据权利要求4所述的一种基于大模型的智能化数据治理系统,其特征在于:所述偏差趋势分析模块中,数据偏差值的计算过程为:
6.根据权利要求5所述的一种基于大模型的智能化数据治理系统,其特征在于:所述数据偏差值的计算表达式为:
7.根据权利要求6所述的一种基于大模型的智能化数据治理系统,其特征在于:所述数据标注分析模块中,数据标注的过程为:
9.根据权利要求8所述的一种基于大模型的智能化数据治理系统,其特征在于:所述数据校正治理模块中,数据治理的过程为:
...【技术特征摘要】
1.一种基于大模型的智能化数据治理系统,其特征在于:所述智能化数据治理系统包括数据获取模块、数据清洗融合模块、模型训练模块、偏差趋势分析模块、数据标注分析模块和数据校正治理模块,其中,各模块间电信号连接;
2.根据权利要求1所述的一种基于大模型的智能化数据治理系统,其特征在于:所述数据获取模块中,基础数据的获取过程为:
3.根据权利要求2所述的一种基于大模型的智能化数据治理系统,其特征在于:所述数据清洗融合模块中,数据融合序列的整合获取过程为:
4.根据权利要求3所述的一种基于大模型的智能化数据治理系统,其特征在于:所述模型训练模块中,数据偏差情况的分析过程为:
5.根据权利要...
【专利技术属性】
技术研发人员:宾军志,冉军超,林昕光,韦真,李强,
申请(专利权)人:数据易北京信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。