一种多源数据集中融合方法技术

技术编号:39252961 阅读:22 留言:0更新日期:2023-10-30 12:04
本发明专利技术公开了一种多源数据集中融合方法,包括以下步骤:步骤一,连接数据库;步骤二,数据集判断;步骤三,数据集清洗;步骤四,特征提取;步骤五,加权分配;步骤六,数据集融合;步骤七,数据集评估;其中在上述步骤一中,连接所需多源数据库,并获取相关数据集,将保证获取的相关数据集的完整性;其中在上述步骤二中,将步骤一中的获取的数据集,根据所需融合的数据内容判断获取的数据集是否与所需融合的数据一致;该发明专利技术,在连接不同的数据库时,采用加密的方式对数据进行加密处理,避免了数据的泄露,保证了该多源数据集中融合的正常进行,同时对获取的数据集进行了清洗,可简化数据的内容,并且转换数据集的格式,便于后续数据的融合。合。合。

【技术实现步骤摘要】
一种多源数据集中融合方法


[0001]本专利技术涉及数据出具
,具体为一种多源数据集中融合方法。

技术介绍

[0002]多源数据指的是来自不同数据源的数据,这些数据源可以是不同的数据库、文件、API接口或其他数据存储和提供方式,通过对多源数据进行融合,可以帮助我们从不同的角度和维度来理解和利用数据,提供更全面和准确的信息支持,促进数据驱动的决策和创新,但现有的多源数据在融合的过程中,由于数据源广泛,从而导致不同数据之间的格式不同,在后续融合的过程中,增加了融合的困难程度,且在不同的数据库进行数据的获取时,增加了对数据进行保护的困难程度,易导致数据的泄露。

技术实现思路

[0003]本专利技术的目的在于提供一种多源数据集中融合方法,以解决上述
技术介绍
中提出的问题。
[0004]为实现上述目的,本专利技术提供如下技术方案:一种多源数据集中融合方法,包括以下步骤:步骤一,连接数据库;步骤二,数据集判断;步骤三,数据集清洗;步骤四,特征提取;步骤五,加权分配;步骤六,数据集融合;步骤七,数据集评估;
[0005]其中在上述步骤一中,连接所需多源数据库,并获取相关数据集,将保证获取的相关数据集的完整性;
[0006]其中在上述步骤二中,将步骤一中的获取的数据集,根据所需融合的数据内容判断获取的数据集是否与所需融合的数据一致;
[0007]其中在上述步骤三中,对步骤二中判断后的数据集进行清洗;
[0008]其中在上述步骤四中,将步骤三中清洗后的数据集中的数据进行特征提取,提取出具有代表性和区分度的特征;
[0009]其中在上述步骤五中,将步骤四中提取的每个特征数据进行分配一个权重,且分配权重的方法采用加权平均的方式进行分配权重;
[0010]其中在上述步骤六中,将步骤五中分权后的数据进行融合处理得到一个新的整体数据集;
[0011]其中在上述步骤七中,对步骤六中新的整体数据集进行评估,检查数据的一致性、准确性和完整性指标。
[0012]优选的,所述步骤一中,在连接多源数据库的过程中,可采用连接工具进行连接,连接工具包括MySQL Workbench、Navicat以及DataGrip。
[0013]优选的,所述步骤一中,在对数据进行连接传输的过程中,采用安全协议对数据进行加密处理,且安全协议包括HTTPS和SSH,并且连接的多源数据库均设置了加密功能。
[0014]优选的,所述步骤二中,在判断的过程中,若一致则进行下一步骤,若不一致,则对获取的单个数据集进行删除处理,在判断获取的数据集是否与所需融合的数据一致时,第
一次采用人工审查的方式进行判断,当自适应学习算法有了第一次的学习标本后,采用自适应学习算法的方式对数据进行判断,以确保数据的准确信和一致性。
[0015]优选的,所述步骤三中,原始数据集的清洗包括去除相关数据集之间的重复数据、对无关数据进行删除处理以及对数据集的格式统一转换的工作。
[0016]优选的,所述步骤七中,将评估后的数据集输入到自适应学习算法中,根据自适应学习算法,可及时的判断处所需融合后的数据集内容,通过对多源数据的集中融合,可不断得到新的数据集,并且利用新的数据集不断地提高自适应学习算法的准确度。
[0017]与现有技术相比,本专利技术的有益效果是:该一种多源数据集中融合方法,在连接不同的数据库时,采用加密的方式对数据进行加密处理,避免了数据的泄露,保证了该多源数据集中融合的正常进行,同时对获取的数据集进行了清洗,可简化数据的内容,并且转换数据集的格式,便于后续数据的融合,同时利用自适应学习算法对获取的数据集进行研判处理,有利于精准的获取所需数据集,在后续使用融合后的数据集中,体现了该方法的高效性以及准确性。
附图说明
[0018]图1为本专利技术的方法流程图。
具体实施方式
[0019]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0020]请参阅图1,本专利技术提供的一种实施例:一种多源数据集中融合方法,包括以下步骤:步骤一,连接数据库;步骤二,数据集判断;步骤三,数据集清洗;步骤四,特征提取;步骤五,加权分配;步骤六,数据集融合;步骤七,数据集评估;
[0021]其中在上述步骤一中,连接所需多源数据库,并获取相关数据集,将保证获取的相关数据集的完整性,在连接多源数据库的过程中,可采用连接工具进行连接,连接工具包括MySQL Workbench、Navicat以及DataGrip,并且在对数据进行连接传输的过程中,采用安全协议对数据进行加密处理,且安全协议包括HTTPS和SSH,并且连接的多源数据库均设置了加密功能;
[0022]其中在上述步骤二中,将步骤一中的获取的数据集,根据所需融合的数据内容判断获取的数据集是否与所需融合的数据一致,在判断的过程中,若一致则进行下一步骤,若不一致,则对获取的单个数据集进行删除处理,在判断获取的数据集是否与所需融合的数据一致时,第一次采用人工审查的方式进行判断,当自适应学习算法有了第一次的学习标本后,采用自适应学习算法的方式对数据进行判断,以确保数据的准确信和一致性;
[0023]其中在上述步骤三中,对步骤二中判断后的数据集进行清洗,且原始数据集的清洗包括去除相关数据集之间的重复数据、对无关数据进行删除处理以及对数据集的格式统一转换的工作;
[0024]其中在上述步骤四中,将步骤三中清洗后的数据集中的数据进行特征提取,提取
出具有代表性和区分度的特征;
[0025]其中在上述步骤五中,将步骤四中提取的每个特征数据进行分配一个权重,且分配权重的方法采用加权平均的方式进行分配权重;
[0026]其中在上述步骤六中,将步骤五中分权后的数据进行融合处理得到一个新的整体数据集;
[0027]其中在上述步骤七中,对步骤六中新的整体数据集进行评估,检查数据的一致性、准确性和完整性指标,并且将评估后的数据集输入到自适应学习算法中,根据自适应学习算法,可及时的判断处所需融合后的数据集内容,通过对多源数据的集中融合,可不断得到新的数据集,并且利用新的数据集不断地提高自适应学习算法的准确度。
[0028]基于上述,本专利技术的优点在于,该专利技术使用时,采用加密的方式对数据库进行连接,避免了数据的泄露,保证了该多源数据集中融合的正常进行,同时对获取的数据集进行了清洗,可简化数据的内容,并且转换数据集的格式,便于后续数据的融合,同时保证融合后数据的准确性。
[0029]对于本领域技术人员而言,显然本专利技术不限于上述示范性实施例的细节,而且在不背离本专利技术的精神或基本特征的情况下,能够以其他的具体形式实现本专利技术。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多源数据集中融合方法,包括以下步骤:步骤一,连接数据库;步骤二,数据集判断;步骤三,数据集清洗;步骤四,特征提取;步骤五,加权分配;步骤六,数据集融合;步骤七,数据集评估;其特征在于:其中在上述步骤一中,连接所需多源数据库,并获取相关数据集,将保证获取的相关数据集的完整性;其中在上述步骤二中,将步骤一中的获取的数据集,根据所需融合的数据内容判断获取的数据集是否与所需融合的数据一致;其中在上述步骤三中,对步骤二中判断后的数据集进行清洗;其中在上述步骤四中,将步骤三中清洗后的数据集中的数据进行特征提取,提取出具有代表性和区分度的特征;其中在上述步骤五中,将步骤四中提取的每个特征数据进行分配一个权重,且分配权重的方法采用加权平均的方式进行分配权重;其中在上述步骤六中,将步骤五中分权后的数据进行融合处理得到一个新的整体数据集;其中在上述步骤七中,对步骤六中新的整体数据集进行评估,检查数据的一致性、准确性和完整性指标。2.根据权利要求1所述的一种多源数据集中融合方法,其特征在于:所述步骤一中,在连接多源数据库的过程中,可采用连接工具进行连接,连接工具包括MySQL Workbench、Navicat以及DataGri...

【专利技术属性】
技术研发人员:程国坚戚华彪石云袁芳徐伟袁程黄威崔欣欣
申请(专利权)人:中环保水务投资有限公司湘潭中环水务有限公司中节能工程技术研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1