一种多源异构大数据处理系统技术方案

技术编号:38681425 阅读:11 留言:0更新日期:2023-09-02 22:53
本发明专利技术涉及大数据技术领域,公开了一种多源异构大数据处理系统,包括:类别特征生成模块,其基于主数据的字段名称来生成主数据类别特征,一个主数据的字段名称对应一个主数据类别特征;数据源特征生成模块,其基于主数据所链接的原始数据集来生成数据源特征;生成特征提取器,其用于从原始数据集中随机提取字符和/或词来生成单元特征向量,然后将单元特征向量组合获得生成特征;模型生成模块,其用于生成主数据生成模型;主数据生成模块,其用于生成待生成主数据的原始数据集的主数据和主数据对应的字段名称;本发明专利技术能够对于来源范围有限的大数据自动化的生成与之匹配的主数据,通过主数据对大数据进行结构化和统一化。通过主数据对大数据进行结构化和统一化。通过主数据对大数据进行结构化和统一化。

【技术实现步骤摘要】
一种多源异构大数据处理系统


[0001]本专利技术涉及大数据
,更具体地说,它涉及一种多源异构大数据处理系统。

技术介绍

[0002]大数据包括结构化、半结构化和非结构化数据,非结构化数据越来越成为数据的主要部分,对于来源范围有限的大数据,例如地区政务大数据,对于大数据进行结构化和统一化的需求大于对于大数据的挖掘的需求,但是通过人工进行特征提取来进行大数据的结构化和统一化耗时较长。

技术实现思路

[0003]本专利技术提供一种多源异构大数据处理系统,解决相关技术中通过人工进行特征提取来进行大数据的结构化和统一化耗时较长的技术问题。
[0004]本专利技术提供了一种多源异构大数据处理系统,包括:类别特征生成模块,其基于主数据的字段名称来生成主数据类别特征,一个主数据的字段名称对应一个主数据类别特征;数据源特征生成模块,其基于主数据所链接的原始数据集来生成数据源特征;生成特征提取器,其用于从原始数据集中随机提取字符和/或词来生成单元特征向量,然后将单元特征向量组合获得生成特征;模型生成模块,其用于生成主数据生成模型;主数据生成模型包括特征合成模块、第二特征生成器、第一神经网络、第二神经网络,其中特征合成模块用于将主数据类别特征与生成特征进行合成来生成基本特征,第一神经网络输入基本特征,然后输出第一特征;第二特征生成器从主数据集合中随机选择N个主数据,为提取的每个主数据生成一个主数据特征,将生成的所有主数据特征和主数据类别特征合成生成第二特征;第二特征和第一特征输入第二神经网络,第二神经网络,第二神经网络的输出映射到分类空间,分类空间包含两个分类标签,分别表示输入为第二特征和输入为第一特征;主数据生成模块,其用于将使用者输入的主数据的字段名称输入类别特征生成模块,生成主数据类别特征;将该主数据类别特征与从待生成主数据的原始数据集中生成的生成特征合成基本特征,将该基本特征输入主数据生成模型的第一神经网络,基于第一神经网络生成的第一特征获得待生成主数据的原始数据集的主数据和主数据对应的字段名称。
[0005]进一步地,主数据所链接的原始数据集是指需要与该主数据关联的原始数据集。
[0006]进一步地,第一神经网络和第二神经网络均为多层感知机。
[0007]进一步地,主数据特征和主数据类别特征合成时在主数据类别特征之后拼接主数据特征。
[0008]进一步地,主数据类别特征与生成特征进行合成时在主数据类别特征之后拼接随机特征向量。
[0009]进一步地,第一特征和第二特征的维度相同,第一特征和第二特征进行矩阵化之
后表示为:,表示矩阵U中的第一行的第i个元素,表示第i个主数据类别特征;表示矩阵U中的第j行的第i列的元素,表示第j个主数据对应于第i个主数据类别特征的字段,m表示主数据的总数,n表示一个主数据的主数据类别特征的总数。
[0010]进一步地,第二神经网络经过softmax层进行输出,输出的值为概率值。
[0011]进一步地,对于第一神经网络和第二神经网络是进行联合训练的,训练的损失函数为:
[0012]其中表示损失值,等于训练集的训练样本的数量,y为设置的常数值,表示第二神经网络输入第t个训练样本的第二特征时输出的对应于第二特征的分类标签的概率值,表示第二神经网络输入第t个训练样本的第g个第一特征时,输出的对应于第一特征的分类标签的概率值。
[0013]进一步地,联合训练的训练样本来源于已经构建主数据的原始数据集,生成特征提取器从一个作为训练样本的原始数据集进行多次提取可以获得多个生成特征,因此可以合成多个基本特征,通过第一神经网络生成多个第一特征。
[0014]进一步地,主数据生成模块从待生成主数据的原始数据集中生成多个生成特征,分别合成多个基本特征,将合成的多个基本特征分别输入第一神经网络获得多组主数据,从多组主数据中删除重复的主数据之后获得最终的主数据集合。
[0015]本专利技术的有益效果在于:本专利技术能够对于来源范围有限的大数据自动化地生成与之匹配的主数据,通过主数据对大数据进行结构化和统一化。
附图说明
[0016]图1是本专利技术的一种多源异构大数据处理系统的模块示意图。
[0017]图中:类别特征生成模块101,数据源特征生成模块102,生成特征提取器103,模型生成模块104,主数据生成模块105。
具体实施方式
[0018]现在将参考示例实施方式讨论本文描述的主题。应该理解,讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题,可以在不脱离本说明书内容的保护范围的情况下,对所讨论的元素的功能和排列进行改变。各个示例可以根据需要,省略、替代或者添加各种过程或组件。另外,相对一些示例所描述的特征在其他例子中也可以进行组合。
[0019]如图1所示,一种多源异构大数据处理系统,包括:类别特征生成模块101,其基于主数据的字段名称来生成主数据类别特征,一个主数据的字段名称对应一个主数据类别特征;数据源特征生成模块102,其基于主数据所链接的原始数据集来生成数据源特征;主数据所链接的原始数据集是指需要与该主数据关联的原始数据集,另一方面主
数据的信息来源于该原始数据集。
[0020]生成特征提取器103,其用于从原始数据集中随机提取字符和/或词来生成单元特征向量,然后将单元特征向量组合获得生成特征;模型生成模块104,其用于生成主数据生成模型;主数据生成模型包括特征合成模块、第二特征生成器、第一神经网络、第二神经网络,其中特征合成模块用于将主数据类别特征与生成特征进行合成来生成基本特征,第一神经网络输入基本特征,然后输出第一特征;第二特征生成器从主数据集合中随机选择N个主数据,为提取的每个主数据生成一个主数据特征,将生成的所有主数据特征和主数据类别特征合成生成第二特征;第二特征和第一特征输入第二神经网络,第二神经网络,第二神经网络的输出映射到分类空间,分类空间包含两个分类标签,分别表示输入为第二特征和输入为第一特征。
[0021]第一神经网络、第二神经网络与一般的神经网络相同,在本专利技术的一个实施例中,第一神经网络和第二神经网络均为多层感知机;在本专利技术的一个实施例中,第一神经网络和第二神经网络均为卷积神经网络。
[0022]在本专利技术的一个实施例中,合成特征的方式是将特征向量进行拼接,例如对于两个向量和,合成后的结果为。
[0023]主数据特征和主数据类别特征合成时在主数据类别特征之后拼接主数据特征;主数据类别特征与生成特征进行合成时在主数据类别特征之后拼接随机特征向量;第一特征和第二特征的维度相同,第一特征和第二特征进行矩阵化之后表示为:,表示矩阵U中的第一行的第i个元素,表示第i个主数据类别特征;表示矩阵U中的第j行的第i列的元素(j>1),表示第j个主数据对应于第i个主数据类别特征的字段,m表示主数据的总数,n表示一个主数据的主数据类别特征的总数。
[0024]对于数据中的文字部分(包括主数据的字段名称),通过Skip本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多源异构大数据处理系统,其特征在于,包括:类别特征生成模块,其基于主数据的字段名称来生成主数据类别特征,一个主数据的字段名称对应一个主数据类别特征;数据源特征生成模块,其基于主数据所链接的原始数据集来生成数据源特征;生成特征提取器,其用于从原始数据集中随机提取字符和/或词来生成单元特征向量,然后将单元特征向量组合获得生成特征;模型生成模块,其用于生成主数据生成模型;主数据生成模型包括特征合成模块、第二特征生成器、第一神经网络、第二神经网络,其中特征合成模块用于将主数据类别特征与生成特征进行合成来生成基本特征,第一神经网络输入基本特征,然后输出第一特征;第二特征生成器从主数据集合中随机选择N个主数据,为提取的每个主数据生成一个主数据特征,将生成的所有主数据特征和主数据类别特征合成生成第二特征;第二特征和第一特征输入第二神经网络,第二神经网络,第二神经网络的输出映射到分类空间,分类空间包含两个分类标签,分别表示输入为第二特征和输入为第一特征;主数据生成模块,其用于将使用者输入的主数据的字段名称输入类别特征生成模块,生成主数据类别特征;将该主数据类别特征与从待生成主数据的原始数据集中生成的生成特征合成基本特征,将该基本特征输入主数据生成模型的第一神经网络,基于第一神经网络生成的第一特征获得待生成主数据的原始数据集的主数据和主数据对应的字段名称。2.根据权利要求1所述的一种多源异构大数据处理系统,其特征在于,主数据所链接的原始数据集是指需要与该主数据关联的原始数据集。3.根据权利要求1所述的一种多源异构大数据处理系统,其特征在于,第一神经网络和第二神经网络均为多层感知机。4.根据权利要求1所述的一种多源异构大数据处理系统,其特征在于,主数据特征和主数据类别特征合成时在主数据类别特征之后拼接主数...

【专利技术属性】
技术研发人员:张晶董哲
申请(专利权)人:河北维嘉信息科技有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1