基于海量数据的企业间数据关联关系捕捉方法及其系统技术方案

技术编号:16102033 阅读:22 留言:0更新日期:2017-08-29 22:37
本发明专利技术涉及基于海量数据的企业间数据关联关系捕捉方法及其系统,该方法包括获取海量企业相关数据;对海量企业相关数据进行积累,形成基础数据;对获取的海量企业相关数据进行处理,形成处理数据;根据处理数据以及基础数据,获取训练集数据库;利用训练集数据库对新数据进行处理,获取企业间数据关联关系。本发明专利技术采用大数据技术进行数据处理,保证海量数据的安全存储,保证海量数据分布式处理,效率高,以大数据技术驱动及基于分布式并行计算架构解决海量数据的存储和计算的问题,使用机器学习和自然语言处理的理论,让机器智能处理企业相关信息,实现提高捕捉的准确度,且从海量数据中,对企业有效的数据进行自动关联以及自动分类,识别效率高。

【技术实现步骤摘要】
基于海量数据的企业间数据关联关系捕捉方法及其系统
本专利技术涉及数据处理,更具体地说是指基于海量数据的企业间数据关联关系捕捉方法及其系统。
技术介绍
随着科技的发展,越来越多的企业采用互联网公布数据的形式进行自身企业的宣传或者寻找投资对象,因此,企业在互联网上的数据越来越多,互联网上的企业数据库越来越庞大。在宣传或者寻找投资对象过程中,需要从互联网上的海量数据中寻找与企业间数据的关联关系,以此作为定位条件,准确定位到所需找的企业。但是,目前的寻找企业间数据关联关系只能通过人工筛选和分析,这导致很难对企业进行全方位的分析以及企业全息画像,而且人工筛选和分析效率低下,准确率也低。中国专利201510810811.2提供了一种基于关系数据库从大数据下检索相同主从关系数据的算法,是海量数据中进行数据比对的一种算法,采用“大而化小,先面后点”,利用分组遍历、中间表存储等算法逐步缩小数据比对范围,高效检索出相同的记录。上述专利技术针对企业数据中海量主从结构数据,快速检索出相同记录的方法适用于企业管控中的需要检索相同主从结构数据的各种情形,增强企业的管控能力,为企业营造更好的市场环境,提高企业竞争力。上述的专利采用的是快速检索出相同记录的方法,这种方式只能寻找类似的记录,准确度不高。因此,有必要设计一种基于海量数据的企业间数据关联关系捕捉方法,实现提高捕捉的准确度,且从海量数据中,对企业有效的数据进行自动关联以及自动分类,效率高。
技术实现思路
本专利技术的目的在于克服现有技术的缺陷,提供基于海量数据的企业间数据关联关系捕捉方法及其系统。为实现上述目的,本专利技术采用以下技术方案:基于海量数据的企业间数据关联关系捕捉方法,所述方法包括:获取海量企业相关数据;对海量企业相关数据进行积累,形成基础数据;对获取的所述海量企业相关数据进行处理,形成处理数据;根据处理数据以及基础数据,获取训练集数据库;利用训练集数据库对新数据进行处理,获取企业间数据关联关系。其进一步技术方案为:对海量企业相关数据进行积累,形成基础数据的步骤,包括以下具体步骤:对所述海量企业相关数据进行定期更新;对所述海量企业相关数据进行挖掘以及分类,建立基础数据库;存储所述海量企业相关数据于所述基础数据库;获取所述基础数据库内的基础数据。其进一步技术方案为:对获取的所述海量企业相关数据进行处理,形成处理数据的步骤,包括以下具体步骤:对获取的所述海量企业相关数据进行清洗、归类、提取摘要以及提取关键字;对所述摘要和关键字建立索引;对所述信息、摘要以及关键字进行分类,获取分类结果;对分类结果进行实时匹配及统计,形成处理数据。其进一步技术方案为:根据处理数据以及基础数据,获取训练集数据库的步骤,包括以下具体步骤:根据处理数据以及基础数据,做成训练集;对处理数据进行抽样调查和调整;将调整后的处理数据存储至训练集内;对训练集进行训练;利用权值进行训练改进,形成训练集数据库。其进一步技术方案为:利用训练集数据库对新数据进行处理,获取企业间数据关联关系的步骤,包括以下具体步骤:利用训练集数据对训练集数据库进行训练,获取使用模型;采用使用模型对新数据进行分类和预测,获取企业间数据关联关系。本专利技术还提供了基于海量数据的企业间数据关联关系捕捉系统,包括获取单元、基础数据形成单元、处理数据形成单元、数据库获取单元以及关系获取单元;所述获取单元,用于获取海量企业相关数据;所述基础数据形成单元,用于对海量企业相关数据进行积累,形成基础数据;所述处理数据形成单元,用于对获取的所述海量企业相关数据进行处理,形成处理数据;所述数据库获取单元,用于根据处理数据以及基础数据,获取训练集数据库;所述关系获取单元,用于利用训练集数据库对新数据进行处理,获取企业间数据关联关系。其进一步技术方案为:所述基础数据形成单元包括更新模块、数据库建立模块、存储模块以及基础数据获取模块;所述更新模块,用于对所述海量企业相关数据进行定期更新;所述数据库建立模块,用于对所述海量企业相关数据进行挖掘以及分类,建立基础数据库;所述存储模块,用于存储所述海量企业相关数据于所述基础数据库;所述基础数据获取模块,用于获取所述基础数据库内的基础数据。其进一步技术方案为:所述处理数据形成单元包括处理模块、索引建立模块、分类模块以及匹配统计模块;所述处理模块,用于对获取的所述海量企业相关数据进行清洗、归类、提取摘要以及提取关键字;所述索引建立模块,用于对所述摘要和关键字建立索引;所述分类模块,用于对所述信息、摘要以及关键字进行分类,获取分类结果;所述匹配统计模块,用于对分类结果进行实时匹配及统计,形成处理数据。其进一步技术方案为:所述数据库获取单元包括训练集形成模块、调整模块、处理数据存储模块、训练模块以及改进模块;所述训练集形成模块,用于根据处理数据以及基础数据,做成训练集;所述调整模块,用于对处理数据进行抽样调查和调整;所述处理数据存储模块,用于将调整后的处理数据存储至训练集内;所述训练模块,用于对训练集进行训练;所述改进模块,用于利用权值进行训练改进,形成训练集数据库。其进一步技术方案为:所述关系获取单元包括模型获取模块以及分类预测模块;所述模型获取模块,用于利用训练集数据对训练集数据库进行训练,获取使用模型;所述分类预测模块,用于采用使用模型对新数据进行分类和预测,获取企业间数据关联关系。本专利技术与现有技术相比的有益效果是:本专利技术的基于海量数据的企业间数据关联关系捕捉方法,通过采集海量的企业相关数据,获取成本低,采用大数据技术进行数据处理,保证海量数据的安全存储,保证海量数据分布式处理,效率高,准确度随着数据的积累不断提升,以大数据技术驱动以及基于分布式并行计算架构解决海量数据的存储和计算的问题,使用机器学习和自然语言处理的理论,让机器智能处理企业相关信息,进行摘要、归类以及提取,实现提高捕捉的准确度,且从海量数据中,对企业有效的数据进行自动关联以及自动分类,识别效率高。下面结合附图和具体实施例对本专利技术作进一步描述。附图说明图1为本专利技术具体实施例提供的基于海量数据的企业间数据关联关系捕捉方法的流程图;图2为本专利技术具体实施例提供的形成基础数据的具体流程图;图3为本专利技术具体实施例提供的形成处理数据的具体流程图;图4为本专利技术具体实施例提供的获取训练集数据库的具体流程图;图5为本专利技术具体实施例提供的获取企业间数据关联关系的具体流程图;图6为本专利技术具体实施例提供的基于海量数据的企业间数据关联关系捕捉系统的结构框图;图7为本专利技术具体实施例提供的基础数据形成单元的结构框图;图8为本专利技术具体实施例提供的处理数据形成单元的结构框图;图9为本专利技术具体实施例提供的数据库获取单元的结构框图;图10为本专利技术具体实施例提供的关系获取单元的结构框图。具体实施方式为了更充分理解本专利技术的
技术实现思路
,下面结合具体实施例对本专利技术的技术方案进一步介绍和说明,但不局限于此。如图1~10所示的具体实施例,本实施例提供的基于海量数据的企业间数据关联关系捕捉方法,可以运用在企业的宣传或者寻找投资对象过程,实现提高捕捉的准确度,且从海量数据中,对企业有效的数据进行自动关联以及自动分类,效率高。如图1所示,是本实施例提供的基于海量数据的企业间数据关联关系捕捉方法,该方法包括:S1、获本文档来自技高网
...
基于海量数据的企业间数据关联关系捕捉方法及其系统

【技术保护点】
基于海量数据的企业间数据关联关系捕捉方法,其特征在于,所述方法包括:获取海量企业相关数据;对海量企业相关数据进行积累,形成基础数据;对获取的所述海量企业相关数据进行处理,形成处理数据;根据处理数据以及基础数据,获取训练集数据库;利用训练集数据库对新数据进行处理,获取企业间数据关联关系。

【技术特征摘要】
1.基于海量数据的企业间数据关联关系捕捉方法,其特征在于,所述方法包括:获取海量企业相关数据;对海量企业相关数据进行积累,形成基础数据;对获取的所述海量企业相关数据进行处理,形成处理数据;根据处理数据以及基础数据,获取训练集数据库;利用训练集数据库对新数据进行处理,获取企业间数据关联关系。2.根据权利要求1所述的基于海量数据的企业间数据关联关系捕捉方法,其特征在于,对海量企业相关数据进行积累,形成基础数据的步骤,包括以下具体步骤:对所述海量企业相关数据进行定期更新;对所述海量企业相关数据进行挖掘以及分类,建立基础数据库;存储所述海量企业相关数据于所述基础数据库;获取所述基础数据库内的基础数据。3.根据权利要求1或2所述的基于海量数据的企业间数据关联关系捕捉方法,其特征在于,对获取的所述海量企业相关数据进行处理,形成处理数据的步骤,包括以下具体步骤:对获取的所述海量企业相关数据进行清洗、归类、提取摘要以及提取关键字;对所述摘要和关键字建立索引;对所述信息、摘要以及关键字进行分类,获取分类结果;对分类结果进行实时匹配及统计,形成处理数据。4.根据权利要求3所述的基于海量数据的企业间数据关联关系捕捉方法,其特征在于,根据处理数据以及基础数据,获取训练集数据库的步骤,包括以下具体步骤:根据处理数据以及基础数据,做成训练集;对处理数据进行抽样调查和调整;将调整后的处理数据存储至训练集内;对训练集进行训练;利用权值进行训练改进,形成训练集数据库。5.根据权利要求4所述的基于海量数据的企业间数据关联关系捕捉方法,其特征在于,利用训练集数据库对新数据进行处理,获取企业间数据关联关系的步骤,包括以下具体步骤:利用训练集数据对训练集数据库进行训练,获取使用模型;采用使用模型对新数据进行分类和预测,获取企业间数据关联关系。6.基于海量数据的企业间数据关联关系捕捉系统,其特征在于,包括获取单元、基础数据形成单元、处理数据形成单元、数据库获取单元以及关系获取单元;所述获取单元,用于获取海量企业相关数据;所述基础数据形成单元,用于对海量企业相关数据进行积累,形成基础数据;...

【专利技术属性】
技术研发人员:李小强
申请(专利权)人:前海梧桐深圳数据有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1