基于海量数据的企业间数据关联关系捕捉方法及其系统技术方案

技术编号：16102033 阅读：22 留言：0更新日期：2017-08-29 22:37

本发明专利技术涉及基于海量数据的企业间数据关联关系捕捉方法及其系统，该方法包括获取海量企业相关数据；对海量企业相关数据进行积累，形成基础数据；对获取的海量企业相关数据进行处理，形成处理数据；根据处理数据以及基础数据，获取训练集数据库；利用训练集数据库对新数据进行处理，获取企业间数据关联关系。本发明专利技术采用大数据技术进行数据处理，保证海量数据的安全存储，保证海量数据分布式处理，效率高，以大数据技术驱动及基于分布式并行计算架构解决海量数据的存储和计算的问题，使用机器学习和自然语言处理的理论，让机器智能处理企业相关信息，实现提高捕捉的准确度，且从海量数据中，对企业有效的数据进行自动关联以及自动分类，识别效率高。

全部详细技术资料下载

【技术实现步骤摘要】
基于海量数据的企业间数据关联关系捕捉方法及其系统
本专利技术涉及数据处理，更具体地说是指基于海量数据的企业间数据关联关系捕捉方法及其系统。
技术介绍
随着科技的发展，越来越多的企业采用互联网公布数据的形式进行自身企业的宣传或者寻找投资对象，因此，企业在互联网上的数据越来越多，互联网上的企业数据库越来越庞大。在宣传或者寻找投资对象过程中，需要从互联网上的海量数据中寻找与企业间数据的关联关系，以此作为定位条件，准确定位到所需找的企业。但是，目前的寻找企业间数据关联关系只能通过人工筛选和分析，这导致很难对企业进行全方位的分析以及企业全息画像，而且人工筛选和分析效率低下，准确率也低。中国专利201510810811.2提供了一种基于关系数据库从大数据下检索相同主从关系数据的算法，是海量数据中进行数据比对的一种算法，采用“大而化小，先面后点”，利用分组遍历、中间表存储等算法逐步缩小数据比对范围，高效检索出相同的记录。上述专利技术针对企业数据中海量主从结构数据，快速检索出相同记录的方法适用于企业管控中的需要检索相同主从结构数据的各种情形，增强企业的管控能力，为企业营造更好的市场环境，提高企业竞争力。上述的专利采用的是快速检索出相同记录的方法，这种方式只能寻找类似的记录，准确度不高。因此，有必要设计一种基于海量数据的企业间数据关联关系捕捉方法，实现提高捕捉的准确度，且从海量数据中，对企业有效的数据进行自动关联以及自动分类，效率高。
技术实现思路
本专利技术的目的在于克服现有技术的缺陷，提供基于海量数据的企业间数据关联关系捕捉方法及其系统。为实现上述目的，本专利技术采用以下技...

【技术保护点】
基于海量数据的企业间数据关联关系捕捉方法，其特征在于，所述方法包括：获取海量企业相关数据；对海量企业相关数据进行积累，形成基础数据；对获取的所述海量企业相关数据进行处理，形成处理数据；根据处理数据以及基础数据，获取训练集数据库；利用训练集数据库对新数据进行处理，获取企业间数据关联关系。

【技术特征摘要】
1.基于海量数据的企业间数据关联关系捕捉方法，其特征在于，所述方法包括：获取海量企业相关数据；对海量企业相关数据进行积累，形成基础数据；对获取的所述海量企业相关数据进行处理，形成处理数据；根据处理数据以及基础数据，获取训练集数据库；利用训练集数据库对新数据进行处理，获取企业间数据关联关系。2.根据权利要求1所述的基于海量数据的企业间数据关联关系捕捉方法，其特征在于，对海量企业相关数据进行积累，形成基础数据的步骤，包括以下具体步骤：对所述海量企业相关数据进行定期更新；对所述海量企业相关数据进行挖掘以及分类，建立基础数据库；存储所述海量企业相关数据于所述基础数据库；获取所述基础数据库内的基础数据。3.根据权利要求1或2所述的基于海量数据的企业间数据关联关系捕捉方法，其特征在于，对获取的所述海量企业相关数据进行处理，形成处理数据的步骤，包括以下具体步骤：对获取的所述海量企业相关数据进行清洗、归类、提取摘要以及提取关键字；对所述摘要和关键字建立索引；对所述信息、摘要以及关键字进行分类，获取分类结果；对分类结果进行实时匹配及统计，形成处理数据。4.根据权利要求3所述的基于海量数据的企业间数据关联关系捕捉方法，其特征在于，根据处理数据以及基础数据，获取训练集数据库的步骤，包括以下具体步骤：根据处理数据以及基础数据，做成训练集；对处理数据进行抽样调查和调整；将调整后的处理数据存储至训练集内；对训练集进行训练；利用权值进行训练改进，形成训练集数据库。5.根据权利要求4所述的基于海量数据的企业间数据关联关系捕捉方法，其特征在于，利用训练集数据库对新数据进行处理，获取企业间数据关联关系的步骤，包括以下具体步骤：利用训练集数据对训练集数据库进行训练，获取使用模型；采用使用模型对新数据进行分类和预测，获取企业间数据关联关系。6.基于海量数据的企业间数据关联关系捕捉系统，其特征在于，包括获取单元、基础数据形成单元、处理数据形成单元、数据库获取单元以及关系获取单元；所述获取单元，用于获取海量企业相关数据；所述基础数据形成单元，用于对海量企业相关数据进行积累，形成基础数据；...

【专利技术属性】
技术研发人员：李小强，
申请(专利权)人：前海梧桐深圳数据有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人