一种大数据协同分析工具平台制造技术

技术编号:15299900 阅读:47 留言:0更新日期:2017-05-12 02:13
本发明专利技术公开了一种大数据协同分析平台,包括:多数据源配置模块,用于实现任意数据的配置导入和爬取;数据检索模块,用于对导入的数据建立全文分词索引;数据加工模块,用于实现团队协同协作的协同数据标引和协同分析功能;数据分析模块,用于定制算法模板,分析算法自由选择,量身定制数据建模和算法实现;数据可视化模块,用于实现分析结果的可视化展示和自动报表。本发明专利技术的有益效果:解决了行业信息研究工作在专业专、技术难、成本高和效率低的痛点,提供功能集成的信息研究大数据作业平台和大数据的多数据源可配置化数据导入和爬取,大数据存储,大数据搜索引擎,大数据在线协同分析,大数据在线实时统计分析挖掘和可视化等多维度大数据服务。

A platform for large data collaborative analysis tools

The invention discloses a big data collaborative analysis platform, including: data source configuration module is used to realize the configuration data and import any crawling; data retrieval module for data into a full-text index of word segmentation; data processing module is used to realize the collaborative data indexing and collaborative analysis function team collaborative cooperation; the data analysis module, algorithm analysis algorithm for custom templates, freedom of choice, to achieve customized data modeling and algorithm; data visualization module is used to realize the analysis of the results of the visual display and automatic reporting. The invention has the advantages that solve the industry information research work in professional and technical difficulty, high cost and low efficiency of the pain points, provide multiple data sources information integration on the big data platform and large data configurable data importing and crawling, data storage, data search engine, large data online collaborative analysis, data mining and online real-time statistical analysis of multi-dimensional visualization of large data service.

【技术实现步骤摘要】

本专利技术涉及大数据分析
,具体来说,涉及一种大数据协同分析工具平台
技术介绍
现有大数据分析技术,涉及数据的从数据导入、数据存储、数据检索、数据分析、数据可视化的全流程大数据处理分析
随着大数据技术近年不断发展,也涌现了许多基于大数据的分析工具和分析平台,但由于针对业务领域不同,各家产品专攻技术差异等因素,现有大数据分析工具、BI分析工具等,仍旧存在诸多问题和缺陷。现有技术产品大多针对商企数据提供功能技术服务,面向行业研究、科研领域的数据分析产品匮乏,现有TDA(ThomsonDataAnalyzer)可以面向行研数据领域,但由于不是基于大数据技术的产品,在海量数据处理、大数据分析、大数据可视化等方面功能欠缺。且大多针对单一数据源或有限数据源作为处理对象进行处理,不能兼容所有数据格式。大多支持数据导入时的ETL数据清洗处理,缺乏对数据导入ETL处理完成后的,基于业务需求的数据定制化加工标引标注。且现有技术产品不支持团队协同协作的协同数据标引和协同分析功能。只支持有限的分析算法和可视化图表来进行数据分析计算和展现数据分析结果,不支持算法包的定制化扩展以及可视化图表的模板化和插件化。且现有技术产品的分析模式更适用于专业技术人员,不适用于真正有分析需求的业务人员,使用门槛高。且大多针对全流程的一个或几个
做数据服务,缺少针对全数据流程的工具产品和数据分析技术。针对相关技术中的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术的目的是提供一种大数据协同分析工具平台,能够解决现有数据服务
缺乏针对全数据流程的工具产品和数据分析技术的问题,填补了该领域缺乏一体化分析流程的空白。本专利技术的目的通过以下技术方案来实现:一种大数据协同分析平台,包括:多数据源配置模块,用于实现任意数据的配置导入和爬取,建立容数据源配置XML脚本语言,或者通过容数据源配置XML脚本语言,实现各种数据源的编程配置和映射配置;数据检索模块,用于对导入的数据建立全文分词索引,提供主题检索和条件检索,支持海量数据的高速搜索引擎;数据加工模块,用于实现团队协同协作的协同数据标引和协同分析功能,通过标引树技术,实现标引内容的统一协同管理和数据定制化标引加工;数据分析模块,用于定制算法模板,分析算法自由选择,量身定制数据建模和算法实现,通过算法包插件,提供专享专用算法包;数据可视化模块,用于实现分析结果的可视化展示和自动报表,包括动态可视化插件、执行结果展示、执行结果导出和自动报告生成。进一步的,所述多数据源配置模块包括:网页爬取导入子模块,用于实现爬取配置、爬取规则和爬取导入的一体化处理流程,使用自主研发网络爬虫技术,对指定网站、网页进行规则化数据爬取,爬取数据根据爬虫导入配置器自动导入数据库;数据源配置器编辑子模块,用于数据源配置器配置规则项的新建和编辑;数据源配置器管理子模块,用于各个数据源配置器的查询和管理,包括配置器的摘要信息,详细编辑入口和删除功能;数据导入历史管理子模块,用于针对当前任务下的数据导入历史信息列表查询,包括数据的导入名称、大小、时间、所用配置器和导入状态;数据导入执行子模块,用于选择配置器和导入数据源执行数据导入。进一步的,所述数据加工模块包括:数据协同标引子模块,用于实现数据标引、加工和分析的多人团队协同同步作业,提供在线、团队、实时、协作分析加工标引功能,各成员标引加工内容实时同步呈现,通过颜色区分不同成员的加工标引内容并相互可见,实现团队标引加工作业的操作实时协同、进度清晰可见、内容同步共享;数据标引树管理子模块,用于提供协同标引加工时的标引数据字典功能,实现标引内容的统一协同管理和数据定制化标引加工;标引加工执行子模块,用于数据标引、加工和分析的执行;标引历史管理子模块,用于对标引树技术储进行管理,或者通过CSV(Comma-SeparatedValues,逗号分隔值)格式文件进行导入导出管理,使标引树字典信息实现线上线下的映射导出和集中管理。进一步的,所述数据分析模块包括:动态算法包插件,用于实现定制化扩展算法包的动态替换扩展和算法热插拔;实现算法包的模板化管理,通过参数模板,规范管理算法输入输出标准,前端通过参数模板解析,识别所需参数类型;统计分析执行子模块,用于参数采集,通过人机交互采集参数后,将采集到的参数列表经过格式化统一传递给算法包,进行算法执行;执行结果管理子模块,用于数据分析结果的管理。进一步的,所述数据可视化模块包括:动态可视化插件,用于实现可视化图表的组件化、模板化和插件化,提供可视化图表的动态组件化,通过后台管理可视化模板,并通过可视化模板的动态插拔实现前端可视化图表组件的动态替换和扩展;执行结果展示,用于展示动态可视化的结果;执行结果导出,用于导出动态可视化的结果;自动报告生成,用于根据事先定义的报告模板,结合分析结果数据和图表,自动生成统计分析报告,支持Word、PDF多种输出格式,支持人工辅助评论补正,实现自动化报告制作和生成。一种大数据协同分析方法,包括:S1:建立研究主题:以研究主题为单位、创建研究任务组、管理研究数据和制定研究方向,线下科研团队直接平移至线上,团队成员协同共享研究成果,不同研究任务之间数据保密隔离;S2:数据搜索引擎:导入数据建立全文分词索引,提供主题检索和条件检索,支持海量数据的高速搜索引擎;S3:建模统计分析:定制算法模块,分析算法自由选择,量身定制数据建模和算法实现,通过算法包插件,提供专享专用算法包,让建模统计分析随需而用,快速高效;S4:数据配置导入:海量数据批量并行导入和爬取,针对各种数据源定制专有数据解析配置器,通过配置器插件服务,实现所有格式文本文献的定向字段提取和定制化导入,实现数据源的自定义智能解析、数据项智能提取分离、数据字段智能映射存储;S5:协同分析标引:实现研究团队内数据加工云协作,团队成员分析加工标引结果实时共享可见,实时在线沟通,支持基于标引树的统一标引数据字典,针对各种标引内容定制专有标引规则配置器,实现批量自动化标引;S6:结果可视化:提供分析结果的可视化展示和自动报表,可视化图表根据需求量身定制,通过可视化插件,提供专享专用可视化模板,提供交互式可视化和自动报告。本专利技术的有益效果:立足于信息计量分析和行业研究领域,并致力于打造提供面向大数据的全链条全领域全受众的整体数据服务及解决方案平台。解决了传统企业行业信息研究工作在专业专、技术难、成本高和效率低上的痛点,提供功能集成的信息研究大数据作业平台。提供大数据的多数据源可配置化数据导入,大数据存储,大数据搜索引擎,大数据在线协同分析,大数据在线实时统计分析挖掘和大数据可视化等多维度大数据服务。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是根据本专利技术实施例所述的一种大数据协同分析平台整体结构示意图;图2是根据本专利技术实施例所述的一种大数据协同分析平台操作流程示意图;图3是根据本专利技术实施例所述的一种大数据协同分析平台技术架构示意图;图4是根据本文档来自技高网...
一种大数据协同分析工具平台

【技术保护点】
一种大数据协同分析平台,其特征在于,包括:多数据源配置模块,用于实现任意数据的配置导入和爬取,建立容数据源配置XML脚本语言,或者通过容数据源配置XML脚本语言,实现各种数据源的编程配置和映射配置;数据检索模块,用于对导入的数据建立全文分词索引,提供主题检索和条件检索,支持海量数据的高速搜索引擎;数据加工模块,用于实现团队协同协作的协同数据标引和协同分析功能,通过标引树技术,实现标引内容的统一协同管理和数据定制化标引加工;数据分析模块,用于定制算法模板,分析算法自由选择,量身定制数据建模和算法实现,通过算法包插件,提供专享专用算法包;数据可视化模块,用于实现分析结果的可视化展示和自动报表,包括动态可视化插件、执行结果展示、执行结果导出和自动报告生成。

【技术特征摘要】
1.一种大数据协同分析平台,其特征在于,包括:多数据源配置模块,用于实现任意数据的配置导入和爬取,建立容数据源配置XML脚本语言,或者通过容数据源配置XML脚本语言,实现各种数据源的编程配置和映射配置;数据检索模块,用于对导入的数据建立全文分词索引,提供主题检索和条件检索,支持海量数据的高速搜索引擎;数据加工模块,用于实现团队协同协作的协同数据标引和协同分析功能,通过标引树技术,实现标引内容的统一协同管理和数据定制化标引加工;数据分析模块,用于定制算法模板,分析算法自由选择,量身定制数据建模和算法实现,通过算法包插件,提供专享专用算法包;数据可视化模块,用于实现分析结果的可视化展示和自动报表,包括动态可视化插件、执行结果展示、执行结果导出和自动报告生成。2.根据权利要求1所述的一种大数据协同分析平台,其特征在于,所述多数据源配置模块包括:网页爬取导入子模块,用于实现爬取配置、爬取规则和爬取导入的一体化处理流程,使用自主研发网络爬虫技术,对指定网站、网页进行规则化数据爬取,爬取数据根据爬虫导入配置器自动导入数据库;数据源配置器编辑子模块,用于数据源配置器配置规则项的新建和编辑;数据源配置器管理子模块,用于各个数据源配置器的查询和管理,包括配置器的摘要信息,详细编辑入口和删除功能;数据导入历史管理子模块,用于针对当前任务下的数据导入历史信息列表查询,包括数据的导入名称、大小、时间、所用配置器和导入状态;数据导入执行子模块,用于选择配置器和导入数据源执行数据导入。3.根据权利要求1所述的一种大数据协同分析平台,其特征在于,所述数据加工模块包括:数据协同标引子模块,用于实现数据标引、加工和分析的多人团队协同同步作业,提供在线、团队、实时、协作分析加工标引功能,各成员标引加工内容实时同步呈现,通过颜色区分不同成员的加工标引内容并相互可见,实现团队标引加工作业的操作实时协同、进度清晰可见、内容同步共享;数据标引树管理子模块,用于提供协同标引加工时的标引数据字典功能,实现标引内容的统一协同管理和数据定制化标引加工;标引加工执行子模块,用于数据标引、加工和分析的执行;标引历史管理子模块,用于对标引树技术储进行管理,或者通过CSV格式文件进行导入导出管理,使标引树字典信息实现线上线下...

【专利技术属性】
技术研发人员:梁学东
申请(专利权)人:北京大数有容科技有限公司
类型:发明
国别省市:北京;11

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1