The invention discloses a big data collaborative analysis platform, including: data source configuration module is used to realize the configuration data and import any crawling; data retrieval module for data into a full-text index of word segmentation; data processing module is used to realize the collaborative data indexing and collaborative analysis function team collaborative cooperation; the data analysis module, algorithm analysis algorithm for custom templates, freedom of choice, to achieve customized data modeling and algorithm; data visualization module is used to realize the analysis of the results of the visual display and automatic reporting. The invention has the advantages that solve the industry information research work in professional and technical difficulty, high cost and low efficiency of the pain points, provide multiple data sources information integration on the big data platform and large data configurable data importing and crawling, data storage, data search engine, large data online collaborative analysis, data mining and online real-time statistical analysis of multi-dimensional visualization of large data service.
【技术实现步骤摘要】
本专利技术涉及大数据分析
,具体来说,涉及一种大数据协同分析工具平台。
技术介绍
现有大数据分析技术,涉及数据的从数据导入、数据存储、数据检索、数据分析、数据可视化的全流程大数据处理分析
随着大数据技术近年不断发展,也涌现了许多基于大数据的分析工具和分析平台,但由于针对业务领域不同,各家产品专攻技术差异等因素,现有大数据分析工具、BI分析工具等,仍旧存在诸多问题和缺陷。现有技术产品大多针对商企数据提供功能技术服务,面向行业研究、科研领域的数据分析产品匮乏,现有TDA(ThomsonDataAnalyzer)可以面向行研数据领域,但由于不是基于大数据技术的产品,在海量数据处理、大数据分析、大数据可视化等方面功能欠缺。且大多针对单一数据源或有限数据源作为处理对象进行处理,不能兼容所有数据格式。大多支持数据导入时的ETL数据清洗处理,缺乏对数据导入ETL处理完成后的,基于业务需求的数据定制化加工标引标注。且现有技术产品不支持团队协同协作的协同数据标引和协同分析功能。只支持有限的分析算法和可视化图表来进行数据分析计算和展现数据分析结果,不支持算法包的定制化扩展以及可视化图表的模板化和插件化。且现有技术产品的分析模式更适用于专业技术人员,不适用于真正有分析需求的业务人员,使用门槛高。且大多针对全流程的一个或几个
做数据服务,缺少针对全数据流程的工具产品和数据分析技术。针对相关技术中的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术的目的是提供一种大数据协同分析工具平台,能够解决现有数据服务
缺乏针对全数据流程的工具产品和数据分析技 ...
【技术保护点】
一种大数据协同分析平台,其特征在于,包括:多数据源配置模块,用于实现任意数据的配置导入和爬取,建立容数据源配置XML脚本语言,或者通过容数据源配置XML脚本语言,实现各种数据源的编程配置和映射配置;数据检索模块,用于对导入的数据建立全文分词索引,提供主题检索和条件检索,支持海量数据的高速搜索引擎;数据加工模块,用于实现团队协同协作的协同数据标引和协同分析功能,通过标引树技术,实现标引内容的统一协同管理和数据定制化标引加工;数据分析模块,用于定制算法模板,分析算法自由选择,量身定制数据建模和算法实现,通过算法包插件,提供专享专用算法包;数据可视化模块,用于实现分析结果的可视化展示和自动报表,包括动态可视化插件、执行结果展示、执行结果导出和自动报告生成。
【技术特征摘要】
1.一种大数据协同分析平台,其特征在于,包括:多数据源配置模块,用于实现任意数据的配置导入和爬取,建立容数据源配置XML脚本语言,或者通过容数据源配置XML脚本语言,实现各种数据源的编程配置和映射配置;数据检索模块,用于对导入的数据建立全文分词索引,提供主题检索和条件检索,支持海量数据的高速搜索引擎;数据加工模块,用于实现团队协同协作的协同数据标引和协同分析功能,通过标引树技术,实现标引内容的统一协同管理和数据定制化标引加工;数据分析模块,用于定制算法模板,分析算法自由选择,量身定制数据建模和算法实现,通过算法包插件,提供专享专用算法包;数据可视化模块,用于实现分析结果的可视化展示和自动报表,包括动态可视化插件、执行结果展示、执行结果导出和自动报告生成。2.根据权利要求1所述的一种大数据协同分析平台,其特征在于,所述多数据源配置模块包括:网页爬取导入子模块,用于实现爬取配置、爬取规则和爬取导入的一体化处理流程,使用自主研发网络爬虫技术,对指定网站、网页进行规则化数据爬取,爬取数据根据爬虫导入配置器自动导入数据库;数据源配置器编辑子模块,用于数据源配置器配置规则项的新建和编辑;数据源配置器管理子模块,用于各个数据源配置器的查询和管理,包括配置器的摘要信息,详细编辑入口和删除功能;数据导入历史管理子模块,用于针对当前任务下的数据导入历史信息列表查询,包括数据的导入名称、大小、时间、所用配置器和导入状态;数据导入执行子模块,用于选择配置器和导入数据源执行数据导入。3.根据权利要求1所述的一种大数据协同分析平台,其特征在于,所述数据加工模块包括:数据协同标引子模块,用于实现数据标引、加工和分析的多人团队协同同步作业,提供在线、团队、实时、协作分析加工标引功能,各成员标引加工内容实时同步呈现,通过颜色区分不同成员的加工标引内容并相互可见,实现团队标引加工作业的操作实时协同、进度清晰可见、内容同步共享;数据标引树管理子模块,用于提供协同标引加工时的标引数据字典功能,实现标引内容的统一协同管理和数据定制化标引加工;标引加工执行子模块,用于数据标引、加工和分析的执行;标引历史管理子模块,用于对标引树技术储进行管理,或者通过CSV格式文件进行导入导出管理,使标引树字典信息实现线上线下...
【专利技术属性】
技术研发人员:梁学东,
申请(专利权)人:北京大数有容科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。