一种机器学习和大数据处理系统技术方案

技术编号:19857782 阅读:24 留言:0更新日期:2018-12-22 11:45
本发明专利技术公开了一种机器学习和大数据处理系统,包括数据接入单元、数据库、数据存储单元、信息处理单元、信息分类单元、信息读取单元、信息整理单元、信息优化单元、信息筛选单元、智能审核单元和人工审核单元,所述数据库与数据存储单元双向连接,信息优化单元的输出端与信息筛选单元的输入端连接,信息筛选单元的输出端与智能审核单元的输入端连接,智能审核单元的输出端与人工审核单元的输入端连接,人工审核单元的输出端与数据存储单元的输入端连接,数据存储单元的输入端与信息处理单元的输出端连接。本发明专利技术设计巧妙,设计合理,数据处理效率高,具有实时更新数据库的功能,适合推广,可以用来处理大数据,智能化程度高。

【技术实现步骤摘要】
一种机器学习和大数据处理系统
本专利技术涉及机器学习和大数据处理系统
,尤其涉及一种机器学习和大数据处理系统。
技术介绍
近年来,大数据领域发展出大量技术和产品,成为大数据获取、存储、处理分析或可视化的有效手段。但使用这些技术和产品存在较高的技术门槛,怎样将大数据技术以标准化的形式组织起来,为使用者提供便捷、高效的使用方法,成为一项巨大挑战。以许多大互联网公司为代表的一系列基于云平台的大数据分析产品应运而生。这些产品凭借其丰富的云计算资源和友好的交互模式为大数据分析任务的组织提供了相对高效和相对便利的手段。但企业的数据分析人员往往精通领域知识和业务背景,却对数据分析的技术细节不甚熟悉,导致这些大数据分析产品仍然具有较高的技术门槛。尤其在数据分析技术发展迅速的今天,大多企业难以承担同时掌握各种数据分析技术所花费的巨大人力成本。另外,在实际应用中,往往需要根据不同条件训练批量类似的模型,而现有平台和产品无法高效地支持这一场景。经检索,专利号为CN201711354629.6提出交互式自动化大数据分析应用开发系统,所述系统包括:数据接收模块、算子管理模块、分析模型生成模块、流程解析优化模块以及任务调度执行模块;其中,所述数据接收模块用于接收用户通过数据管理交互界面输入的待分析大数据的训练数据集;所述算子管理模块用于根据所述训练数据集构建并存储对应的数据集算子,所述算子管理模块还用于存储预设数据处理算子、预设机器学习算子以及预设流程控制算子;所述分析模型生成模块用于根据用户在分析流程编辑交互界面调用所述数据集算子、所述预设数据处理算子、所述预设机器学习算子以及所述预设流程控制算子构建的分析流程生成所述待分析大数据的分析模型,该对比文件的数据处理不支持数据的实时更新,且数据的筛选力度不强,垃圾信息很难去除掉,为此,本专利技术提出一种机器学习和大数据处理系统。
技术实现思路
本专利技术的目的是为了解决现有技术中存在的缺点,而提出的一种机器学习和大数据处理系统。为了实现上述目的,本专利技术采用了如下技术方案:一种机器学习和大数据处理系统,包括数据接入单元、数据库、数据存储单元、信息处理单元、信息分类单元、信息读取单元、信息整理单元、信息优化单元、信息筛选单元、智能审核单元和人工审核单元,所述数据库与数据存储单元双向连接,数据存储单元的输出端与信息读取单元的输入端连接,信息读取单元的输出端与信息分类单元的输入端连接,信息分类单元的输入端与数据接入单元的输出端连接,信息分类单元的输出端与信息整理单元的输入端连接,信息整理单元的输出端与信息优化单元的输入端连接,信息优化单元的输出端与信息筛选单元的输入端连接,信息筛选单元的输出端与智能审核单元的输入端连接,智能审核单元的输出端与人工审核单元的输入端连接,人工审核单元的输出端与数据存储单元的输入端连接,数据存储单元的输入端与信息处理单元的输出端连接。优选的,所述信息优化单元的输入端与检索单元的输出端连接,检索单元包括敏感词汇和格式不正确的检索,属于初步检索,当信息中含有敏感词汇或者信息格式不正确时,检索单元判断该信息为不合格,此时将信息打回,信息返回修改,修改后再进入信息整理单元,信息优化单元经过检索单元检索合格后,信息进入信息筛选单元中。优选的,所述智能审核单元包括评分单元、筛选单元、上报单元和删除单元,其中,评分单元的输出端与筛选单元的输入端连接,筛选单元的输出端与上报单元的输入端连接,上报单元的输出端与删除单元的输入端连接,经过信息删选单元筛选后的信息经过评分单元评分,评分≥85的信息作为合格信息被储存在数据存储单元中,评分<85的信息作为不合格信息发送给人工审核单元审核。优选的,所述信息筛选单元的流程包括信息预过滤、检索库检索、相同技术点检索和技术不完整检索,信息在检索时,通过互联网数据检索库检索,将信息中的关键词录入数据库中,数据库中出现对比文件,然后再将对比文件与录入信息在做相似度对比,相似度≥20%的信息最不合格信息删除掉,大数据处理进一步过滤垃圾信息。优选的,所述人工审核单元包括人工评分、人工筛选、人工上报、人工删除和技术人员提取技术点,不合格信息经过人工评分,评分小于90的信息删除掉,技术人员提取技术点从合格的信息中。优选的,所述检索库包括维普、中国知网、万方、超星、sciencedirect和pubmed数据库。优选的,所述智能审核单元的评分单元根据信息的完整度,完整度包括信息的字数、图片数量、表格数量、引证数量,字数、图片数量、表格数量、引证数量占总分的四分之一。优选的,所述人工审核单元的人工评分根据信息的技术点,技术点的个数和技术点的丰富性决定人工评分的高低。优选的,所述数据库中的信息定期更新,定期将信息发送给信息读取单元,然后将信息在进行分类,再根据更新时的检索库进行重新筛选,淘汰已经过时的信息,实时更新数据库的数据。优选的,所述信息定期更新的周期为6-12个月。与现有技术相比,本专利技术的有益效果是:通过检索单元判断该信息为不合格,此时将信息打回,信息返回修改,修改后再进入信息整理单元,信息优化单元经过检索单元检索合格后,信息进入信息筛选单元中,不合格的信息可以修改,修改后再进行筛选,避免优秀信息的流失,更加人性化,通过筛选单元的输出端与上报单元的输入端连接,上报单元的输出端与删除单元的输入端连接,经过信息删选单元筛选后的信息经过评分单元评分,评分≥85的信息作为合格信息被储存在数据存储单元中,评分<85的信息作为不合格信息发送给人工审核单元审核,智能审核单元的加入,可以提高处理效率,减小人工处理的量,通过数据库中的信息定期更新,定期将信息发送给信息读取单元,然后将信息在进行分类,再根据更新时的检索库进行重新筛选,淘汰已经过时的信息,实时更新数据库的数据,本专利技术设计巧妙,设计合理,数据处理效率高,具有实时更新数据库的功能,适合推广,可以用来处理大数据,智能化程度高。附图说明图1为本专利技术提出的一种机器学习和大数据处理系统的原理框图;图2为本专利技术提出的一种机器学习和大数据处理系统中信息筛选单元的原理框图;图3为本专利技术提出的一种机器学习和大数据处理系统中人工审核单元的原理框图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。实施例一参照图1-3,一种机器学习和大数据处理系统,包括数据接入单元、数据库、数据存储单元、信息处理单元、信息分类单元、信息读取单元、信息整理单元、信息优化单元、信息筛选单元、智能审核单元和人工审核单元,所述数据库与数据存储单元双向连接,数据存储单元的输出端与信息读取单元的输入端连接,信息读取单元的输出端与信息分类单元的输入端连接,信息分类单元的输入端与数据接入单元的输出端连接,信息分类单元的输出端与信息整理单元的输入端连接,信息整理单元的输出端与信息优化单元的输入端连接,信息优化单元的输出端与信息筛选单元的输入端连接,信息筛选单元的输出端与智能审核单元的输入端连接,智能审核单元的输出端与人工审核单元的输入端连接,人工审核单元的输出端与数据存储单元的输入端连接,数据存储单元的输入端与信息处理单元的输出端连接,所述信息优化单元的输本文档来自技高网
...

【技术保护点】
1.一种机器学习和大数据处理系统,包括数据接入单元、数据库、数据存储单元、信息处理单元、信息分类单元、信息读取单元、信息整理单元、信息优化单元、信息筛选单元、智能审核单元和人工审核单元,其特征在于,所述数据库与数据存储单元双向连接,数据存储单元的输出端与信息读取单元的输入端连接,信息读取单元的输出端与信息分类单元的输入端连接,信息分类单元的输入端与数据接入单元的输出端连接,信息分类单元的输出端与信息整理单元的输入端连接,信息整理单元的输出端与信息优化单元的输入端连接,信息优化单元的输出端与信息筛选单元的输入端连接,信息筛选单元的输出端与智能审核单元的输入端连接,智能审核单元的输出端与人工审核单元的输入端连接,人工审核单元的输出端与数据存储单元的输入端连接,数据存储单元的输入端与信息处理单元的输出端连接。

【技术特征摘要】
1.一种机器学习和大数据处理系统,包括数据接入单元、数据库、数据存储单元、信息处理单元、信息分类单元、信息读取单元、信息整理单元、信息优化单元、信息筛选单元、智能审核单元和人工审核单元,其特征在于,所述数据库与数据存储单元双向连接,数据存储单元的输出端与信息读取单元的输入端连接,信息读取单元的输出端与信息分类单元的输入端连接,信息分类单元的输入端与数据接入单元的输出端连接,信息分类单元的输出端与信息整理单元的输入端连接,信息整理单元的输出端与信息优化单元的输入端连接,信息优化单元的输出端与信息筛选单元的输入端连接,信息筛选单元的输出端与智能审核单元的输入端连接,智能审核单元的输出端与人工审核单元的输入端连接,人工审核单元的输出端与数据存储单元的输入端连接,数据存储单元的输入端与信息处理单元的输出端连接。2.根据权利要求1所述的一种机器学习和大数据处理系统,其特征在于,所述信息优化单元的输入端与检索单元的输出端连接,检索单元包括敏感词汇和格式不正确的检索,属于初步检索,当信息中含有敏感词汇或者信息格式不正确时,检索单元判断该信息为不合格,此时将信息打回,信息返回修改,修改后再进入信息整理单元,信息优化单元经过检索单元检索合格后,信息进入信息筛选单元中。3.根据权利要求1所述的一种机器学习和大数据处理系统,其特征在于,所述智能审核单元包括评分单元、筛选单元、上报单元和删除单元,其中,评分单元的输出端与筛选单元的输入端连接,筛选单元的输出端与上报单元的输入端连接,上报单元的输出端与删除单元的输入端连接,经过信息删选单元筛选后的信息经过评分单元评分,评分≥85的信息作为合格信息被储存在数据存储单元中,评分<85的信息作为不合格信息发送给人工审核...

【专利技术属性】
技术研发人员:宋思红宋克清张建东黄理孙雪营王伟吴小彦
申请(专利权)人:天津迈基生物科技有限公司
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1