一种面向工业大数据的数据清洗和事件处理的云平台系统技术方案

技术编号:30424961 阅读:16 留言:0更新日期:2021-10-24 16:56
本发明专利技术公开了一种面向工业大数据的数据清洗和事件处理的云平台系统,该系统可实现多数据源数据实时采集、数据预处理、重复记录检测和清洗、事件关系建模,从而提高数据质量,为企业优化流程、预防故障、提高生产效益和社会价值提供实时可靠的事件信息。为了实现上述目的,本发明专利技术提供一种面向工业大数据的数据清洗和事件处理的云平台系统,该系统包括:多数据源数据采集模块,用于从多个不同数据源系统采集不同格式的非结构化数据,存入消息中间件;数据预处理模块,用于数据格式标准化、规范化,属性拆分、合并,缺失值补全等操作;重复记录检测和清洗模块,用于识别相似重复记录,检测并清洗离群点数据;事件关系建模模块,用于对之前处理的一系列完整和详细的对事件描述的事件集合进行分类和关联,构建出事件关联图。构建出事件关联图。构建出事件关联图。

【技术实现步骤摘要】
一种面向工业大数据的数据清洗和事件处理的云平台系统


[0001]本专利技术涉及大数据分析应用及工业控制领域,尤其涉及一种面向工业大数据的数据清洗和事件处理的云平台系统。

技术介绍

[0002]随着工业自动化技术和大数据技术的不断更新与发展,越来越多在工业生产过程各环节中采集到的数据被实时存储到数据仓库中,这些数据数量庞大、种类繁多、关系复杂、冗余度高,无法被直接利用管理。工业过程中很多重要的关键信息隐藏在海量工业数据中,将这些有益信息用高效快捷的方式挖掘出来应用与生产过程中,将极大地提高生产效益和社会价值。
[0003]工业大数据分析有别于其它领域或行业的大数据分析。数据来源多样,工业大数据以非结构化和半结构化为主,不同数据之间存在复杂的内部关系,数据量增长快,动态的实时数据对工业过程控制的参考价值高,工业数据价值密度低。因此,对工业大数据的分析和处理需要通过采用有针对性的处理工具和计算模型来满足对数据的实时清洗和事件处理。数据清洗是为了解决数据质量的问题,通过识别工业大数据中的错误记录并对记录进行修正,能够尽最大可能确保交付数据的一致性和准确性,进而提高参加决策的数据质量;事件处理是在数据清洗的基础上寻找对工业过程控制有用的事件信息,并通过可视化的方式展示出来,然后通过事件检测和事件关联将事件以合理化的形式展现,对企业后续分析问题、研究措施、解决问题和预防故障起到积极的作用。

技术实现思路

[0004]本专利技术的目的就在于为了解决上述问题而提供一种面向工业大数据的数据清洗和事件处理的云平台系统,该系统可实现多数据源数据实时采集、数据预处理、重复记录检测和清洗、事件关系建模,从而提高数据质量,为企业优化流程、预防故障、提高生产效益和社会价值提供实时可靠的事件信息。
[0005]为了实现上述目的,本专利技术提供一种面向工业大数据的数据清洗和事件处理的云平台系统,该系统包括:多数据源数据采集模块,用于从多个不同数据源系统采集不同格式的非结构化数据,存入消息中间件;数据预处理模块,用于数据格式标准化、规范化,属性拆分、合并,缺失值补全等操作;重复记录检测和清洗模块,用于识别相似重复记录,检测并清洗离群点数据;事件关系建模模块,用于对之前处理的一系列完整和详细的对事件描述的事件集合进行分类和关联,构建出事件关联图。
[0006]优选的,云平台系统作为一种数据采集、处理和生成事件关联图的平台。
[0007]优选的,多数据源数据采集模块包括:数据采集传输接口,对不同数据源的数据系统提供统一开放接口,用多进程并发形式采集非结构化数据,并存入一种高吞吐量的分布式发布订阅消息中间件;数据采集进程动态分配接口,自动感知不同传输速度的数据源系统并分配合适的采集进程数量,对空闲进程及时回收。
[0008]优选的,数据预处理模块包括:属性选取,对属性进行特征选择;属性取值标准化,如时间格式标准化、计量单位标准化等;属性缺失值补全,利用平均值填充方式对缺失字段进行处理;按照属性关键字进行记录排序,属性综合权重分配。
[0009]优选的,重复记录检测和清洗模块包括:通过计算不同类型字段相似度对重复记录进行聚类归并;通过基于聚类的离群点检测筛出离群点数据存入特定模块等待深层次的分析检测和异常挖掘。
[0010]优选的,事件关系建模模块包括:用模糊匹配原理计算事件特征的关联强度,计算出基于时序的事件关联对应矩阵,再根据矩阵可描绘出事件之间关联关系的图谱。
附图说明
[0011]图1为本专利技术中的系统结构示意图。
[0012]图2为本专利技术中的数据采集模块。
[0013]图3为本专利技术中的数据预处理模块。
[0014]图4为本专利技术中的重复记录检测和清洗模块。
[0015]图5为本专利技术中的事件关系建模模块。
具体实施方式
[0016]下面结合说明书附图和具体实施方式对本专利技术做出详细的说明。
[0017]本专利技术实施例提供了一种面向工业大数据的数据清洗和事件处理的云平台系统,该系统能快速从多个数据源系统获取不同格式的非结构化数据,通过数据预处理、数据清洗、数据冲突解决和事件关系建模等模块得到事件关联关系的图谱,为工业生产指导决策提供可靠依据。
[0018]如图1所示。本专利技术实施例的系统结构包括数据采集模块、消息中间件、数据预处理模块、数据清洗模块、数据冲突解决模块和事件关系建模模块。数据源为工业生产系统中各子系统或其它部门系统产生的数据。
[0019]如图2所示,所述的数据采集模块开放了数据采集接口,通过进程调度器提供的动态进程采集数据,进程调度器可以通过数据采集接口监控的实时流量为不同数据源分配合适的进程数,及时回收空闲进程,对异常进程进行日志记录并尝试主动恢复,同时通知系统运维人员,以便在自动恢复失败的情况下人工介入恢复,避免数据丢失。
[0020]如图3所示,所述的数据预处理模块从消息中间件中订阅消息,获取到上述数据采集模块的数据形成数据集。根据特征选择出有代表性的属性,对属性进行拆分合并,对部分取值表现形式各异的数据进行数据格式标准化统一,用平均值填充方式对缺失的属性进行补全。选取记录的某一属性作为关键字,根据选取的关键字对数据集进行排序操作,使潜在的可能构成相似重复记录的属性尽量在相邻的位置。结合领域知识和专家经验为各属性进行贡献度等级分配,范围为不可重复的正整数,某一属性的贡献度越大、等级越高、权值越大,在判重中的作用就越大。可以通过属性综合加权法和归一法得到综合属性权值。
[0021]如图4所示,所述的重复记录检测和清洗模块从上述数据预处理模块处理完的数据集中根据综合属性权值对重复记录聚类归并,清除相似重复记录。对显著偏离数据集中的数据进行基于聚类的离群点检测,聚类过程包括计算距离、聚类法分析和结果有效性分
析。检测出的离群点数据将导入异常数据处理系统中等待深层次的分析检测和异常挖掘。
[0022]如图5所示,在所述的事件关系建模模块中,利用模糊匹配的原理计算事件特征的关联强度,将上述数据预处理模块中属性的权重和属性出现情况作为考量标准,计算属性的关联强度,再通过求取属性关联强度的平均值计算时间的关联强度,得到基于时序的事件关联对应矩阵,根据矩阵描绘出用节点和有向边组合生成的以实体为中心的事件关联图谱。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向工业大数据的数据清洗和事件处理的云平台系统,其特征在于该云平台系统包括数据采集模块、消息中间件、数据预处理模块、数据清洗模块、数据冲突解决模块和事件关系建模模块。数据源为工业生产系统中各子系统或其它部门系统产生的数据。数据采集模块开放了数据采集接口,通过进程调度器提供的动态进程采集数据,进程调度器可以通过数据采集接口监控的实时流量为不同数据源分配合适的进程数,及时回收空闲进程,对异常进程进行日志记录并尝试主动恢复,同时通知系统运维人员,以便在自动恢复失败的情况下人工介入恢复,避免数据丢失。数据预处理模块从消息中间件中订阅消息,获取到上述数据采集模块的数据形成数据集。根据特征选择出有代表性的属性,对属性进行拆分合并,对部分取值表现形式各异的数据进行数据格式标准化统一,用平均值填充方式对缺失的属性进行补全。选取记录的某一属性作为关键字,根据选取的关键字对数据集进行排序操作,使潜在的可能构成相...

【专利技术属性】
技术研发人员:卓琳黄晁方浩杰
申请(专利权)人:宁波中科极动信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1