本发明专利技术公开了一种环境自动监测网络的数据异常值标识方法及系统,方法包括:根据基站系统自动识别、基站人工审核和实时数据平台的专家识别、平台人工审核这四个数据来源对环境监测网络的数据标识体系进行统一定义,得到来源类型标识、模式标识、模式跟踪数据标识、演绎标识和删除标识的数据结构;根据来源类型标识、模式标识、模式跟踪数据标识、演绎标识和删除标识的数据结构,对基站层和平台层的异常值进行识别,并采用改进的数据标识同步算法实现基站层异常值和平台层异常值的同步。本发明专利技术增设了模式跟踪数据和标识演绎标识,并提出了实时数据平台的异常值识别算法,溯源效率高、精确度高、全面、可靠、科学和准确,可广泛应用于环境监测领域。
【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种环境自动监测网络的数据异常值标识方法及系统,方法包括:根据基站系统自动识别、基站人工审核和实时数据平台的专家识别、平台人工审核这四个数据来源对环境监测网络的数据标识体系进行统一定义,得到来源类型标识、模式标识、模式跟踪数据标识、演绎标识和删除标识的数据结构;根据来源类型标识、模式标识、模式跟踪数据标识、演绎标识和删除标识的数据结构,对基站层和平台层的异常值进行识别,并采用改进的数据标识同步算法实现基站层异常值和平台层异常值的同步。本专利技术增设了模式跟踪数据和标识演绎标识,并提出了实时数据平台的异常值识别算法,溯源效率高、精确度高、全面、可靠、科学和准确,可广泛应用于环境监测领域。【专利说明】环境自动监测网络的数据异常值标识方法及系统
本专利技术涉及环境监测领域,尤其是环境自动监测网络的数据异常值标识方法及系统。
技术介绍
环境自动监测网络是环境质量科学表征的重要数据来源,其目的是获得高质量的环境监测数据,并由此推断整个环境现有的质量特征。环境自动监测网络除了拥有一般环境监测的要素外,自身还具备基站长期实时不间断监测、基站与实时数据平台数据同步对接、实时数据平台对海量数据自动分析统计等特点。针对环境自动监测网络独有的技术特点,研发异常值标识技术,将提升环境自动监测网络数据审核工作的科学性和逻辑性,极大提高了环境自动监测网络的数据质量,保证数据审核质量和效率。 目前,监测网络数据的异常值标识技术存在以下问题:(一)数据标识的不完善目前对网络数据的异常值采取在其后嵌入数据标识的技术方法。这种方法可有效地避免异常值纳入数据统计,但因其对质控工作溯源时没有对异常值的原因(如仪器质控和外界环境因素等)进行垂直的追踪,平台数据管理人员无法追踪判断数据质量的真实情况。为解决此问题,数据管理人员需查询基站的工作日志和询问基站维护人员,质控工作的溯源工作效率低下且导致容易因询问导致出错。 (二)识别来源的缺失或不统一环境自动监测网络的数据异常值的来源包括基站系统自动识别、基站人工审核和实时数据平台的专家识别和平台人工审核等,这四种来源在网络的数据审核体系里是互相联系、互相制约和不可割裂的,应作为一个系统整体的有机结合。 但目前仍没有相关的技术把四类数据标识归纳统一,导致不同阶层的数据审核者往往只能考虑一个来源的数据标识,不够全面和可靠。 (三)环境自动监测实时数据平台统计算法的缺失实时数据平台识别异常值的技术源自统计学、软件工程和计算机科学。统计学对统计数据异常值的识别虽有很多研究成果,但大多是从数学的角度并针对一些特殊分布例如多维正态分布、r分布等来实现的。然而,环境自动监测数据大多不符合这些分布,难以直接采用这些研究成果来进行检验和识别。因此环境自动监测实时数据平台缺乏能检查和审核统计数据可靠性和准确性的统计算法。 此外,目前的异常值识别技术将监测数据的异常值直接删除,很难容纳统计学理论识别异常值的方法。因为统计学理论能推算监测数据里的异常值,但不代表该异常值在真实环境是绝对错误的,如果直接删除被推算为异常的数据则不尊重客观现实,不够科学和准确。
技术实现思路
为了解决上述技术问题,本专利技术的目的是:提供一种溯源效率高、精确度高、全面、可靠、科学和准确的环境自动监测网络的数据异常值标识方法及系统。 本专利技术解决其技术问题所采用的技术方案是:环境自动监测网络的数据异常值标识方法,包括:A、根据基站系统自动识别、基站人工审核和实时数据平台的专家识别、平台人工审核这四个数据来源对环境监测网络的数据标识体系进行统一定义,从而得到来源类型标识、模式标识、模式跟踪数据标识、演绎标识和删除标识的数据结构;B、根据来源类型标识、模式标识、模式跟踪数据标识、演绎标识和删除标识的数据结构,对基站层和平台层的异常值进行识别,并采用改进的数据标识同步算法实现基站层异常值和平台层异常值的同步。 进一步,所述来源类型标识根据数据的来源进行定义,包括网络命令标识、基站系统标识、基站仪器自动执行命令标识、基站人工审核标识、实时数据平台标识;所述模式标识用于对基站自动监测网络各种形式的信息进行表征、描述和分类,由信息名称的英文或汉语拼音的第一个字母的缩写组成,包括监测数据状态标识、质控质保任务标识和基站监测系统及仪器故障标识;所述删除标识,用于表示不能参与统计的监测数据,具体数据格式为:删除标识/来源类型标识。 进一步,所述模式跟踪数据标识包括结果导向标识和过程导向标识,所述结果导向标识的数据结构为:模式标识(特征标识1,特征标识2,……,特征标识η) /来源类型标识;所述结果导向标识的生成过程为:选择结果导向标识的数据结构,然后把代表结果的模式标识、以及与该模式标识相关联的特征标识I到特征标识η导入到选择的数据结构中;其中,特征标识是指基站监测系统开发者定义的关于系统、仪器的状况标识或基站采集系统的环境状况标识,特征标识1,特征标识2,……,特征标识η是指与代表结果的模式标识相关联的特征标识;所述过程导向标识的数据结构为:模式标识(数值基准标识I,数值过程标识1,……,数值基准标识I,数值过程标识m) /来源类型标识;所述过程导向标识的生成过程为:选择过程导向标识的数据结构;然后把代表过程的模式标识、以及与该模式标识产生过程相关联的基准标识I,数值过程标识I……数值基准标识1,数值过程标识m导入到选择的数据结构中; 其中,基准标识是指执行质控任务时所采用标准样品的浓度值,数值过程标识是执行质控任务时监测仪器测标准样品所得的结果浓度值,数值过程标识1,数值过程标识2,……,数值过程标识m是指与代表过程的模式标识相关联的数值过程标识,且数值过程标识m按数据标识产生过程的时间先后顺序排列。 进一步,所述演绎标识是指容纳统计学理论识别异常值的标识,具体数据格式为:演绎标识/来源类型标识;所述演绎标识并不参与数据统计,只用于反映和记录计算机智能诊断出来的异常值,若人工诊断确认该异常值为真实的异常值,演绎标识会自动转为删除标识。 进一步,所述步骤B中根据来源类型标识、模式标识、模式跟踪数据标识、演绎标识和删除标识的数据结构,对基站层异常值进行识别这一步骤,其包括:Biu对基站层数据进行监测,从而获得异常数据信号; B12、将异常数据信号转换成计算机可识别的数据信号;B13、将转换后的异常数据信号与数据标识知识库的数据进行匹配,判断数据标识知识库是否存在与异常数据信号相匹配的数据,若是,则执行步骤B14,反之,则结束基站层异常值识别流程;B14、判断异常数据信号所属的数据标识类型,并根据判断结果执行相应的数据标识赋予流程;B15、将新赋予的数据标识记录存入基站数据库和同步数据库。 进一步,所述步骤B中根据来源类型标识、模式标识、模式跟踪数据标识、演绎标识和删除标识的数据结构,对平台层异常值进行识别这一步骤,其包括:B21、从平台数据库中提取监测数据,判断提取的数据是否包含不合理的值,若是,则为提取的数据赋予删除标识,反之,则执行步骤B22,所述不合理的值是指负值、超出仪器量程范围的值、连续不变的值或基于箱线图统计方法判别为离群值的数据;B22、判断提取的数据是否包含连续本文档来自技高网...
【技术保护点】
环境自动监测网络的数据异常值标识方法,其特征在于:包括:A、根据基站系统自动识别、基站人工审核和实时数据平台的专家识别、平台人工审核这四个数据来源对环境监测网络的数据标识体系进行统一定义,从而得到来源类型标识、模式标识、模式跟踪数据标识、演绎标识和删除标识的数据结构;B、根据来源类型标识、模式标识、模式跟踪数据标识、演绎标识和删除标识的数据结构,对基站层和平台层的异常值进行识别,并采用改进的数据标识同步算法实现基站层异常值和平台层异常值的同步。
【技术特征摘要】
【专利技术属性】
技术研发人员:黎如昊,肖文,向运荣,张苒,
申请(专利权)人:广东省环境监测中心,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。