【技术实现步骤摘要】
结合知识图谱和语义分析的电力报告智能清洗处理方法
[0001]本专利技术涉及数据处理技术,尤其涉及一种结合知识图谱和语义分析的电力报告智能清洗处理方法。
技术介绍
[0002]随着电网企业数字化的转型,逐渐将以往的纸质电力报告转换为电子电力报告进行数据归纳。电力报告一般会包括多个维度的数据统计,例如居民用电数据、工业用电数据、园区用电数据等。电力报告为电网企业分析数据的重要依据。
[0003]由于电力报告的数量较多、数据较多的原因导致其数据量较大,在工作人员对电力报告进行分析时,往往需要阅读大量的电力报告,无法有效的结合需求快速获取到电力报告中的相关数据,因此,需要对电力报告进行有效数据的整理。现有技术中,往往是通过人为的方式对电力报告的数据进行提取和整理,然而,针对数据量较大的电力报告而言,其整理的工作量巨大,且由于不可避免的人为原因,还会导致一些数据整理错误。
[0004]因此,如何对电力报告进行智能清洗并对清洗的数据进行自动验证成为了急需解决的问题。
技术实现思路
[0005]本专利技术实施例提供一种结合知识图谱和语义分析的电力报告智能清洗处理方法,可以对电力报告进行智能清洗并对清洗的数据进行自动验证,还可以结合工作人员的需求实现对数据的自动分析,得到相应的分析数据。
[0006]本专利技术实施例的第一方面,提供一种结合知识图谱和语义分析的电力报告智能清洗处理方法,包括:接收用户对电力报告智能清洗及处理所配置的知识信息,基于相应知识信息所对应的三元组关系构建相对应的知识图 ...
【技术保护点】
【技术特征摘要】
1.结合知识图谱和语义分析的电力报告智能清洗处理方法,其特征在于,包括:接收用户对电力报告智能清洗及处理所配置的知识信息,基于相应知识信息所对应的三元组关系构建相对应的知识图谱,所述知识图谱中包括多个知识节点;对电力报告内的语句进行分词处理得到多个词语,确定词语中有数据属性的词语作为第一词语,将其他词语作为第二词语,结合所述语句中的第二词语对相应的第一词语进行语义分析,得到第一词语的分析属性;根据用户对本次电力报告所配置的计算需求生成相对应的数据需求清单,基于所述数据需求清单选择具有相应分析属性的第一词语作为第三词语;根据所述第三词语的分析属性确定与所述第三词语所对应的清洗验证策略,基于所述清洗验证策略、历史数据对第三词语进行正确性的验证,每个类型的分析属性具有预设的清洗验证策略;若判断验证不通过则确定验证不通过所对应的验证存疑类型,根据所述第三词语的验证存疑类型确定与第三词语对应的清洗处理策略,所述验证存疑类型包括不合理存疑类型或待验证存疑类型;在判断得到数据需求清单所对应的所有第三词语后,将所述第三词语输入至预设模型中计算得到数据清洗后的分析数据,基于所述分析数据和知识图谱得到相对应的处理数据。2.根据权利要求1所述的结合知识图谱和语义分析的电力报告智能清洗处理方法,其特征在于,所述接收用户对电力报告智能清洗及处理所配置的知识信息,基于相应知识信息所对应的三元组关系构建相对应的知识图谱,所述知识图谱中包括多个知识节点,包括:所述知识信息包括与分析数据所对应的第一知识信息,以及与处理数据所对应的第二知识信息,每个第一知识信息或第二知识信息具有相对应的知识节点;根据用户对第一知识信息、第二知识信息配置的三元组关系对相应的知识节点进行连接,构建生成相对应的知识图谱。3.根据权利要求2所述的结合知识图谱和语义分析的电力报告智能清洗处理方法,其特征在于,所述对电力报告内的语句进行分词处理得到多个词语,确定词语中有数据属性的词语作为第一词语,将其他词语作为第二词语,结合所述语句中的第二词语对相应的第一词语进行语义分析,得到第一词语的分析属性,包括:对电力报告内的语句进行分词处理得到多个词语,确定词语中有数据属性的词语作为第一词语,所述数据属性的词语至少包括阿拉伯数字、大写数字、繁体数字;将所有分词中第一词语以外的其他词语作为第二词语,遍历所述第二词语与预设词语进行比对,若判断第二词语与预设词语相对应则基于所述预设词语确定其为待分析的第二词语;根据每个第一词语与待分析的第二词语之间的位置关系,确定与相应第一词语所关联的待分析的第二词语,基于关联的第二词语对相应的第一词语进行语义分析,得到第一词语的分析属性;若判断所述第一词语的格式与预设格式不一致,则根据第一词语的格式确定预设的第
一转换模板,基于所述第一转换模板将第一词语进行转换,得到满足格式要求的第一词语。4.根据权利要求3所述的结合知识图谱和语义分析的电力报告智能清洗处理方法,其特征在于,所述根据每个第一词语与待分析的第二词语之间的位置关系,确定与相应第一词语所关联的第二词语,基于关联的第二词语对相应的第一词语进行语义分析,得到第一词语的分析属性,包括:若判断一个语句中具有多个第一词语和预设的合并词,则判断相应的第一词语可以合并为一个第一词语,对可以合并的第一词语添加相对应的合并标签,以使后续对第一词语处理时基于所述合并标签对相应的第一词语合并处理;若判断一个语句中具有一个第一词语或可以合并为一个第一词语的多个第一词语,则将相应语句中所有待分析的第二词语与相应的第一词语或合并后的第一词语相关联;若判断一个语句中具有多个第一词语且多个词语无法合并为一个第一词语,则基于第一词语的位置对语句进行分段得到分段结果,根据所述分段结果确定每个第一词语所关联的第二词语;所述分析属性为第二词语所包括的主语分析属性、趋势变化分析属性、概念分析属性中的任意一种或多种。5.根据权利要求4所述的结合知识图谱和语义分析的电力报告智能清洗处理方法,其特征在于,所述若判断一个语句中具有多个第一词语且多个词语无法合并为一个第一词语,则基于第一词语的位置对语句进行分段得到分段结果,根据所述分段结果确定每个第一词语所关联的第二词语,包括:在语句中确定所有第一词语的位置,基于所述第一词语的位置对语句分段处理得到多个子段,确定每个第一词语前部、相邻的段作为关联段;将关联段内的第二词语作为与相应第一词语所关联的第二词语。6.根据权利要求4所述的结合知识图谱和语义分析的电力报告智能清洗处理方法,其特征在于,所述若判断所述第一词语的格式与预设格式不一致,则根据第一词语的格式确定预设的第一转换模板,基于所述第一转换模板将第一词语进行转换,得到满足格式要求的第一词语,包括:将第一词语的格式与预设格式比对,所述第一词语的格式为阿拉伯数字格式、大写数字格式或繁体数字格式,所述预设格式为阿拉伯数字格式;若判断所述第一词语的...
【专利技术属性】
技术研发人员:胡若云,姚冰峰,郭兰兰,郭大琦,夏霖,唐健毅,张潇匀,刘铭,楼洁妮,陈洲泓,包挺华,潘鑫,金红霞,张磊,万志锦,
申请(专利权)人:国网浙江省电力有限公司营销服务中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。