一种基于大数据的法律法规数据自动处理方法及系统技术方案

技术编号:35038478 阅读:25 留言:0更新日期:2022-09-24 23:16
本发明专利技术涉及如何基于大数据处理的方法对纯文本法律法规数据按照一定的标准规范进行数据自动集成、数据智能关联、数据存储、数据质量的管理,并构建形成结构化数据资产的一种治理方法,以及基于此方法的一种设备和包括数据中间和最终存储的一种介质。中间和最终存储的一种介质。中间和最终存储的一种介质。

【技术实现步骤摘要】
一种基于大数据的法律法规数据自动处理方法及系统


[0001]本专利技术涉及如何基于大数据处理方法对法律法规数据按照一定的标准规范进行数据自动集成、数据智能关联、数据存储、数据质量的管理,并构建形成结构化数据资产的一种治理方法,以及基于此方法的一种设备和包括数据中间和最终存储的一种介质。

技术介绍

[0002]目前从国家机构到地方机构职能部门所颁布的法律法规数量日益增多,各职能部门都有其独立的颁布网站,导致各法律法规分布分散且独立、法律法规含有不同的标准属性,从而没有形成统一的数据规范并管理。从中央印发《法治社会建设实施纲要(2020

2025年)》、法律从业者年增长人数及民事诉讼纠纷案例增多,法律法规数据的管理也愈发重要。目前通用的技术包括:数据预处理、数据存储与管理、计算处理、数据挖掘与分析、数据应用等步骤,将数据统一到企业的大数据平台,以满足企业信息规划的合理性和统筹性需求。常见的处理方法是针对法律法规数据治理发现存在通过正则表达式对法律法规数据解析,而没有形成完整的一个数据流程,更多的是对法律法规的一种应用关系。本专利技术的目的是解决目前政府法律法规数据公开的分散独立而不具备统一规范管理、法律法规数据之间的联系不密切的一种方法,通过采用智能流程标准化处理程序自动将百万级纯文本形式的法规进行大数据处理,形成结构化数据最终闭合状态。

技术实现思路

[0003]本专利技术要解决的技术问题是:如何基于大数据处理方法对对纯文本法律法规数据按照一定的标准规范进行数据自动集成、数据智能关联、数据存储、数据质量的管理,最终构建形成结构化数据资产;其详细描述为:(1)数据自动集成:针对数据来源多样且结构不一,按照一定的标准规范对数据进行接入、转换、清洗、去重,形成固定结构的数据;(2)数据智能关联:针对原始数据的静态表现,挖掘出法律法规之间的联系、文本的层次信息以及法律法规动态信息;(3)数据存储:按照统一的数据结构及业务使用场景选择适合的存储组件;(4)数据质量管理:按照一定的标准规范建立数据质量监控机制。
附图说明
[0004]为了更好的说明本专利技术的技术方案,下面对专利技术中所描述的附图作简单介绍,附图仅作为本专利技术的一引起实施样例,对本领域的技术人员来说,在不付出创造性劳动的前提下,还可以依据这些附图获得其它的附图,其中:附图1 自底向上回溯过程附图2 数据处理完整流程图。
具体实施方式
[0005]基于大数据对法律法规数据进行自动集成、智能关联、存储以及管理的方法。以下是详细的描述:一、数据自动集成:主要分成四个模块:数据接入、数据转换、数据清洗以及数据去重;(1)数据接入:将数据采集的多源异构的原始法律法规数据整合到分布式文件系统中存储;(2)数据转换:法律法规数据预处理,将原始法律法规数据结构转换成另外一种数据结构;(3)数据清洗:按照一定的标准规范设定数据的结构与标准规则,根据规则将数据清洗成固定的结构;(4)数据去重:挖掘法律法规之间存在的唯一条件,挖掘法律法规文本之间的相似规则进行去重;二、数据智能关联:挖掘出法律法规之间的关联性、法律法规文本的层次信息以及法律法规时间动态信息;三、数据存储:根据业务使用场景,将数据分别存储在Hive、Mysql与ElasticSearch,形成一定的数据存储流程;四、数据质量管理:主要是分为程序对数据异常的监控以及人工对数据质量的审核;本专利技术技术方案的详细阐述;首先通过法律专业人士根据政府机构颁布的历史法律法规数据样本中确定数据的共同特征、层次信息、关联信息及其动态信息标准化规则,根据统一的规则对原始数据进行集成、关联、存储及其管理,以下是详细的方法描述:一、数据自动集成(1)数据接入步骤:A. 数据源(原始数据):通过采集各政府网站公开的法律法规数据,并将数据实时生产于Kafka消息系统中;B. Flume方式数据接入:编写Flume多节点配置文件方式并编写后台实时消费的shell脚本将数据消费到HDFS分布式文件系统中,按照日期将数据分类,以文件形式存储;(2)数据转换步骤:A. 定义数据结构:原始数据输入时的数据字段结构、原始数据转换后输出的数据字段结构;B. 自定义法律法规文件输入、输出格式;C. 编写MapReduce离线计算应用程序,将法律法规数据文件按照固定的大小分片进行并行计算;D. 读取输入法律法规文件内容(原始数据),逐行解析成<key,value>对;E. 数据格式解析:将输入的原始数据解析获取对应的字段名称和字段值;判断数据解析是否异常,若无异常则判断字段名称是否有所缺失或者字段值是否为null,并填补缺失的字段
F. 将数据格式转换成定义好的输出的数据结构,按照日期将数据分类,以文件形式存储HDFS,并导入到Hive结构表中;(3)数据清洗步骤:A. 定义数据结构:定义数据清洗后的数据字段结构;B. 自定义法律法规文件输入、输出格式;C. 构建编码表:由于法律法规一些字段是有具体的规范,采用统一的编码格式进行标识,编码按照一定的顺序、层级进行区分关联。其中编码表包含发布机构编码表、地域编码表、时效性编码表、效力等级编码表;D. 编写MapReduce离线计算应用程序,将法律法规数据文件按照固定的大小分片进行并行计算;E. 读取输入法律法规文件内容(数据转换后的数据),逐行解析成<key,value>对;F. 数据格式解析:由于数据转换步骤明确了数据的具体字段结构,根据字段分隔符获取对应的字段名称和字段值;G. 以下是具体数据字段结构提取的步骤:(一)标题字段:判断标题是否为空、标题是否存在特殊字符;基于正则表达式匹配并替换的方法解决以上出现的问题,匹配替换的规则如下所示: (\r|\n|\s|
|\p{Zs}|(</[A

Za

z]+/>)|(&[A

Za

z]+;)|/|\\)(二)发布机构名称字段:发布机构名称主要分为采集的原始发布机构名称和从标题中提取的发布机构名称,以下是针对发布机构名称提取详细说明:第一、循环遍历发布机构编码表中的数据,依次判断标题是否包含编码表中的发布机构名称;第二、由于标题中可能含有多个发布机构名称且存在简称和全称之分,所以需要对标题命中的发布机构名称进行位置去重;第三、获取发布机构名称在标题的位置,依次与其余发布机构名称在标题的位置进行交集计算,判读其位置是否重合;第四、通过发布机构名称长度确定最终的发布机构名称;(三)发布机构编码字段:采集的原始发布机构名称与从标题提取的发布机构名称存在不规范以及格式不统一的情况,需要与发布机构编码表进行关联并编码化处理,以编码与对应的规范名称作为标准,以下针对以上两种发布机构名称进行编码化处理,步骤如下:第一、由于从标题提取的发布机构名称是从发布机构编码表所获得,所以通过发布机构名称直接从发布机构编码表获取对应的编码即可;第二、原始发布机构名称与发布机构编码表中规范的发布机构本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于大数据的法律法规数据自动处理方法及系统,其特征在于,所述法律法规数据自动治理方法及系统包括数据自动集成、数据智能关联、数据多态存储、数据质量的管理。2.根据权利要求1所述的方法,其特征在于数据集成的自动化步骤:根据不同的数据来源按照指定标准规范对数据自动进行接入、转换、清洗、去重,形成固定结构的数据;数据接入步骤:通过采集政府网站公开的法律法规数据,将数据实时生产于Kafka消息系统中;通过Flume方式数据接入:编写Flume多节点配置文件方式并编写后台实时消费的shell脚本将数据消费到HDFS分布式文件系统中,按照日期将数据分类,以文件形式存储;编写MapReduce离线计算应用程序,将法律法规数据文件按照固定的大小分片进行并行计算;读取输入法律法规文件原始数据内容,逐行解析成key/value键值对;数据格式解析:将输入的原始数据解析获取对应的字段名称和字段值;判断数据解析是否异常,若无异常则判断字段名称是否有所缺失或者字段值是否为null,并填补缺失的字段;将数据格式转换成定义好的输出的数据结构,按照日期将数据分类,以文件形式存储HDFS,并导入到Hive结构表中。3.根据权利要求1所述的方法,其特征在于智能化建立数据关联的步骤:通过针对原始纯文本的数据的静态表现形式,用智能算法挖掘出法律法规之间的联系、文本的层次信息以及法律法规动态信息;通过标题拆解书名号《》得出关联法规的名称,并和历史版本进行去重关联,建立法规的历史沿革版本记录;法律法规之间存在修改、废止的关系,在时间线上是动态变化的,通过法律法规之间标题的相同或者标题包含关系,按照实施时间降序排序形成时间线关联;如果标题是包含关系判断同一法律法规是否包含多个不同的关联法律法规,通过标题从历史数据根据标题模糊查询得到相关法律法规数据集,再按照实施时间排序得到时间线的大小关系。4.根据权利要求1所述的方法,其特征在于数据多态存储:按...

【专利技术属性】
技术研发人员:贺天亮雷宇
申请(专利权)人:深圳得理科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1