一种基于大数据的法律法规数据自动处理方法及系统技术方案

技术编号：35038478 阅读：35 留言：0更新日期：2022-09-24 23:16

本发明专利技术涉及如何基于大数据处理的方法对纯文本法律法规数据按照一定的标准规范进行数据自动集成、数据智能关联、数据存储、数据质量的管理，并构建形成结构化数据资产的一种治理方法，以及基于此方法的一种设备和包括数据中间和最终存储的一种介质。中间和最终存储的一种介质。中间和最终存储的一种介质。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于大数据的法律法规数据自动处理方法及系统

[0001]本专利技术涉及如何基于大数据处理方法对法律法规数据按照一定的标准规范进行数据自动集成、数据智能关联、数据存储、数据质量的管理，并构建形成结构化数据资产的一种治理方法，以及基于此方法的一种设备和包括数据中间和最终存储的一种介质。

技术介绍

[0002]目前从国家机构到地方机构职能部门所颁布的法律法规数量日益增多，各职能部门都有其独立的颁布网站，导致各法律法规分布分散且独立、法律法规含有不同的标准属性，从而没有形成统一的数据规范并管理。从中央印发《法治社会建设实施纲要（2020
‑
2025年）》、法律从业者年增长人数及民事诉讼纠纷案例增多，法律法规数据的管理也愈发重要。目前通用的技术包括：数据预处理、数据存储与管理、计算处理、数据挖掘与分析、数据应用等步骤，将数据统一到企业的大数据平台，以满足企业信息规划的合理性和统筹性需求。常见的处理方法是针对法律法规数据治理发现存在通过正则表达式对法律法规数据解析，而没有形成完整的一个数据流程，更多的是对法律法规的一种应用关系。本专利技术的目的是解决目前政府法律法规数据公开的分散独立而不具备统一规范管理、法律法规数据之间的联系不密切的一种方法，通过采用智能流程标准化处理程序自动将百万级纯文本形式的法规进行大数据处理，形成结构化数据最终闭合状态。

技术实现思路

[0003]本专利技术要解决的技术问题是：如何基于大数据处理方法对对纯文本法律法规数据按照一定的标准规范进行数据自动集成、数据智能关联...

【技术保护点】

【技术特征摘要】
1.一种基于大数据的法律法规数据自动处理方法及系统，其特征在于，所述法律法规数据自动治理方法及系统包括数据自动集成、数据智能关联、数据多态存储、数据质量的管理。2.根据权利要求1所述的方法，其特征在于数据集成的自动化步骤：根据不同的数据来源按照指定标准规范对数据自动进行接入、转换、清洗、去重，形成固定结构的数据；数据接入步骤：通过采集政府网站公开的法律法规数据，将数据实时生产于Kafka消息系统中；通过Flume方式数据接入：编写Flume多节点配置文件方式并编写后台实时消费的shell脚本将数据消费到HDFS分布式文件系统中，按照日期将数据分类，以文件形式存储；编写MapReduce离线计算应用程序，将法律法规数据文件按照固定的大小分片进行并行计算；读取输入法律法规文件原始数据内容，逐行解析成key/value键值对；数据格式解析：将输入的原始数据解析获取对应的字段名称和字段值；判断数据解析是否异常，若无异常则判断字段名称是否有所缺失或者字段值是否为null，并填补缺失的字段；将数据格式转换成定义好的输出的数据结构，按照日期将数据分类，以文件形式存储HDFS，并导入到Hive结构表中。3.根据权利要求1所述的方法，其特征在于智能化建立数据关联的步骤：通过针对原始纯文本的数据的静态表现形式，用智能算法挖掘出法律法规之间的联系、文本的层次信息以及法律法规动态信息；通过标题拆解书名号《》得出关联法规的名称，并和历史版本进行去重关联，建立法规的历史沿革版本记录；法律法规之间存在修改、废止的关系，在时间线上是动态变化的，通过法律法规之间标题的相同或者标题包含关系，按照实施时间降序排序形成时间线关联；如果标题是包含关系判断同一法律法规是否包含多个不同的关联法律法规，通过标题从历史数据根据标题模糊查询得到相关法律法规数据集，再按照实施时间排序得到时间线的大小关系。4.根据权利要求1所述的方法，其特征在于数据多态存储：按...

【专利技术属性】
技术研发人员：贺天亮，雷宇，
申请(专利权)人：深圳得理科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人