一种基于自然语言处理的裁判文书文本分类方法技术

技术编号:24708164 阅读:64 留言:0更新日期:2020-06-30 23:59
本发明专利技术公开一种基于自然语言处理的裁判文书文本分类方法,涉及文本管理技术领域;根据需求,利用大数据处理技术从裁判文书中筛选文书数据,对文书数据进行标签提取,采集相应标签内的文书数据作为数据集,建立自然语言处理中基于深度神经网络的文本分类模型,文本分类模型利用word2vec预先训练数据集,将数据集中文本转换为词向量集,作为卷积神经网络计算分析的参照,利用embedding词嵌入方式实时训练获取的实时数据集,将实时数据集中文本转换为实时词向量,将实时词向量输入卷积神经网络进行计算分析,获得文本数据的分类结果。

【技术实现步骤摘要】
一种基于自然语言处理的裁判文书文本分类方法
本专利技术公开一种分类方法,涉及文本管理
,具体地说是一种基于自然语言处理的裁判文书文本分类方法。
技术介绍
自然语言处理是人工智能中的一个子领域,研究在人与人交互中以及在人与计算机交互中的语言问题的一门学科。为了建设和完善语言模型,自然语言处理建立计算框架,提出相应的方法来不断的完善设计各种实用系统,并探讨这些实用系统的评测方法。判决文书主要由6个部分构成,分别是刑事案件(刑事文书)、民事案件(民事文书)、行政案件(行政文书)、赔偿案件(赔偿文书)、执行案件(执行文书)、其他案件(其他文书:管辖案件、区际司法协助(暂无数据)、国际司法协助(暂无数据)、非诉保全(暂无数据)、司法制裁、强制清算与破产、其他),其中大部分为文本信息。现实数据分析的模型中,大部分模型都是基于数值型的数据去做风险预测及评估工作,但面对文本类型的数据往往束手无策。
技术实现思路
本专利技术针对现有技术的问题,提供一种基于自然语言处理的裁判文书文本分类方法,构建NLP中文本分类的模型将上述判决文书文本进行对应标签分类对于分析企业画像数据,同时也可以帮助金融机构在对企业信贷过程中建立优质的风控体系。本专利技术提出的具体方案是:一种基于自然语言处理的裁判文书文本分类方法:根据需求,利用大数据处理技术从裁判文书中筛选文书数据,对文书数据进行标签提取,采集相应标签内的文书数据作为数据集,建立自然语言处理中基于深度神经网络的文本分类模型,文本分类模型利用word2vec预先训练数据集,将数据集中文本转换为词向量集,作为卷积神经网络计算分析的参照,利用embedding词嵌入方式实时训练获取的实时数据集,将实时数据集中文本转换为实时词向量,将实时词向量输入卷积神经网络进行计算分析,获得文本数据的分类结果。所述的一种基于自然语言处理的裁判文书文本分类方法中对数据集在相应字段中的数据进行去重预处理,文本分类模型利用处理后的数据集进行训练。所述的一种基于自然语言处理的裁判文书文本分类方法中文本分类模型中包括数据输入层、词向量层和卷积神经网络,其中词向量层使用word2vec预先训练数据集,将数据集中文本转换为词向量集,作为卷积神经网络计算分析的参照,使用embedding词嵌入方式实时训练获取的实时数据集,将实时数据集中文本转换为实时词向量。所述的一种基于自然语言处理的裁判文书文本分类方法中卷积神经网络中依次为卷积层、激活层、池化层,池化层后连接全连接层。一种基于自然语言处理的裁判文书文本分类系统,包括筛选模块、提取模块及分类模块,筛选模块根据需求,利用大数据处理技术从裁判文书中筛选文书数据,提取模块对文书数据进行标签提取,采集相应标签内的文书数据作为数据集,分类模块建立自然语言处理中基于深度神经网络的文本分类模型,利用文本分类模型使用word2vec预先训练数据集,将数据集中文本转换为词向量集,作为卷积神经网络计算分析的参照,使用embedding词嵌入方式实时训练获取的实时数据集,将实时数据集中文本转换为实时词向量,将实时词向量输入卷积神经网络进行计算分析,获得文本数据的分类结果。所述的一种基于自然语言处理的裁判文书文本分类系统中提取模块对数据集在相应字段中的数据进行去重预处理,获得处理后的数据集,分类模块利用文本分类模型对处理后的数据集进行训练。所述的一种基于自然语言处理的裁判文书文本分类系统中分类模块建立的文本分类模型中包括数据输入层、词向量层和卷积神经网络,其中词向量层使用word2vec预先训练数据集,将数据集中文本转换为词向量集,作为卷积神经网络计算分析的参照,使用embedding词嵌入方式实时训练获取的实时数据集,将实时数据集中文本转换为实时词向量。所述的一种基于自然语言处理的裁判文书文本分类系统中分类模块建立的文本分类模型中,卷积神经网络里依次为卷积层、激活层、池化层,池化层后连接全连接层。本专利技术的有益之处是:本专利技术提供一种基于自然语言处理的裁判文书文本分类方法,通过对裁判文书文本提取数据集,利用自然语言处理中基于深度神经网络的文本分类模型进行词向量提取,利用卷积神经网络进行分析,获取裁判文书文本分类结果,不仅可以用于前端获客渠道,通过该模型输出的企业的法律潜在风险,帮助金融机构筛选出优秀的企业,同时也可做为金融机构针对企业贷款全过程风控的重要一环,根据企业的判决文件预测企业运行风险,掌握企业的风险状况,帮助金融机构建立起对企业的整套风控体系。附图说明图1是本专利技术的文本分类模型框架示意图;图2是本专利技术方法流程示意图;图3文本处理为词向量的框架流程示意图。具体实施方式下面结合附图和具体实施例对本专利技术作进一步说明,以使本领域的技术人员可以更好地理解本专利技术并能予以实施,但所举实施例不作为对本专利技术的限定。本专利技术提供一种基于自然语言处理的裁判文书文本分类方法:根据需求,利用大数据处理技术从裁判文书中筛选文书数据,对文书数据进行标签提取,采集相应标签内的文书数据作为数据集,建立自然语言处理中基于深度神经网络的文本分类模型,文本分类模型利用word2vec预先训练数据集,将数据集中文本转换为词向量集,作为卷积神经网络计算分析的参照,利用embedding词嵌入方式实时训练获取的实时数据集,将实时数据集中文本转换为实时词向量,将实时词向量输入卷积神经网络进行计算分析,获得文本数据的分类结果。利用本专利技术方法对裁判文书文本进行分类,具体过程为:根据需求,利用大数据处理技术从多种裁判文书中筛选出相对有价值的文书,比如刑事案件与民事案件的文书,为文本分类任务提供数据支持,将文书进行标签提取,并且采集相应标签内的数据作为数据集,对数据集进行预处理,在相应字段,比如CASECAUSE字段中的数据进行去重提取,还可进行过手动处理,进一步提取详细文本的数据集,建立自然语言处理中基于深度神经网络的文本分类模型,文本分类模型将输入的数据集的文本转换为词序列,再利用数字编号表示词序列,文本分类模型的词向量层利用word2vec将数据集中文本转换为词向量,作为卷积神经网络计算分析的参照,利用embedding词嵌入方式实时训练获取的实时数据集,将实时数据集中文本转换为实时词向量,作为卷积神经网络的输入层,卷积神经网络的卷积层因为卷积窗口大小不同,平行放置了三个卷积部分,垂直方向则放置了三层,包括卷积层、激活层、池化层,三个卷积部分进行三层连接,再连接全连接层和激活层,激活层采用softmax并输出该文本属于某类的概率。利用本专利技术方法以刑事案件,民事案件类别进行分类时,与现有技术中基于wiki中文语料库利用word2vec获得词向量的方式相比,拥有较好的训练精度和测试精度,并且更具普适性,并且与单独embedding词嵌入获得词向量,而不进过文本处理的方式相比,本专利技术拥有较好的训练精度和测试本文档来自技高网...

【技术保护点】
1.一种基于自然语言处理的裁判文书文本分类方法,其特征是根据需求,利用大数据处理技术从裁判文书中筛选文书数据,/n对文书数据进行标签提取,采集相应标签内的文书数据作为数据集,/n建立自然语言处理中基于深度神经网络的文本分类模型,文本分类模型利用word2vec预先训练数据集,将数据集中文本转换为词向量集,作为卷积神经网络计算分析的参照,利用embedding词嵌入方式实时训练获取的实时数据集,将实时数据集中文本转换为实时词向量,将实时词向量输入卷积神经网络进行计算分析,获得文本数据的分类结果。/n

【技术特征摘要】
1.一种基于自然语言处理的裁判文书文本分类方法,其特征是根据需求,利用大数据处理技术从裁判文书中筛选文书数据,
对文书数据进行标签提取,采集相应标签内的文书数据作为数据集,
建立自然语言处理中基于深度神经网络的文本分类模型,文本分类模型利用word2vec预先训练数据集,将数据集中文本转换为词向量集,作为卷积神经网络计算分析的参照,利用embedding词嵌入方式实时训练获取的实时数据集,将实时数据集中文本转换为实时词向量,将实时词向量输入卷积神经网络进行计算分析,获得文本数据的分类结果。


2.根据权利要求1所述的一种基于自然语言处理的裁判文书文本分类方法,其特征是对数据集在相应字段中的数据进行去重预处理,文本分类模型利用处理后的数据集进行训练。


3.根据权利要求1或2所述的一种基于自然语言处理的裁判文书文本分类方法,其特征是文本分类模型中包括数据输入层、词向量层和卷积神经网络,其中词向量层使用word2vec预先训练数据集,将数据集中文本转换为词向量集,作为卷积神经网络计算分析的参照,使用embedding词嵌入方式实时训练获取的实时数据集,将实时数据集中文本转换为实时词向量。


4.根据权利要求3所述的一种基于自然语言处理的裁判文书文本分类方法,其特征是卷积神经网络中依次为卷积层、激活层、池化层,池化层后连接全连接层。


5.一种基于自然语言处理的裁判文书文本分类系统,其特征是包括筛选...

【专利技术属性】
技术研发人员:陈晨
申请(专利权)人:山东爱城市网信息技术有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1