当前位置: 首页 > 专利查询>南京大学专利>正文

基于深度学习的文书判决结果倾向性的方法及装置制造方法及图纸

技术编号:21299424 阅读:45 留言:0更新日期:2019-06-12 07:53
本发明专利技术公开了基于深度学习的文书判决结果倾向性的方法及装置,该文本倾向性分析方法能够从非结构化的文本中提取关键特征,利用模糊匹配方法解决判决结果中的多实体识别的问题,通过基于多层LSTM的深度神经网络进行倾向性判断,将整个过程构建成一个针对判决结果的倾向性分析模型。将该模型在不同案由的裁判文书数据集上都达到很高的准确率。通过该方法,只需输入裁判文书,即可得到判决结果倾向性标签,中间步骤无需人工参与,省时省力。

The Method and Device of the Tendency of Document Judgment Results Based on Deep Learning

The present invention discloses a method and device of document judgment result orientation based on deep learning. The method of text orientation analysis can extract key features from unstructured text, solve the problem of multi-entity recognition in judgment result by using the method of fuzzy matching, make orientation judgment through the depth neural network based on multi-layer LSTM, and construct the whole process as a target. Tendency analysis model of decision results. The model achieves high accuracy on the data sets of different cases. By this method, only the judgment document is input, and the tendency label of the judgment result can be obtained. The intermediate step does not need manual participation and saves time and effort.

【技术实现步骤摘要】
基于深度学习的文书判决结果倾向性的方法及装置
本专利技术涉及基于深度学习的文本倾向性分析方法
,特别是涉及裁判文书的判决结果倾向性。
技术介绍
目前,解决短文本倾向性分析的常用手段为基于字典规则的方法和基于机器学习的方法是。基于字典规则的方法通常需要先构建情感词典,再根据测试文本中的情感词在词典中的先验情感进行整条文本的情感计算,不同类型或主题的语料上难以移植和泛化,同时过度依赖于专家的领域知识。基于机器学习的方法是将情感分析转化成模式分类的问题,建立分类模型,对情感极性作出预测。在建立模型时,需要事先标注好数据,依赖于大量的人工标注。同时,文书的判决结果倾向性与一般文本倾向性有所不同,判决结果本身是被包含在裁判文书这样半结构的文本中,无法直接获得,同时由于判决结果的对象实体对倾向性结果有决定性作用,而判决结果中往往使用的是人名等称谓,而非统一的法律实体,因此需要准确地识别出判决的多重实体并进行清洗。中国专利申请CN201510866865.0,一种自动判定裁判文书判决结果的方法及装置,涉及自然语言处理领域,为解决人工提取判决结果效率低的问题而专利技术。本专利技术的方法包括:在裁判文书中遍历预设的标识一和标识二,所述标识一为判决如下、裁定如下或其变体,所述标识二为受理费或其变体;截取标识一与标识二中间的判决段落,所述判决段落包括判决结果;在所述判决段落中,在所述标识一之后的预设字符范围内查找败诉关键词,所述败诉关键词包括驳回、不准或其变体;若查找到所述败诉关键词,则确定所述判决结果为败诉。该专利技术主要应用于对中文裁判文书的判决结果进行自动判定的过程中。但是使用该方法和装置判定的裁判文书准确性还存在一定的偏差。
技术实现思路
为了克服上述方法存在的难以移植、依赖于专家、大量人工标注的问题,提出一种基于深度学习的文本倾向性分析方法,该方法只需少量人工标注,且一经训练成模型,之后可直接使用。本专利技术所采用的技术方案是:基于深度学习的文书判决结果倾向性的方法,包括通过对裁判文书依次进行数据抽取、数据清洗、数据标注、分词、生成词向量、词向量替换、深度神经网络训练和生成模型,从而获取裁判文书的倾向性结果标签的步骤;其中:数据抽取,是从裁判文书中抽取出原告、被告、判决结果的关键特征;数据清洗,利用模糊匹配的方式,识别判决结果中的人名、公司名称谓,并使用相对应的法律用语代替;设定W是所有原告与被告名称的集合,sk是第k个名称wk与判决结果的最长公共子字符串,rk是第k个最长公共子串sk与第k个名称wk的长度比,则W={w1,w2,…,wn}选择集合{rk}中的最大值所对应的身份,“原告”或者“被告”,替换判决结果中的最长公共子串;数据标注,将数据清洗得到的判决结果进行人工标注,分别为“支持原告”和“不支持原告”;分词:将数据标注的判决结果进行分词,作为深度神经网络训练的输入;生成词向量及词向量替换:使用word2vector进行词向量生成;深度神经网络训练和生成模型,将词向量表示的分词结果作为LSTM网络模型的输入,然后通过多层LSTM的深度神经网络进行倾向性判断,最后生成裁判文书的倾向性结果标签。进一步地,生成词向量和词向量替换完成之后,在深度神经网络训练时,倾向性结果标签输出前的输出节点之前增加一层隐藏层对向量进行特征选择,最终输出的倾向性结果标签使用sigmoid激活函数获得。进一步地,数据标注步骤中,设定如下判定规则:如果单条判决结果中,部分支持原告,则标注支持原告;如果撤诉判定为支持原告,则标注其支持原告;如果驳回被告的反诉请求判定为支持原告,同理,驳回原告的反诉请求为支持被告,则标注支持原告。进一步地,数据标注由至少三个人进行标注。基于深度学习的文书判决结果倾向性的装置,包括裁判文书的抽取装置、数据清洗装置、数据标注装置、分词模块、生成词向量模块、词向量替换模块、深度神经网络训练模块和裁判文书判决结果倾向性生成标签模块;其中:数据清洗装置,利用模糊匹配的方式,识别判决结果中的人名、公司名称谓,并使用相对应的法律用语代替;设定W是所有原告与被告名称的集合,sk是第k个名称wk与判决结果的最长公共子字符串,rk是第k个最长公共子串sk与第k个名称wk的长度比,则W={w1,w2,…,wn}选择集合{rk}中的最大值所对应的身份,“原告”或者“被告”,替换判决结果中的最长公共子串;数据标注装置,用于将数据清洗得到的判决结果进行人工标注,分别为“支持原告”和“不支持原告”;分词模块:将数据标注的判决结果进行分词,作为深度神经网络训练的输入;深度神经网络训练模块,将词向量表示的分词结果作为LSTM网络模型的输入,然后通过多层LSTM的深度神经网络进行倾向性判断,最后生成裁判文书的倾向性结果标签;裁判文书判决结果倾向性生成标签模块,通过显示装置显示出来。进一步地,数据标注模块中,设定如下判定规则,如下判决案例一旦出现,按照判定规则执行倾向性结构标签进行标识:规则一,如果单条判决结果中,部分支持原告,则标注支持原告;规则二,如果撤诉判定为支持原告,则标注其支持原告;规则三,如果驳回被告的反诉请求判定为支持原告,同理,驳回原告的反诉请求为支持被告,则标注支持原告。进一步地,深度神经网络训练模块与裁判文书判决结果倾向性生成标签模块之间增加一层隐藏层对词向量进行特征选择,并且最终输出的倾向性结果标签使用sigmoid激活函数获得。进一步地,使用该文书判决结果倾向性的装置在进行数据标注时,至少三人对其进行标注。与现有技术相比,本专利技术的有益效果是:基于深度学习的文本倾向性分析方法能够从非结构化的文本中提取关键特征,利用模糊匹配方法解决判决结果中的多实体识别的问题,通过基于多层LSTM的深度神经网络进行倾向性判断,将整个过程构建成一个针对判决结果的倾向性分析模型。将该模型在不同案由的裁判文书数据集上都达到很高的准确率。通过该方法,只需输入裁判文书,即可得到判决结果倾向性标签,中间步骤无需人工参与,省时省力。通过该方法,只需输入裁判文书,即可得到判决结果倾向性标签,中间步骤无需人工参与,省时省力。同时对于今后的裁判文书规范化、推荐诉讼律师等工作具有重要的意义。附图说明图1为基于深度学习的文书判决结果倾向性的方法的判断流程图;图2为本专利技术裁判文书的倾向性结果标签的深度神经网络模型;图3为本专利技术裁判文书的在使用深度神经网络训练模块在进行神经网络训练的训练算法。具体实施方式为了加深对本专利技术的理解,下面结合附图和实施例对本专利技术进一步说明,该实施例仅用于解释本专利技术,并不对本专利技术的保护范围构成限定。实施例1如图1所示,基于深度学习的文书判决结果倾向性的方法,包括通过对裁判文书依次进行数据抽取S1、数据清洗S2、数据标注S3、分词S4、生成词向量S5、词向量替换S6、深度神经网络训练S7和深度神经网络模型S8,从而获取裁判文书的倾向性结果标签的步骤;其中:数据抽取,是从裁判文书中抽取出原告、被告、判决结果的关键特征;由于裁判文书半结构化的特点,抽取出关键特征所在的段落比较容易,从段落中抽取出准确的特征则需要根据特征上下文设计不同的正则匹配条件。数据清洗,利用模糊匹配的方式,识别判决结果中的人名、公司名称谓,并使用相对应的法律用语代替;设定W是所有本文档来自技高网
...

【技术保护点】
1.基于深度学习的文书判决结果倾向性的方法,包括通过对裁判文书依次进行数据抽取、数据清洗、数据标注、分词、生成词向量、词向量替换、深度神经网络训练和生成模型,从而获取裁判文书的倾向性结果标签的步骤;其中:数据抽取,是从裁判文书中抽取出原告、被告、判决结果的关键特征;数据清洗,利用模糊匹配的方式,识别判决结果中的人名、公司名称谓,并使用相对应的法律用语代替;设定W是所有原告与被告名称的集合,sk是第k个名称wk与判决结果的最长公共子字符串,rk是第k个最长公共子串sk与第k个名称wk的长度比,则W={w1,w2,…,wn}

【技术特征摘要】
1.基于深度学习的文书判决结果倾向性的方法,包括通过对裁判文书依次进行数据抽取、数据清洗、数据标注、分词、生成词向量、词向量替换、深度神经网络训练和生成模型,从而获取裁判文书的倾向性结果标签的步骤;其中:数据抽取,是从裁判文书中抽取出原告、被告、判决结果的关键特征;数据清洗,利用模糊匹配的方式,识别判决结果中的人名、公司名称谓,并使用相对应的法律用语代替;设定W是所有原告与被告名称的集合,sk是第k个名称wk与判决结果的最长公共子字符串,rk是第k个最长公共子串sk与第k个名称wk的长度比,则W={w1,w2,…,wn}选择集合{rk}中的最大值所对应的身份,“原告”或者“被告”,替换判决结果中的最长公共子串;数据标注,将数据清洗得到的判决结果进行人工标注,分别为“支持原告”和“不支持原告”;分词:将数据标注的判决结果进行分词,作为深度神经网络训练的输入;生成词向量及词向量替换:使用word2vector进行词向量生成;深度神经网络训练和生成模型,将词向量表示的分词结果作为LSTM网络模型的输入,然后通过多层LSTM的深度神经网络进行倾向性判断,最后生成裁判文书的倾向性结果标签。2.根据权利要求1所述的基于深度学习的文书判决结果倾向性的方法,其特征在于:生成词向量和词向量替换完成之后,在深度神经网络训练时,倾向性结果标签输出前的输出节点之前增加一层隐藏层对向量进行特征选择,最终输出的倾向性结果标签使用sigmoid激活函数获得。3.根据权利要求1所述的基于深度学习的文书判决结果倾向性的方法,其特征在于:数据标注步骤中,设定如下判定规则:如果单条判决结果中,部分支持原告,则标注支持原告;如果撤诉判定为支持原告,则标注其支持原告;如果驳回被告的反诉请求判定为支持原告,同理,驳回原告的反诉请求为支持被告,则标注支持原告。4.根据权利要求1或3所述的基于深度学习的文书判决结果倾向性的方法,其特征在于:数据标注由至少三个人进行标注。5.基于深度学习的文书判决结果...

【专利技术属性】
技术研发人员:赵志宏宋梦姣陈松宇王业沛
申请(专利权)人:南京大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1