The present invention discloses a method and device of document judgment result orientation based on deep learning. The method of text orientation analysis can extract key features from unstructured text, solve the problem of multi-entity recognition in judgment result by using the method of fuzzy matching, make orientation judgment through the depth neural network based on multi-layer LSTM, and construct the whole process as a target. Tendency analysis model of decision results. The model achieves high accuracy on the data sets of different cases. By this method, only the judgment document is input, and the tendency label of the judgment result can be obtained. The intermediate step does not need manual participation and saves time and effort.
【技术实现步骤摘要】
基于深度学习的文书判决结果倾向性的方法及装置
本专利技术涉及基于深度学习的文本倾向性分析方法
,特别是涉及裁判文书的判决结果倾向性。
技术介绍
目前,解决短文本倾向性分析的常用手段为基于字典规则的方法和基于机器学习的方法是。基于字典规则的方法通常需要先构建情感词典,再根据测试文本中的情感词在词典中的先验情感进行整条文本的情感计算,不同类型或主题的语料上难以移植和泛化,同时过度依赖于专家的领域知识。基于机器学习的方法是将情感分析转化成模式分类的问题,建立分类模型,对情感极性作出预测。在建立模型时,需要事先标注好数据,依赖于大量的人工标注。同时,文书的判决结果倾向性与一般文本倾向性有所不同,判决结果本身是被包含在裁判文书这样半结构的文本中,无法直接获得,同时由于判决结果的对象实体对倾向性结果有决定性作用,而判决结果中往往使用的是人名等称谓,而非统一的法律实体,因此需要准确地识别出判决的多重实体并进行清洗。中国专利申请CN201510866865.0,一种自动判定裁判文书判决结果的方法及装置,涉及自然语言处理领域,为解决人工提取判决结果效率低的问题而专利技术。本专利技术的方法包括:在裁判文书中遍历预设的标识一和标识二,所述标识一为判决如下、裁定如下或其变体,所述标识二为受理费或其变体;截取标识一与标识二中间的判决段落,所述判决段落包括判决结果;在所述判决段落中,在所述标识一之后的预设字符范围内查找败诉关键词,所述败诉关键词包括驳回、不准或其变体;若查找到所述败诉关键词,则确定所述判决结果为败诉。该专利技术主要应用于对中文裁判文书的判决结果进行自动判定的过程 ...
【技术保护点】
1.基于深度学习的文书判决结果倾向性的方法,包括通过对裁判文书依次进行数据抽取、数据清洗、数据标注、分词、生成词向量、词向量替换、深度神经网络训练和生成模型,从而获取裁判文书的倾向性结果标签的步骤;其中:数据抽取,是从裁判文书中抽取出原告、被告、判决结果的关键特征;数据清洗,利用模糊匹配的方式,识别判决结果中的人名、公司名称谓,并使用相对应的法律用语代替;设定W是所有原告与被告名称的集合,sk是第k个名称wk与判决结果的最长公共子字符串,rk是第k个最长公共子串sk与第k个名称wk的长度比,则W={w1,w2,…,wn}
【技术特征摘要】
1.基于深度学习的文书判决结果倾向性的方法,包括通过对裁判文书依次进行数据抽取、数据清洗、数据标注、分词、生成词向量、词向量替换、深度神经网络训练和生成模型,从而获取裁判文书的倾向性结果标签的步骤;其中:数据抽取,是从裁判文书中抽取出原告、被告、判决结果的关键特征;数据清洗,利用模糊匹配的方式,识别判决结果中的人名、公司名称谓,并使用相对应的法律用语代替;设定W是所有原告与被告名称的集合,sk是第k个名称wk与判决结果的最长公共子字符串,rk是第k个最长公共子串sk与第k个名称wk的长度比,则W={w1,w2,…,wn}选择集合{rk}中的最大值所对应的身份,“原告”或者“被告”,替换判决结果中的最长公共子串;数据标注,将数据清洗得到的判决结果进行人工标注,分别为“支持原告”和“不支持原告”;分词:将数据标注的判决结果进行分词,作为深度神经网络训练的输入;生成词向量及词向量替换:使用word2vector进行词向量生成;深度神经网络训练和生成模型,将词向量表示的分词结果作为LSTM网络模型的输入,然后通过多层LSTM的深度神经网络进行倾向性判断,最后生成裁判文书的倾向性结果标签。2.根据权利要求1所述的基于深度学习的文书判决结果倾向性的方法,其特征在于:生成词向量和词向量替换完成之后,在深度神经网络训练时,倾向性结果标签输出前的输出节点之前增加一层隐藏层对向量进行特征选择,最终输出的倾向性结果标签使用sigmoid激活函数获得。3.根据权利要求1所述的基于深度学习的文书判决结果倾向性的方法,其特征在于:数据标注步骤中,设定如下判定规则:如果单条判决结果中,部分支持原告,则标注支持原告;如果撤诉判定为支持原告,则标注其支持原告;如果驳回被告的反诉请求判定为支持原告,同理,驳回原告的反诉请求为支持被告,则标注支持原告。4.根据权利要求1或3所述的基于深度学习的文书判决结果倾向性的方法,其特征在于:数据标注由至少三个人进行标注。5.基于深度学习的文书判决结果...
【专利技术属性】
技术研发人员:赵志宏,宋梦姣,陈松宇,王业沛,
申请(专利权)人:南京大学,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。