一种判别法律文书公正性的方面级情感分析方法技术

技术编号:38648202 阅读:17 留言:0更新日期:2023-09-02 22:38
本发明专利技术公开了一种判别法律文书公正性的方面级情感分析方法,属于自然语言处理领域中的情感分析技术,包括以下步骤:步骤1:对数据进行预处理,主要包括对数据进行采集和分词;步骤2:采用TF

【技术实现步骤摘要】
一种判别法律文书公正性的方面级情感分析方法


[0001]本专利技术涉及自然语言处理领域,具体是一种判别法律文书公正性的方面级情感分析方法。

技术介绍

[0002]针对法律文书进行公正性分析是一项重要的法律研究任务,其目的在于评估法律文书中所表述的内容是否具有公正性。这种分析可以帮助法律从业者、司法机构和研究者了解法律文书中的法律逻辑、司法实践,以及评估司法决策是否符合法律规定和公正原则。因此,公正性分析成为了法律研究的重要方向之一,也成为了法律从业者和司法机构的必要技能之一。
[0003]公正性分析通常涉及到对法律文书中的语言表达、证据证明、逻辑推理和法律精神等多个方面进行综合评估。例如,分析法律文书中的用词是否客观准确、是否带有主观上的情感偏向;证据是否充分;逻辑是否严密以及法律精神是否得到了恰当的体现等。
[0004]目前,自然语言处理技术在法律文书中的应用场景主要包括事件检测、类案检索、信息抽取、罪名预测等,这些技术在法律文书上的应用,可以更好的帮助人们提高司法工作的效率。但是,上述研究及后来的相关研究均没有提出如何对法律文书进行情感分析,以此来提高对于法律文书公正性判断的准确率。本专利技术提出一种细粒度情感分析方法,即一种面向法律文书的方面级情感分析方法。目的在于提高法律文书是否具有主观色彩、偏见或歧视的识别准确率,为判别法律文书公正性提供技术支持。

技术实现思路

[0005]本专利技术的目的在于提供一种判别法律文书公正性的方面级情感分析方法,通过有效地将全局特征和局部特征进行融合,更加准确地对法律文书的公正性进行评估,最终判别司法人员在法律文书的写作中是否带有主观情感倾向的表达。
[0006]本专利技术为了实现专利技术目的采用如下技术方案:
[0007]一种判别法律文书公正性的方面级情感分析方法,包括以下步骤:
[0008](1)采集法律文书并对文本数据进行预处理;
[0009](2)获取方面实体和方面信息的特征词;
[0010](3)将分词结果和法律文书语言特征词转化为向量表示并进行拼接;
[0011](4)获取方面实体与方面信息的相关特征,进行方面级情感分析。
[0012]其中,所述步骤(1)中采集法律文书并对文本数据进行预处理的具体操作为:
[0013](1.1)从"中国检察网"网站爬取大量法律文书数据,并进行人工筛选。
[0014](1.2)利用Jieba工具进行中文分词。
[0015]其中,在步骤(2)中所述获取方面实体和方面信息的特征词,并进行处理的具体步骤是:
[0016](2.1)采用TF

IDF方法获取方面实体和方面信息的特征词。
[0017](2.2)对获取到的特征词进行加权处理,即将特征词的TF

IDF值进行归一化。
[0018]其中,在步骤(3)中所述将分词结果和法律文书语言特征词转化为向量表示并进行拼接包括以下步骤:
[0019](3.1)采用Word2Vec将分词结果和法律文书语言特征词转化为词向量。
[0020](3.2)将步骤(3.1)的结果进行拼接。
[0021]将分词结果和语言特征词汇的词向量维度都设置为200,然后利用Word2Vec模型对这些词汇进行训练,最终得到的词向量矩阵的每一行就是一个200维的词向量,然后将这两个词向量拼接,得到一个400维的词向量。
[0022]在步骤(4)中,获取方面实体与方面信息的相关特征,进行方面级情感分析的具体操作如下:
[0023](4.1)构建Bi

LSTM

CRF模型
[0024]使用双向LSTM网络作为特征提取器,将词向量作为输入,提取文本数据中的特征信息,并使用CRF层来进行标签预测。这样可以保证标签的连续性和一致性。
[0025](4.2)构建注意力机制
[0026]在Bi

LSTM

CRF模型中引入注意力机制,通过学习权重系数来对词向量进行加权,强调文本数据中的重要信息,同时减弱噪声和冗余信息的影响。
[0027](4.3)情感分类
[0028]经过加权的Bi

LSTM

CRF模型的输出被输入到softmax函数中进行分类,以完成情感分析的任务。Softmax激活函数公式如下:
[0029]输入到SoftMax函数中计算出每种极性对应的概率,SoftMax激活函数公式如下:
[0030][0031]其中,x
i
为第i个节点的输出值,J为输出结点的个数,即分类的类别个数,在本方法中为2种类别。
[0032]本专利技术提供的一种判别法律文书公正性的方面级情感分析方法具有以下优点:
[0033](1)本专利技术通过深入挖掘法律文书特有的语言特征,提高了判别法律文书公正性的准确率。由于法律文书属于正式文本,表述方式相对保守,使用了大量专业术语和法律用语,对法律文书特有的语言特征进行有效挖掘,可以更准确的对法律进行细粒度分析。
[0034](2)本专利技术通过Bi

LSTM

CRF模型和注意力机制深入挖掘了法律文书的语义特征。由于法律文书往往包含较长的文本序列,Bi

LSTM

CRF模型可以帮助有效地处理这些长序列,加入注意力机制可以帮助模型更好地关注法律文书中的重要信息,提高模型的效率和准确性。
附图说明
[0035]图1为本专利技术提供的一种判别法律文书公正性的方面级情感分析方法框架图;
[0036]图2为本专利技术提供的法律文书语言特征词汇图;
[0037]图3为本专利技术提供的一个带有主观色彩用语的法律文书示例图;
[0038]图4为本专利技术提供的一个不带有主观色彩用语的法律文书示例图。
具体实施方式
[0039]以下通过具体实施例,对本专利技术做进一步解释说明。
[0040]实施例一:本专利技术提供了一种判别法律文书公正性的方面级情感分析方法,如图1所示。具体步骤如下。
[0041]S1、数据预处理包括以下步骤:
[0042]S1.1、采集相关法律文书
[0043]通过人工收集的方式在社交平台以及“12309中国检查网”法律文书公开中收集法律文书。
[0044]为了平衡数据集,通过人工筛选的方式筛选出600份具有主观色彩、偏见或歧视等描述用语的法律文书与600条不具有主观色彩、偏见或歧视等描述用语的法律文书作为数据集。
[0045]S1.1、分词
[0046]使用Jieba工具对每个句子进行分词,得到分词结果序列如公式2所示。
[0047][w1,w2,...,wL](2)
[0048]S2、使用TF

IDF方法获取法律文书中具有代表性的语言特征词包括以下本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种判别法律文书公正性的方面级情感分析方法,其特征在于包括如下步骤:步骤1:采集法律文书并对文本数据进行预处理;步骤2:获取法律文书中方面实体和方面信息的语言特征词;步骤3:将分词结果和法律文书的语言特征词转化为向量表示并进行拼接;步骤4:获取方面实体与方面信息的相关特征,进行方面级情感分析。2.根据权利要求1所述一种判别法律文书公正性的方面级情感分析方法,其特征在于步骤1包括:通过人工收集的方式在社交平台以及“12309中国检查网”法律文书公开中收集法律文书。为了平衡数据集,通过人工筛选的方式筛选出600份具有主观色彩、偏见或歧视等描述用语的法律文书与600条不具有主观色彩、偏见或歧视等描述用语的法律文书作为数据集。3.根据权利要求1所述一种判别法律文书公正性的方面级情感分析方法,其特征在于步骤2包括:通过TF

IDF方法获取法律文书中具有代表性的语言特征词。(3.1)收集法律文书并进行预处理,预处理包括分词和对特殊符号进行标记。(3.2)确定文本数据中的方面实体和方面信息并对其进行标注。(3.3)将方面实体和方面信息作为关键词,将文本数据转化为文档集合,并进行TF

IDF值的计算。其中,在计算TF

IDF时,将标记的特殊符号作为一个单独的特征词计入,从而更好地反映出文本中的特殊符号对情感分析的影响。具体地,设一个单词在文档中出现的次数为tf_{i,j}(即单词i在文档j中出现的次数),则该单词在文档j中的TF值计算过程如下:(3.4)选取TF

IDF值较高的关键词作为法律文书中具有代表性的语言特征词,以便在情感分析中进行特征提取和情感分类。(3.5)针对人工收集的2000条法律文书数据集,通过TF

IDF的计算,选取3个词语搭配作为方面实体语言特征的搭配规则,选取3个特殊词汇作为方面实体的词汇特征,选取10个词汇作为情感特征词。4.根据权利要求1所述一种判别法律文书公正性的方面级情感分析方法,其特征在于步骤3包括:(4.1)将分词结果和法律文书中具有代表性的语言特征词转换为词向量。(4.2)将步骤(4.1)的结果进行拼接。将分词结果和语言特征词汇的词向量维度都设置为200,然后利用Word2Vec模型对这些词汇进行训练,最终得到的词向量矩阵的每一行就是一个200维的词向量,然后将这两个词向量拼接,得到一个400维的词向量。拼接后的词向量表示如下所示:V=Concatenate(C1
i
,C2
i
)(2)。5.根据权利要求1所述一种判别法律文书公正...

【专利技术属性】
技术研发人员:朱广丽谈光璞马子晨
申请(专利权)人:安徽理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1