一种基于司法文本的涉案财物计算方法技术

技术编号:29402777 阅读:47 留言:0更新日期:2021-07-23 22:40
一种基于司法文本的涉案财物计算方法,其具体步骤包括:S1,获取需要计算涉案财物的待求解司法文本,进行预处理,预处理包括分词处理、词性标注、动词操作类别标注;S2,对预处理后的待求解司法文本进行编码,包括:构建司法文本的实体图G=(N,A),实体图由节点列表N和节点的邻接矩阵A组成,节点包括词语、词语类别,邻接矩阵为词语和词语类别的归属关系矩阵;计算待求解司法文本的向量表示;S3,对编码后的待求解司法文本进行解码,包括:构建解码器的表达式树,其中数值为叶子节点,运算符为非叶子节点,得到基于树结构的解码器的预测模型;将待求解司法文本的向量表示输入预测模型,生成待求解司法文本的涉案财物的计算表达式。

【技术实现步骤摘要】
一种基于司法文本的涉案财物计算方法
本专利技术属于自然语言处理领域,具体涉及一种基于司法文本的涉案财物计算方法。
技术介绍
随着大规模数据的出现,计算资源和算法的支持,同时各行各业也需要各个维度经营投资等决策。特别是在司法领域方面,不管是审判文书、调解协议书、还是日常市民报警诉求记录中,都记载相关涉案财物的得与失以及诉讼请求,例如在审判文书中记载着不同费用项的原告诉请金额、判决金额以及相关财物的损害等数据信息,这些数据信息在自动断案、案件预判、律师画像、律师胜诉率分析以及判决倾向性分析等方面起着重要的作用。然而,大多数记录在库的这些司法文本数据都为非结构化数据,导致司法人员无法在短时间内得到大批量案件涉案财物、金额信息,毫无疑问,对以后司法工作及司法决策都是一个很大的障碍。目前,对于司法文本涉案财物数据都是基于人工工程和规则进行提取的,这无疑增加了大量的人力和时间投入。当然也有些专利进行相关的研究,例如专利号CN201510867476.X公开了一种裁判文书的金额解析方法及装置,主要实现裁判文书的金额提取;专利号CN201811237399.X公开了一种基于文档嵌入的长文本案件罚金范围分类预测方法。关于司法文本涉案财物求解过程中,其中题目语义理解是比较难得,其中涉及到司法领域的知识,有些属性是隐藏在文本中。同时将语义理解转化为数学表达式,进行自动计算也是重中之难。
技术实现思路
针对上述
技术介绍
介绍中存在的问题,本专利技术的目的在于提供了一种得到准确率较高的词性标注、提高语义理解性、增加预测的准确性的基于司法文本的涉案财物计算方法。本专利技术采用的技术方案是:一种基于司法文本的涉案财物计算方法,其具体步骤包括:S1,获取需要计算涉案财物的待求解司法文本,进行预处理,所述预处理包括分词处理、词性标注、动词操作类别标注;S2,对预处理后的待求解司法文本进行编码,包括:构建司法文本的实体图G=(N,A),实体图由节点列表N和节点的邻接矩阵A组成,节点包括词语、词语类别,邻接矩阵为词语和词语类别的归属关系矩阵;计算待求解司法文本的向量表示;S3,对编码后的待求解司法文本进行解码,包括:构建解码器的表达式树,其中数值为叶子节点,运算符为非叶子节点,得到基于树结构的解码器的预测模型;将待求解司法文本的向量表示输入基于树结构的解码器的预测模型,生成待求解司法文本的涉案财物的计算表达式。进一步,步骤S1词性标注的具体步骤如下:S1.2.1,用词性标注器M1,进行初步词性标注,其中词性标注器M1采用监督学习模型在词性标注训练集的基础上进行优化获得;S1.2.2,用词性修正规则集S,修正词性,其中词性修正规则集S获得方法:用词性标注器M1获得词性初步标注,根据词性初步标注和真实标注进行修正规则设置。进一步,步骤S1.2.2词性修正规则集S获得方法:1)用词性标注器M1,进行词性初步标注;词性标注器M1的获取方法:采用如CNN、LSTM、或RNN监督学习模型作为词性标注器基础模型,词性标注训练集Data_M1,包括词语及词语真实词性,提取词语及词语真实词性的向量表示,输入基础模型进行训练,采用梯度下降方法对基础模型进行优化,当基础模型输出的预测词性与真实词性之间的差距满足基础模型训练要求时,该基础模型作为词性标注器M1;2)用词性修正规则集S,修正词性;词性修正规则集S的获取方法:词性修正训练集Data_S1、Data_S2、…、Data_Sn,Data_S1包括词语X_S1及词语真实词性Y_S1,提取词语及词语对应的词性的向量表示,(1)词性修正训练集Data_S1的词语X_S1输入词性标注器M1,获得词性初步标注M1(X_S1),比对词性初步标注M1(X_S1)和词语真实词性Y_S1,输出与词语真实词性Y_S1不相同的词性初步标注M1(X_S10),X_S10表示词性初步标注与真实词性不同的词语;(2)基于词性初步标注与真实词性不同的词语X_S10和词语真实词性Y_S10,人工编写修正规则f1、f2、…、fn,作为词性修正规则预备集S0;(3)词性修正训练集Data_S2的词语X_S2输入词性标注器M1,获得词性初步标注M1(X_S2),利用词性修正规则集S修正词性,获得修正词性(M1(X_S2),S),根据贝叶斯公式P(Xc|Yc)=P(xc1|yc1)*P(xc2|yc2,yc1)...P(xci|yci,yci-1,...,yc1)和一阶HMM独立性假设,可得到P(Xc|Yc)=P(xc1|yc1)*P(xc2|yc2),...,P(xci|yci)为计算修正词性的正确率为所有词性类别正确率的乘积,又根据即对应公式为P(X_S2|Y_S2)为词语X_S2和其对应真实词性Y_S2的正确率,为与词语真实词性Y_S2相同的该词性的词语个数除以真实词性Y_S2中该词性的总个数。如果修正词性的正确率满足修正阈值条件,则该词性修正规则预备集S0作为修正词性规则集S;否则,输出与词语真实词性Y_S2不相同的修正词性标注(M1(X_S20),S),M1(X_S20)表示修正词性标注与真实词性不同的词语;(4)基于词性修正标注与真实词性不同的词语X_S20和词语真实词性Y_S20,人工编写修正规则fn+1、fn+2、…、,加入词性修正规则预备集S0,作为新的词性修正规则预备集S0;以此重复(3)、(4)步骤,获得修正词性规则集S。进一步,步骤S1中的动词操作类别标注过程:以逗号或句号切分待求解司法文本,作为分句,筛选含数字和动词类别词性的分句,用动词操作类别分类器M2进行动词操作类别分类标注;其中,动词操作类别分类包括:①评论类:问题文本中某个的初始化状态,出现在数学问题文本第一句;②积极类:说明实体参数更新了动作,并且为增加了数量;③消极类:说明实体参数更新了动作,并且为减少了数量;④正迁移类:说明第二个实体参数将数量转移到第一个实体参数中;⑤负迁移类:说明第一个实体参数将数量转移到第二个实体参数中;⑥构成类:说明两个实体参数的数量都在增加;⑦消失类:说明两个实体参数的数量都在减少。进一步,步骤S2的具体步骤如下:S2.1,计算节点列表中每个节点的初始向量表示,初始向量表示为中文语料环境下文字转化为数字的向量表示,包括:字符嵌入向量表示、单词嵌入向量表示、上下文嵌入向量表示、标签嵌入向量表示及其组合;S2.2,计算节点列表中每个节点的图向量表示,图向量表示为初始向量表示经实体图学习后的向量表示;S2.3,根据数值、运算符在待求解司法文本的位置,提取数值、运算符的初始向量表示、图向量表示。进一步,步骤S2.1中初始向量表示的计算方法,包括以下方法:1)对文字x进行onehot编码x_onehot,分别乘以字符嵌入E1_embedding、词嵌入矩阵E2_embedding、词性标签嵌入矩阵E3_embe本文档来自技高网...

【技术保护点】
1.一种基于司法文本的涉案财物计算方法,其具体步骤包括:/nS1,获取需要计算涉案财物的待求解司法文本,进行预处理,所述预处理包括分词处理、词性标注、动词操作类别标注;/nS2,对预处理后的待求解司法文本进行编码,包括:构建司法文本的实体图G=(N,A),实体图由节点列表N和节点的邻接矩阵A组成,节点包括词语、词语类别,邻接矩阵为词语和词语类别的归属关系矩阵;计算待求解司法文本的向量表示;/nS3,对编码后的待求解司法文本进行解码,包括:构建解码器的表达式树,其中数值为叶子节点,运算符为非叶子节点,得到基于树结构的解码器的预测模型;将待求解司法文本的向量表示输入基于树结构的解码器的预测模型,生成待求解司法文本的涉案财物的计算表达式。/n

【技术特征摘要】
1.一种基于司法文本的涉案财物计算方法,其具体步骤包括:
S1,获取需要计算涉案财物的待求解司法文本,进行预处理,所述预处理包括分词处理、词性标注、动词操作类别标注;
S2,对预处理后的待求解司法文本进行编码,包括:构建司法文本的实体图G=(N,A),实体图由节点列表N和节点的邻接矩阵A组成,节点包括词语、词语类别,邻接矩阵为词语和词语类别的归属关系矩阵;计算待求解司法文本的向量表示;
S3,对编码后的待求解司法文本进行解码,包括:构建解码器的表达式树,其中数值为叶子节点,运算符为非叶子节点,得到基于树结构的解码器的预测模型;将待求解司法文本的向量表示输入基于树结构的解码器的预测模型,生成待求解司法文本的涉案财物的计算表达式。


2.根据权利要求1所述的一种基于司法文本的涉案财物计算方法,其特征在于:步骤S1词性标注的具体步骤如下:
S1.2.1,用词性标注器M1,进行初步词性标注,其中词性标注器M1采用监督学习模型在词性标注训练集的基础上进行优化获得;
S1.2.2,用词性修正规则集S,修正词性,其中词性修正规则集S获得方法:用词性标注器M1获得词性初步标注,根据词性初步标注和真实标注进行修正规则设置。


3.根据权利要求2所述的一种基于司法文本的涉案财物计算方法,其特征在于:步骤S1.2.2词性修正规则集S获得方法:
1)用词性标注器M1,进行词性初步标注;
词性标注器M1的获取方法:采用如CNN、LSTM、或RNN监督学习模型作为词性标注器基础模型,词性标注训练集Data_M1,包括词语及词语真实词性,提取词语及词语真实词性的向量表示,输入基础模型进行训练,采用梯度下降方法对基础模型进行优化,当基础模型输出的预测词性与真实词性之间的差距满足基础模型训练要求时,该基础模型作为词性标注器M1;
2)用词性修正规则集S,修正词性;
词性修正规则集S的获取方法:词性修正训练集Data_S1、Data_S2、…、Data_Sn,Data_S1包括词语X_S1及词语真实词性Y_S1,提取词语及词语对应的词性的向量表示,
(1)词性修正训练集Data_S1的词语X_S1输入词性标注器M1,获得词性初步标注M1(X_S1),比对词性初步标注M1(X_S1)和词语真实词性Y_S1,输出与词语真实词性Y_S1不相同的词性初步标注M1(X_S10),X_S10表示词性初步标注与真实词性不同的词语;
(2)基于词性初步标注与真实词性不同的词语X_S10和词语真实词性Y_S10,人工编写修正规则f1、f2、…、fn,作为词性修正规则预备集S0;
(3)词性修正训练集Data_S2的词语X_S2输入词性标注器M1,获得词性初步标注M1(X_S2),利用词性修正规则集S修正词性,获得修正词性(M1(X_S2),S),根据贝叶斯公式P(Xc|Yc)=P(xc1|yc1)*P(xc2|yc2,yc1)...P(xci|yci,yci-1,...,yc1)和一阶HMM独立性假设,可得到P(Xc|Yc)=P(xc1|yc1)*P(xc2|yc2),...,P(xci|yci)为计算修正词性的正确率为所有词性类别正确率的乘积,又根据
即对应公式为P(X_S2|Y_S2)为词语X_S2和其对应真实词性Y_S2的正确率,为与词语真实词性Y_S2相同的该词性的词语个数除以真实词性Y_S2中该词性的总个数。如果修正词性的正确率满足修正阈值条件,则该词性修正规则预备集S0作为修正词性规则集S;否则,输出与词语真实词性Y_S2不相同的修正词性标注(M1(X_S20),S),M1(X_S20)表示修正词性标注与真实词性不同的词语;
(4)基于词性修正标注与真实词性不同的词语X_S20和词语真实词性Y_S20,人工编写修正规则fn+1、fn+2、…、,加入词性修正规则预备集S0,作为新的词性修正规则预备集S0;
以此重复(3)、(4)步骤,获得修正词性规则集S。


4.根据权利要求1所述的一种基于司法文本的涉案财物计算方法,其特征在于:步骤S1中的动词操作类别标注过程:以逗号或句号切分待求解司法文本,作为分句,筛选含数字和动词类别词性的分句,用动词操作类别分类器M2进行动词操作类别分类标注;其中,
动词操作类别分类包括:
①评论类:问题文本中某个的初始化状态,出现在数学问题文本第一句;
②积极类:说明实体参数更新了动作,并且为增加了数量;
③消极类:说明实体参数更新了动作,并且为减少了数量;
④正迁移类:说明第二个实体参数将数量转移到第一个实体参数中;
⑤负迁移类:说明第一个实体参数将数量转移到第二个实体参数中;
⑥构成类:说明两个实体参数的数量都在增加;
⑦消失类:说明两个实体参数的数量都在减少。


5.根据权利要求1所述的一种基于司法文本的涉案财物计算方法,其特征在于:步骤S2的具体步骤如下:
S2.1,计算节点列表中每个节点的初始向量表示,初始向量表示为中文语料环境下文字转化为数字的向量表示,包括:字符嵌入向量表示、单词嵌入向量表示、上下文嵌入向量表示、标签嵌入向量表示及其组合;
S2.2,计算节点列表中每个节点的图向量表示,图向量表示为初始向量表示经实体图学习后的向量表示;
S2.3,根据数值、运算符在待求解司法文本的位置,提取数值、运算符的初始向量表示、图向量表示。


6.根据权利要求5所述的一种基于司法文本的涉案财物计算方法,其特征在于:步骤S2.1中初始向量表示的计算方法,包括以下方法:
1)对文字x进行onehot编码x_onehot,分别乘以字符嵌入E1_embedding、词嵌入矩阵E2_embedding、词性标签嵌入矩阵E3_embedding,获得文字x的词性标签嵌入向量表示、单词嵌入向量表示、字符嵌入向量表示;
2)采用BILSTM神经网络、RNN神经网络、或LSTM神经网络构建词性标签嵌入向量表示提取模型、单词嵌入向量表示提取模型、字符嵌入向量表示提取模型,文字x输入模型,输出文字x对应的词性标签嵌入向量表示、单词嵌入向量表示、字符嵌入向量表示。


7.根据权利要求5所述的一种基于司法文本的涉案财物计算方法,其特征在于:步骤S2.2的具体步骤如下:
1)短语类别构建,结合司法领域的知识库,将几个短语与属同一类别的词语相结合,得到类别c;
2)节点列表的生成,从待求解司法文本得到n个词语、m个类别构成一个实体图,其节点列表用N={h1,h2,...,hn,c1,c2,...,cm}表示,有n+m个节点;
3)短语类别的向量表示,在实体图中,类别c初始化表示方法采用与其相邻意义词语向量平均值,实体图中节点列表初始向量其中为词语向量表示,为类别向量表示;
4)利用图嵌入学习模型,学习一个函...

【专利技术属性】
技术研发人员:张云云王腾丁锴王开红李建元陈涛
申请(专利权)人:银江股份有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1