一种身份识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号:36218222 阅读:12 留言:0更新日期:2023-01-04 12:15
本发明专利技术公开一种身份识别方法、装置、电子设备及存储介质,方法包括:获取若干个裁判文书;对获取的若干个裁判文书进行预处理后,对预处理后的若干个裁判文书进行标注,以得到若干个标注有当事人身份的训练裁判文书;以所述若干个标注有当事人身份的训练裁判文书为训练集,采用改进后的基于条件随机场的双短时记忆网络对所述训练集进行训练,得到身份识别模型;获取待识别裁判文书,将所述待识别裁判文书进行预处理后输入至所述身份识别模型中,以得到身份识别结果。本发明专利技术解决了现有技术中识别裁判文书中的当事人困难的技术问题。别裁判文书中的当事人困难的技术问题。别裁判文书中的当事人困难的技术问题。

【技术实现步骤摘要】
一种身份识别方法、装置、电子设备及存储介质


[0001]本专利技术涉及金融科技
,具体涉及一种身份识别方法、装置、电子设备及存储介质。

技术介绍

[0002]在贷前审批中原告和被告信息是判断申请人涉诉重要的主体依据,从裁判文书中识别原告和被告信息变得尤为重要,现阶段裁判文书中原告和被告信息大量缺失,或是只标识“当事人”字样,这个给审批带来很多困难。
[0003]从2014年起,在最高人民法院地推动下,各级法院在裁判文书网上传裁判文书数量迅速飙升,截至2020年11月,裁判文书网上的文书总量已经超过1亿份,判决书总量查过3700万份。海量的裁判书提高了法律文本自动化处理的要求,识别判决书文本中的当事人原告被告身份等信息能加快用户对无规则文本内容的理解以及关键内容的把握,也是法律智能检索,案件预测和咨询服务、文件审阅服务等重要步骤。
[0004]当事人身份实体识别是主要用到命名实体识别技术,该技术作为自然语言处理的一项基础性工作。目前针对当事人原告被告身份识别有多种方法:
[0005](1)人工构建规则,采用正则表达式抽取实体,这样可以保证准去率,但是需要大量的人工创建所有可能的规则,且对不同类型文本需要定制设计抽取模板,缺点在于通用性不强,需要对具体领域的文本具体分析,非常依赖人工构建的规则的能力。
[0006](2)使用统计学习方法抽取实体,无需人工构建规则,但是需要依赖人工设计特征,并尝试不同的特征组合,对于不同的类型的文本需有针地重新训练模型,在中文预料少且范围很局限的背景下,重新标注预料训练模型的人工开销大,费时费力。且法律领域作为专业壁垒较强的特定领域,研究人员没有相关背景难以找到有用特征,法律文本标注语料少,不同类型文书结构和表达又有一定的差异。除此之外中文文本中没有明显的词边界符标识词边界,命名实体构成复杂,有简单实体,也有符合实体,如机构名“嘉定区人民检察院”中包含地名“嘉定区”;实体名称存在简化现象,如机构名“上海A不锈钢有限公司”简称为“A公司”;实体长度范围较大,如机构名“平安银行”长度为4,而“聊城市公安局交通巡逻警察支队开发区大队”长度为19。另外,中文实体识别可用的已标注语料少且范围局限,大多是新闻等正规书面化语料,缺少特殊领域、口语化标注语料,识别模型的通用性不是很强。对于非人名、地名等通用实体的具体领域特有的实体,通常需要有针对性地重新训练模型。上述这些问题都给命名实体识别带来了难度。

技术实现思路

[0007]本专利技术的目的在于克服上述技术不足,提供一种可用于金融科技或其它相关
的身份识别方法、装置、电子设备及存储介质,解决现有技术中识别裁判文书中的当事人困难的技术问题。
[0008]为达到上述技术目的,本专利技术采取了以下技术方案:
[0009]第一方面,本专利技术提供一种身份识别方法,包括如下步骤:
[0010]获取若干个裁判文书;
[0011]对获取的若干个裁判文书进行预处理后,对预处理后的若干个裁判文书进行标注,以得到若干个标注有当事人身份的训练裁判文书;
[0012]以所述若干个标注有当事人身份的训练裁判文书为训练集,采用改进后的基于条件随机场的双短时记忆网络对所述训练集进行训练,得到身份识别模型;
[0013]获取待识别裁判文书,将所述待识别裁判文书进行预处理后输入至所述身份识别模型中,以得到身份识别结果。
[0014]在一些实施例中,所述对获取的若干个裁判文书进行预处理后,对预处理后的若干个裁判文书进行标注,以得到若干个标注有当事人身份的训练裁判文书,包括:
[0015]对获取的若干个裁判文书进行数据清洗;
[0016]将数据清洗后的若干个裁判文书进行分词处理;
[0017]对若干个分词处理后的裁判文书进行标注,以得到若干个标注有当事人身份的训练裁判文书。
[0018]在一些实施例中,调用预先设定的文本标注工具对若干个分词处理后的裁判文书进行标注。
[0019]在一些实施例中,所述改进后的基于条件随机场的双短时记忆网络包括依次连接的输入层、嵌入层、拼接层、双短时记忆网络层以及条件随机场层,其中,所述嵌入层包括词向量嵌入层和字符向量嵌入层。
[0020]在一些实施例中,所述采用改进后的基于条件随机场的双短时记忆网络对所述训练集进行训练,得到身份识别模型,包括:
[0021]将所述训练裁判文书输入至所述输入层,得到词向量和字符向量;
[0022]将所述词向量和字符向量分别输入词向量嵌入层和字符向量嵌入层,以得到整数向量形式的词向量以及向量化生维的字符向量;
[0023]将所述整数向量形式的词向量以及向量化生维的字符向量输入至所述拼接层,以得到拼接后的输入数据;
[0024]将所述输入数据输入至双短时记忆网络层,以对所述输入数据进行学习;
[0025]将所述学习后的输入数据输入至条件随机场层,结合所述输入数据以及所述训练裁判文书,得到条件概率模型,根据所述条件概率模型得到身份识别模型。
[0026]在一些实施例中,所述词向量嵌入层采用动态词向量模型对所述词向量进行处理,以得到整数向量形式的词向量。
[0027]在一些实施例中,所述获取待识别裁判文书,将所述待识别裁判文书进行预处理后输入至所述身份识别模型中,以得到身份识别结果,包括:
[0028]获取待识别裁判文书,并依次对所述待识别裁判文书进行数据清洗以及分词处理后,将所述处理后的待识别裁判文书输入至所述身份识别模型中,以得到身份识别结果。
[0029]第二方面,本专利技术还提供一种身份识别装置,包括:
[0030]获取模块,用于获取若干个裁判文书;
[0031]预处理模块,用于对获取的若干个裁判文书进行预处理后,对预处理后的若干个裁判文书进行标注,以得到若干个标注有当事人身份的训练裁判文书;
[0032]训练模块,用于以所述若干个标注有当事人身份的训练裁判文书为训练集,采用改进后的基于条件随机场的双短时记忆网络对所述训练集进行训练,得到身份识别模型;
[0033]识别模块,用于获取待识别裁判文书,将所述待识别裁判文书进行预处理后输入至所述身份识别模型中,以得到身份识别结果。
[0034]第三方面,本专利技术还提供一种电子设备,包括:处理器和存储器;
[0035]所述存储器上存储有可被所述处理器执行的计算机程序;
[0036]所述处理器执行所述计算机程序时实现如上所述的身份识别方法中的步骤。
[0037]第四方面,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上所述的身份识别方法中的步骤。
[0038]与现有技术相比,本专利技术提供的身份识别方法、装置、电子设备及存储介质,首先获取若干个裁判文书,然后对获取的若干个裁判文书进行预处理后,对预处理后的若干个裁判文书进行标注,以得到若干个标注有当本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种身份识别方法,其特征在于,包括如下步骤:获取若干个裁判文书;对获取的若干个裁判文书进行预处理后,对预处理后的若干个裁判文书进行标注,以得到若干个标注有当事人身份的训练裁判文书;以所述若干个标注有当事人身份的训练裁判文书为训练集,采用改进后的基于条件随机场的双短时记忆网络对所述训练集进行训练,得到身份识别模型;获取待识别裁判文书,将所述待识别裁判文书进行预处理后输入至所述身份识别模型中,以得到身份识别结果。2.根据权利要求1所述的身份识别方法,其特征在于,所述对获取的若干个裁判文书进行预处理后,对预处理后的若干个裁判文书进行标注,以得到若干个标注有当事人身份的训练裁判文书,包括:对获取的若干个裁判文书进行数据清洗;将数据清洗后的若干个裁判文书进行分词处理;对若干个分词处理后的裁判文书进行标注,以得到若干个标注有当事人身份的训练裁判文书。3.根据权利要求2所述的身份识别方法,其特征在于,调用预先设定的文本标注工具对若干个分词处理后的裁判文书进行标注。4.根据权利要求1所述的身份识别方法,其特征在于,所述改进后的基于条件随机场的双短时记忆网络包括依次连接的输入层、嵌入层、拼接层、双短时记忆网络层以及条件随机场层,其中,所述嵌入层包括词向量嵌入层和字符向量嵌入层。5.根据权利要求4所述的身份识别方法,其特征在于,所述采用改进后的基于条件随机场的双短时记忆网络对所述训练集进行训练,得到身份识别模型,包括:将所述训练裁判文书输入至所述输入层,得到词向量和字符向量;将所述词向量和字符向量分别输入词向量嵌入层和字符向量嵌入层,以得到整数向量形式的词向量以及向量化生维的字符向量;将所述整数向量形式的词向量以及向量化生维的字符向量输入至所述拼接层,以得到拼接后的输入数据;将所述输入数据输入至双短时记忆网络层,以对所...

【专利技术属性】
技术研发人员:刘春伟
申请(专利权)人:平安银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1