基于实体抽取的任职记录生成方法、装置及设备制造方法及图纸

技术编号:32326729 阅读:25 留言:0更新日期:2022-02-16 18:33
本发明专利技术涉及数据处理技术领域,其实施方式提供了一种基于实体抽取的任职记录生成方法、装置及设备。其中基于实体抽取的任职记录生成方法,包括:获取简介文本数据;采用命名实体识别模型对所述简介文本数据进行数据标注,得到所述简介文本数据中的任职公司实体和公司职位实体;其中,所述命名实体识别模型包括双向长短期记忆网络和条件随机场网络,且所述命名实体识别模型采用标注好的训练样本进行训练后得到;将所述任职公司实体和所述公司职位实体进行组合,生成预设格式的任职记录。本发明专利技术提供的实施方式能够提升生成的任职记录的可解释性。解释性。解释性。

【技术实现步骤摘要】
基于实体抽取的任职记录生成方法、装置及设备


[0001]本专利技术涉及数据处理
,具体地涉及一种基于实体抽取的任职记录生成方法、一种基于实体抽取的任职记录生成装置、一种基于实体抽取的任职记录生成方法设备以及对应的存储介质。

技术介绍

[0002]随着深度学习技术的发展,特别是在自然语言处理(NLP)方向的进步,极大的提高了人们在处理文本这种非结构化数据方面的效率。命名实体识别(NER)(也称为实体识别、实体分块和实体提取)是自然语言处理(NLP)中的一个子任务,旨在将文本中的命名实体定位并分类为预先定义的类别,如地名,人员、组织、位置、时间表达式、数量、货币值、百分比等。公司高管的简介中一般会出现该人员的历任公司和历任公司职位,利用深度学习中的命名实体识别技术,对公司名和公司职位进行标注得到数据集来训练模型,训练好的模型可以准确的提取出公司名和公司职位,后续通过结构化的组合,即可得出比较准确的人员任职公司和在公司的相应公司职位。现有的命名实体识别结合关系抽取的技术,可以进行公司名和对应公司职位的抽取,但这种抽取方式获取的结果精度一般,且可解释性很低。

技术实现思路

[0003]本专利技术实施例的目的是提供一种基于实体抽取的任职记录生成方法、装置及设备。
[0004]为了实现上述目的,本专利技术第一方面提供一种基于实体抽取的任职记录生成方法,所述方法包括:
[0005]获取简介文本数据;采用命名实体识别模型对所述简介文本数据进行数据标注,得到所述简介文本数据中的任职公司实体和公司职位实体;其中,所述命名实体识别模型包括双向长短期记忆网络和条件随机场网络,且所述命名实体识别模型采用标注好的训练样本进行训练后得到;将所述任职公司实体和所述公司职位实体进行组合,生成预设格式的任职记录。
[0006]优选的,所述命名实体识别模型中的双向长短期记忆网络采用预训练的语言表征模型网络进行替换。
[0007]优选的,所述命名实体识别模型采用标注好的训练样本进行训练后得到,包括:采集简介文本数据的训练样本;对所述训练样本中的任职公司和公司职位进行标注;将标注后的训练样本转换为所述命名实体识别模型的适配数据格式,并将所述标注后的训练样本分为训练数据集合、验证数据集合和测试数据集合;采用所述训练数据集合对所述命名实体识别模型进行训练,采用所述验证数据集合验证训练后的命名实体识别模型;采用所述测试数据集合评估所述训练后的命名实体识别模型。
[0008]优选的,将所述任职公司实体和所述公司职位实体进行组合,生成预设格式的任职记录,包括:获取所述任职公司实体和所述公司职位实体在所述简介文本数据中的顺序;
按照所述顺序遍历所述任职公司实体和所述公司职位实体,将任职公司实体进行缓存,将公司职位实体与缓存的任职公司实体组合成为预设格式的任职记录;被缓存的任职公司实体在被组合至少一次且下一个任职公司实体进入缓存时从缓存中被清除;所述一个预设格式的任职记录中包括一个任职公司实体和一个公司职位实体。
[0009]优选的,将公司职位实体与缓存的任职公司实体组合成为预设格式的任职记录之前,所述方法还包括:确定缓存中不存在任职公司实体,将所述公司职位实体与空值的任职公司实体组合成为预设格式的任职记录。
[0010]优选的,获取所述任职公司实体和所述公司职位实体在所述简介文本数据中的顺序,包括:根据所述数据标注,将简介文本数据中的任职公司实体和公司职位实体按序存储至队列或者数组中;根据所述任职公司实体和所述公司职位实体在所述队列或者数组中的存储位置确定所述任职公司实体和所述公司职位实体在所述简介文本数据中的顺序。
[0011]优选的,所述生成方法还包括:对任职公司实体为空值的预设格式的任职记录进行标注。
[0012]在本专利技术的第二方面,还提供了一种基于实体抽取的任职记录生成装置,包括:数据获取模块,用于获取简介文本数据;实体抽取模块,用于采用命名实体识别模型对所述简介文本数据进行数据标注,得到所述简介文本数据中的任职公司实体和公司职位实体;其中,所述命名实体识别模型包括双向长短期记忆网络和条件随机场网络,并采用标注好的训练样本进行训练后得到;以及记录生成模块,用于将所述任职公司实体和所述公司职位实体进行组合,生成预设格式的任职记录。
[0013]在本专利技术的第三方面,还提供了一种基于实体抽取的任职记录生成设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现前述的基于实体抽取的任职记录生成方法的步骤。
[0014]在本专利技术的第四方面,还提供了一种计算机可读存储介质,所述存储介质中存储有指令,当其在计算机上运行时,使得计算机执行前述的基于实体抽取的任职记录生成方法。
[0015]本专利技术第五方面提供一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现前述的基于实体抽取的任职记录生成方法。
[0016]上述技术方案具有以下有益效果:本专利技术提供的实施例应用于企业级的数据库中,用这些海量数据训练出来的命名实体识别模型对任职公司和公司职位的抽取有着很高的精度。通过使用实施例中的规则对抽取出的任职公司和公司职位进行就近匹配,保证最终生成的任职记录的可解释性。
[0017]本专利技术实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
[0018]附图是用来提供对本专利技术实施例的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本专利技术实施例,但并不构成对本专利技术实施例的限制。在附图中:
[0019]图1示意性示出了根据本专利技术实施方式的基于实体抽取的任职记录生成方法的实施示意图;
[0020]图2示意性示出了根据本专利技术实施方式的采用训练样本训练命名实体识别模型的实施示意图;
[0021]图3示意性示出了根据本专利技术实施方式的基于实体抽取的任职记录生成装置的结构示意图。
具体实施方式
[0022]以下结合附图对本专利技术实施例的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本专利技术实施例,并不用于限制本专利技术实施例。
[0023]图1示意性示出了根据本专利技术实施方式的基于实体抽取的任职记录生成方法的实施示意图。如图1所示,本实施方式提供一种基于实体抽取的任职记录生成方法,包括:
[0024]S01、获取简介文本数据;
[0025]此处的获取包括但不限于文本数据的直接输入、从数据库中导入和从文件中读入等方式。在数据库中,储存有多个公司名和公司职位名,这些数据均可以成为本步骤中获取简介文本数据的数据源。
[0026]S02、采用命名实体识别模型对所述简介文本数据进行数据标注,得到所述简介文本数据中的任职公司实体和公司职位实体;其中,所述命名实体识别模型包括双向长短期记忆网络和条件随机场网络,并采用标注好的训练样本进行训练后得到;
[0027]采用双向长短期记忆网络和条件随机本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于实体抽取的任职记录生成方法,其特征在于,所述方法包括:获取简介文本数据;采用命名实体识别模型对所述简介文本数据进行数据标注,得到所述简介文本数据中的任职公司实体和公司职位实体;其中,所述命名实体识别模型包括双向长短期记忆网络和条件随机场网络,且所述命名实体识别模型采用标注好的训练样本进行训练后得到;将所述任职公司实体和所述公司职位实体进行组合,生成预设格式的任职记录。2.根据权利要求1所述的方法,其特征在于,所述命名实体识别模型中的双向长短期记忆网络采用预训练的语言表征模型网络进行替换。3.根据权利要求1所述的方法,其特征在于,所述命名实体识别模型采用标注好的训练样本进行训练后得到,包括:采集简介文本数据的训练样本;对所述训练样本中的任职公司和公司职位进行标注;将标注后的训练样本转换为所述命名实体识别模型的适配数据格式,并将所述标注后的训练样本分为训练数据集合、验证数据集合和测试数据集合;采用所述训练数据集合对所述命名实体识别模型进行训练,采用所述验证数据集合验证训练后的命名实体识别模型;采用所述测试数据集合评估所述训练后的命名实体识别模型。4.根据权利要求1所述的方法,其特征在于,将所述任职公司实体和所述公司职位实体进行组合,生成预设格式的任职记录,包括:获取所述任职公司实体和所述公司职位实体在所述简介文本数据中的顺序;按照所述顺序遍历所述任职公司实体和所述公司职位实体,将任职公司实体进行缓存,将公司职位实体与缓存的任职公司实体组合成为预设格式的任职记录;被缓存的任职公司实体在被组合至少一次且下一个任职公司实体进入缓存时从缓存中被清除;所述一个预设格式的任职记录中包括一个任职公司实体和一个公司职位实体。5.根据权利要求4所述的方法,其特征在...

【专利技术属性】
技术研发人员:于又任
申请(专利权)人:盐城金堤科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1