一种命名实体识别模型的训练方法、系统及电子设备技术方案

技术编号:20075327 阅读:32 留言:0更新日期:2019-01-15 00:42
本发明专利技术涉及自然语言处理技术,提供了一种命名实体识别模型的训练方法,所述方法包含:从语料库中获取未标注的语料数据;基于类别词库对所述语料数据进行预标注;修正所述预标注结果,得到训练文本;基于所述训练文本对所述命名实体识别模型进行训练,并重复上述步骤,直到所述命名实体识别模型的准确率达到预设阈值。基于本发明专利技术实施例所提供的训练方法,使得命名实体识别模型的识别结果更加准确,并满足实际需求。此外,本发明专利技术还提供一种命名实体识别模型的训练系统。

A Training Method, System and Electronic Equipment for Named Entity Recognition Model

The present invention relates to natural language processing technology and provides a training method for named entity recognition model. The method includes: obtaining unlabeled corpus data from corpus; pre-annotating the corpus data based on category lexicon; modifying the pre-annotation results to obtain training text; and training the named entity recognition model based on the training text. The above steps are repeated until the accuracy of the named entity recognition model reaches the preset threshold. The training method provided in the embodiment of the present invention makes the recognition result of the named entity recognition model more accurate and meets the actual needs. In addition, the invention also provides a training system of named entity recognition model.

【技术实现步骤摘要】
一种命名实体识别模型的训练方法、系统及电子设备
本专利技术涉及自然语言处理技术,尤其是关于一种命名实体识别模型的训练方法、系统及电子设备。
技术介绍
命名实体(namedentity)是指人名、机构名、地名以及其他所有以名称为标识的实体。在自然语言处理技术中,分词的标注也会包含命名实体标注。具体而言,自然语言处理的过程中,很多时候需要有监督学习才能得到想要的结果,例如信息抽取。在信息抽取时,首先需要做命名实体识别,在不同领域,需要提取的实体往往差别很大,而即使是在同一个领域,如果目的或者意图不一样,实体的识别模板也会有所差别。然而,现有技术中,命名实体标注基本依靠人工进行处理,而实体标注需基于大量的语料数据分析得出,往往会耗费非常多的人力物力;更近一步的,在一个具体的应用场景下,由于应用领域不同、分析目的不同其需要标注的命名实体也会不一样,从而无法实现对语料的精准标注。
技术实现思路
为了解决上述问题,本专利技术提供了一种命名实体识别模型的训练方法,所述方法包含:从语料库中获取未标注的语料数据;基于类别词库对所述语料数据进行预标注;修正所述预标注结果,得到训练文本;基于所述训练文本对所述命名实体识别模型进行训练,并重复上述步骤,直到所述命名实体识别模型的准确率达到预设阈值。在一实施方式中,所述类别词库的生成方法包含:收集应用领域中的命名实体;从所述命名实体中提取关键词,加入所述应用领域的语料词库;基于预设算法学习得到所述关键词的语义特征;对所述语料库中的语料数据进行分词,并基于所述预设算法学习得到各所述分词的语义特征;基于所述关键词的语义特征、所述分词的语义特征进行相似度匹配,确定与所述关键词最接近的预设数量个所述分词,加入所述类别词库。较于现有技术而言,本专利技术实施例所提供的命名实体识别模型的训练方法是基于实际应用领域的类别词库进行训练,其训练结果更贴近实际的应用需求,且准确性更高,并且无需通过人工对命名实体进行单个收集,而只需进行结果确认,从而节省人力。在一实施方式中,在所述加入所述类别词库前更包含人工对所述预设数量个所述分词进行确认,确认通过后,加入所述类别词库。在一实施方式中,在所述收集应用领域中的命名实体后,对所述命名实体进行类别划分,在将所述分词加入所述类别词库时,同时对所述分词的所属类别进行标注。在一实施方式中,所述修正所述预标注结果,得到训练文本具体包含:基于预设修正规则及人工确认对所述预标注结果进行修改、补漏。在一实施方式中,所述命名实体识别模型基于LSTM算法及CRF算法实现。此外,本专利技术实施例还提供一种命名实体模型训练系统,包含服务器及用户操作界面,所述用户操作界面用于接收用户输入的系统初始配置信息、数据修正结果,并发送至服务器;所述服务器用于接收所述用户操作界面发送的系统初始配置信息、数据修正结果,执行上述的命名实体识别模型的训练方法,并输出训练结果至所述用户操作界面;所述用户操作界面接收并显示所述训练结果。本专利技术实施例所提供的命名实体识别模型的训练系统,操作简单、人工介入少,可提升处理速率和准确性。本专利技术还提供一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至6中任一所述的命名实体模型的训练方法。本专利技术另提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述命名实体识别模型的训练方法。附图说明一个或多个实施方式通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施方式的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。图1绘示本专利技术一较佳实施例所提供的命名实体识别模型训练方法流程图;图2绘示图1所示实施例中类别词库的生成方法流程图;图3绘示本专利技术一实施例所提供的命名实体识别训练系统结构示意图。具体实施方式为使本专利技术实施方式的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本专利技术各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。请参照图1,图1绘示本专利技术一较佳实施例所提供的命名实体识别模型训练方法流程图。在本实施例中,命名实体识别模型可基于LSTM算法及CRF算法实现。如图1所示,本实施例所提供的命名实体训练方法包含步骤:步骤101,从语料库中获取未标注的语料数据。一般来说,语料库中的原始语料数据是基于特定的应用领域来进行收集的,例如社交网络应用、金融客服系统、旅游信息服务等。例如,可从维基百科的中文离线数据库,提取目标页面信息,并保存在文本中;或者人工编写爬虫程序,从目标网站上获取文本信息,也可以是直接从系统服务器数据库获取,本专利技术并不作限制。在收集到原始语料之后,考虑到爬取到初始语料中存在一些重复、无效的噪音,例如网页标签、无效字符等,可以通过过滤、去噪音等操作进行去噪,以保证语料数据的质量。在语料库的具体应用中,还需对语料数据进行预处理,所述预处理可包含分词、词性标注、命名实体识别等,本实例所提供的命名实体识别模型即用于对语料数据进行命名实体识别。步骤102,基于类别词库对所述语料数据进行预标注。具体而言,可基于BIO实体标注方法对语料数据中的命名实体进行预标注。在本实施例中,在对语料数据进行预标注时,是基于类别词库来确定具体的命名实体名称的,也就是说预标注的具体内容是来源于类别词库。具体而言,本实施例所提供的类别词库并非现有技术中所使用的通用词库,而是基于实际的应用领域进行收集、分析、处理获得。请参照图2,图2绘示图1所示实施例中类别词库的生成方法流程图。如图2所示,所述类别词库的生成方法具体包含步骤:步骤201,收集应用领域中的命名实体。其中,命名实体可从应用领域的文本数据中进行分词抽取及人工修正得到和或从应用领域对应的专业名词库中抽取获得。以应用领域为医疗美容为例,命名实体的收集可基于医疗、美容等相关领域的专业网站、服务系统及专业词库中获得。由于命名实体是基于实际的应用领域进行收集的,则在后续的应用中,更能符合对应应用领域的语料分析需求。更进一步的,在本专利技术所提供的实施例中,还可以对收集得到的命名实体进行类别划分。以医疗美容行业为例,实体类别可包含地址、姓名、指标数值、手机号、身体部位名称、美容项目名称、疾病名称、症状等;“我叫小明,我想割双眼皮”句子中包含了“姓名”和“整容项目”两个实体类别,其中,“小明”属于姓名类别,“割双眼皮”属于整容项目类别。而在后续的分词标注中,可增加对应的实体类别,从而使得在后续的分析应用中,可针对用户所关注的某些类别进行数据提取。步骤202,从所述命名实体中提取关键词,加入所述应用领域的语料词库。具体而言,可基于新词发现算法(hmm)获取暂未收录的关键词,并加入语料词库中。步骤203,基于预设算法学习得到所述关键词的语义特征。在实施中,可使用word2vec算法学习语料词库中每个关键词的语义特征。步骤2本文档来自技高网...

【技术保护点】
1.一种命名实体识别模型的训练方法,其特征在于,所述方法包含:从语料库中获取未标注的语料数据;基于类别词库对所述语料数据进行预标注;修正所述预标注结果,得到训练文本;基于所述训练文本对所述命名实体识别模型进行训练,并重复上述步骤,直到所述命名实体识别模型的准确率达到预设阈值。

【技术特征摘要】
1.一种命名实体识别模型的训练方法,其特征在于,所述方法包含:从语料库中获取未标注的语料数据;基于类别词库对所述语料数据进行预标注;修正所述预标注结果,得到训练文本;基于所述训练文本对所述命名实体识别模型进行训练,并重复上述步骤,直到所述命名实体识别模型的准确率达到预设阈值。2.如权利要求1所述的训练方法,其特征在于,所述类别词库的生成方法包含:收集应用领域中的命名实体;从所述命名实体中提取关键词,加入所述应用领域的语料词库;基于预设算法学习得到所述关键词的语义特征;对所述语料库中的语料数据进行分词,并基于所述预设算法学习得到各所述分词的语义特征;基于所述关键词的语义特征、所述分词的语义特征进行相似度匹配,确定与所述关键词最接近的预设数量个所述分词,加入所述类别词库。3.如权利要求2所述的训练方法,其特征在于,在所述加入所述类别词库前更包含人工对所述预设数量个所述分词进行确认,确认通过后,加入所述类别词库。4.如权利要求2所述的训练方法,其特征在于,在所述收集应用领域中的命名实体后,对所述命名实体进行类别划分,在将所述分词加入所述类别词库时,同时对所述分词的所属类别进行标注。5.如权...

【专利技术属性】
技术研发人员:邹辉肖龙源蔡振华李稀敏刘晓葳谭玉坤
申请(专利权)人:厦门快商通信息技术有限公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1