The present invention relates to natural language processing technology and provides a training method for named entity recognition model. The method includes: obtaining unlabeled corpus data from corpus; pre-annotating the corpus data based on category lexicon; modifying the pre-annotation results to obtain training text; and training the named entity recognition model based on the training text. The above steps are repeated until the accuracy of the named entity recognition model reaches the preset threshold. The training method provided in the embodiment of the present invention makes the recognition result of the named entity recognition model more accurate and meets the actual needs. In addition, the invention also provides a training system of named entity recognition model.
【技术实现步骤摘要】
一种命名实体识别模型的训练方法、系统及电子设备
本专利技术涉及自然语言处理技术,尤其是关于一种命名实体识别模型的训练方法、系统及电子设备。
技术介绍
命名实体(namedentity)是指人名、机构名、地名以及其他所有以名称为标识的实体。在自然语言处理技术中,分词的标注也会包含命名实体标注。具体而言,自然语言处理的过程中,很多时候需要有监督学习才能得到想要的结果,例如信息抽取。在信息抽取时,首先需要做命名实体识别,在不同领域,需要提取的实体往往差别很大,而即使是在同一个领域,如果目的或者意图不一样,实体的识别模板也会有所差别。然而,现有技术中,命名实体标注基本依靠人工进行处理,而实体标注需基于大量的语料数据分析得出,往往会耗费非常多的人力物力;更近一步的,在一个具体的应用场景下,由于应用领域不同、分析目的不同其需要标注的命名实体也会不一样,从而无法实现对语料的精准标注。
技术实现思路
为了解决上述问题,本专利技术提供了一种命名实体识别模型的训练方法,所述方法包含:从语料库中获取未标注的语料数据;基于类别词库对所述语料数据进行预标注;修正所述预标注结果,得到训练文本;基于所述训练文本对所述命名实体识别模型进行训练,并重复上述步骤,直到所述命名实体识别模型的准确率达到预设阈值。在一实施方式中,所述类别词库的生成方法包含:收集应用领域中的命名实体;从所述命名实体中提取关键词,加入所述应用领域的语料词库;基于预设算法学习得到所述关键词的语义特征;对所述语料库中的语料数据进行分词,并基于所述预设算法学习得到各所述分词的语义特征;基于所述关键词的语义特征、所述分词的语义特 ...
【技术保护点】
1.一种命名实体识别模型的训练方法,其特征在于,所述方法包含:从语料库中获取未标注的语料数据;基于类别词库对所述语料数据进行预标注;修正所述预标注结果,得到训练文本;基于所述训练文本对所述命名实体识别模型进行训练,并重复上述步骤,直到所述命名实体识别模型的准确率达到预设阈值。
【技术特征摘要】
1.一种命名实体识别模型的训练方法,其特征在于,所述方法包含:从语料库中获取未标注的语料数据;基于类别词库对所述语料数据进行预标注;修正所述预标注结果,得到训练文本;基于所述训练文本对所述命名实体识别模型进行训练,并重复上述步骤,直到所述命名实体识别模型的准确率达到预设阈值。2.如权利要求1所述的训练方法,其特征在于,所述类别词库的生成方法包含:收集应用领域中的命名实体;从所述命名实体中提取关键词,加入所述应用领域的语料词库;基于预设算法学习得到所述关键词的语义特征;对所述语料库中的语料数据进行分词,并基于所述预设算法学习得到各所述分词的语义特征;基于所述关键词的语义特征、所述分词的语义特征进行相似度匹配,确定与所述关键词最接近的预设数量个所述分词,加入所述类别词库。3.如权利要求2所述的训练方法,其特征在于,在所述加入所述类别词库前更包含人工对所述预设数量个所述分词进行确认,确认通过后,加入所述类别词库。4.如权利要求2所述的训练方法,其特征在于,在所述收集应用领域中的命名实体后,对所述命名实体进行类别划分,在将所述分词加入所述类别词库时,同时对所述分词的所属类别进行标注。5.如权...
【专利技术属性】
技术研发人员:邹辉,肖龙源,蔡振华,李稀敏,刘晓葳,谭玉坤,
申请(专利权)人:厦门快商通信息技术有限公司,
类型:发明
国别省市:福建,35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。