一种未知实体词汇的确定方法及装置制造方法及图纸

技术编号:23431948 阅读:29 留言:0更新日期:2020-02-25 13:13
本申请提供了一种未知实体词汇的确定方法及装置,其中,该方法包括:获取待分析文本,并将所述待分析文本输入至预先训练的实体识别模型,对所述待分析文本中的实体词汇进行识别,以得到候选实体词汇集合;基于与所述待分析文本属于相同领域的多个语料,生成领域词库;基于所述候选实体词汇集合及所述领域词库,对所述语料进行分词处理,并基于分词处理的结果,确定多个候选未知实体词汇;从多个所述候选未知实体词汇中,确定至少一个目标未知实体词汇。该未知实体词汇的确定方法可以在发现未知词汇的同时判定未知词汇是否为实体词汇,并在判定未知词汇是否为实体词汇的同时,引入相应领域的专家引导知识,以提高确定未知实体词汇的精准性。

A method and device for determining unknown entity vocabulary

【技术实现步骤摘要】
一种未知实体词汇的确定方法及装置
本申请涉及自然语言处理
,尤其是涉及一种未知实体词汇的确定方法及装置。
技术介绍
自然语言处理(naturallanguageprocessing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。其中,在自然语言处理技术范畴中,未知实体词汇发现是一种基础的任务,用于判断在一批语料中,哪些字符片段可能属于未知实体词汇。在竞品监控、风险预警等行业中,未知实体词汇发现有着广泛的应用前景,并且对于分词等下游任务精度也起着决定性的作用。但是在现有技术中,往往不能够判断未知词是否为实体词,或是在特定领域上不能够达到目标精度。因此,一种精准确定未知实体词汇成为当前亟待解决的问题。
技术实现思路
有鉴于此,本申请的目的在于提供一种未知实体词汇的确定方法及装置,在发现未知词汇的同时判定未知词汇是否为实体词汇,并在判定未知词汇是否为实体词汇的同时,引入相应领域的专家引导知识,以提高确定未知实体词汇的精准性。第一方面,本申请实施例提供了一种未知实体词汇的确定方法,包括:获取待分析文本,并将所述待分析文本输入至预先训练的实体识别模型,对所述待分析文本中的实体词汇进行识别,以得到候选实体词汇集合;基于与所述待分析文本属于相同领域的多个语料,生成领域词库;所述领域词库中包括出现在各个语料中的多个实体词汇;基于所述候选实体词汇集合及所述领域词库,对所述语料进行分词处理,并基于分词处理的结果,确定多个候选未知实体词汇;其中,任一所述候选未知实体词汇,属于所述候选实体词汇集合;从多个所述候选未知实体词汇中,确定至少一个目标未知实体词汇。一种可选实施方式中,所述基于与所述待分析文本属于相同领域的多个语料,生成领域词库,包括:对各个所述语料进行实体识别处理,得到每个语料中所包括的实体词汇;基于各个语料所包括的所述实体词汇,构成所述领域词库。一种可选实施方式中,所述分词处理的结果包括:与每个所述语料分别对应的多个分词词汇;任一所述分词词汇,属于所述候选实体词汇集合、和/或属于所述领域词库;所述基于分词处理的结果,确定多个候选未知实体词汇,包括:基于词频逆向文件频率TF-IDF的方法,对出现在各个所述语料种的各个所述分词词汇进行词频统计,得到各个分词词汇在各个所述语料中出现的频率;基于所述候选实体词汇集合、以及各个分词词汇在各个所述语料中出现的频率,从多个分词词汇中,确定多个所述候选未知实体词汇;任一所述候选未知实体词汇均属于所述候选实体词汇集合。一种可选实施方式中,所述从多个所述候选未知实体词汇中,确定至少一个目标未知实体词汇,包括:从多个所述候选未知实体词汇中,随机确定至少一个候选未知实体词汇作为验证词汇;在所述验证词汇不构成实体词汇的情况下,重新选取样本数据对所述实体识别模型重新进行训练,并返回至将所述待分析文本输入至预先训练的实体识别模型的步骤;在所述验证词汇为已知词汇的情况下,则将该验证词汇从所述候选实体词汇集合、以及所述领域词库中去除,并返回至基于所述候选实体词汇集合及所述领域词库,对所述语料进行分词处理的步骤;在所述验证词汇为未知词汇的情况下,完成本轮验证过程,并返回至从多个所述候选未知实体词汇中,随机确定至少一个候选未知实体词汇作为验证词汇的步骤;经过多轮验证过程,最后一轮得到的所述候选未知实体词汇,作为目标未知实体词汇。第二方面,本申请实施例还提供一种未知实体词汇的确定装置,该未知实体词汇的确定装置包括:获取模块、生成模块、处理模块以及确定模块,其中:获取模块,用于获取待分析文本,并将所述待分析文本输入至预先训练的实体识别模型,对所述待分析文本中的实体词汇进行识别,以得到候选实体词汇集合;生成模块,用于基于与所述待分析文本属于相同领域的多个语料,生成领域词库;所述领域词库中包括出现在各个语料中的多个实体词汇;处理模块,用于基于所述候选实体词汇集合及所述领域词库,对所述语料进行分词处理,并基于分词处理的结果,确定多个候选未知实体词汇;其中,任一所述候选未知实体词汇,属于所述候选实体词汇集合;确定模块,用于从多个所述候选未知实体词汇中,确定至少一个目标未知实体词汇。一种可选实施方式中,所述生成模块,在基于与所述待分析文本属于相同领域的多个语料,生成领域词库时,具体用于:对各个所述语料进行实体识别处理,得到每个语料中所包括的实体词汇;基于各个语料所包括的所述实体词汇,构成所述领域词库。一种可选实施方式中,所述分词处理的结果包括:与每个所述语料分别对应的多个分词词汇;任一所述分词词汇,属于所述候选实体词汇集合、和/或属于所述领域词库;所述确定模块,在基于分词处理的结果,确定多个候选未知实体词汇时,具体用于:基于词频逆向文件频率TF-IDF的方法,对出现在各个所述语料种的各个所述分词词汇进行词频统计,得到各个分词词汇在各个所述语料中出现的频率;基于所述候选实体词汇集合、以及各个分词词汇在各个所述语料中出现的频率,从多个分词词汇中,确定多个所述候选未知实体词汇;任一所述候选未知实体词汇均属于所述候选实体词汇集合。一种可选实施方式中,所述确定模块,在从多个所述候选未知实体词汇中,确定至少一个目标未知实体词汇时,具体用于:从多个所述候选未知实体词汇中,随机确定至少一个候选未知实体词汇作为验证词汇;在所述验证词汇不构成实体词汇的情况下,重新选取样本数据对所述实体识别模型重新进行训练,并返回至将所述待分析文本输入至预先训练的实体识别模型的步骤;在所述验证词汇为已知词汇的情况下,则将该验证词汇从所述候选实体词汇集合、以及所述领域词库中去除,并返回至基于所述候选实体词汇集合及所述领域词库,对所述语料进行分词处理的步骤;在所述验证词汇为未知词汇的情况下,完成本轮验证过程,并返回至从多个所述候选未知实体词汇中,随机确定至少一个候选未知实体词汇作为验证词汇的步骤;经过多轮验证过程,最后一轮得到的所述候选未知实体词汇,作为目标未知实体词汇。第三方面,本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面、或第一方面中任一种可能的实施方式中的步骤。第四方面,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面、或第一方面中任一种可能的实施方式中的步骤。本申请实施例提供的未知实体词汇的确定方法及装置,获取待分析文本,并将所述待分析文本输入至预先训练的实体识别模型,对所述待分析文本中的实体词汇进行识别,以得到候选实体词汇集合;基于与所述待分析文本属于相同领域的多个语料,生成领本文档来自技高网...

【技术保护点】
1.一种未知实体词汇的确定方法,其特征在于,所述未知实体词汇的确定方法,包括:/n获取待分析文本,并将所述待分析文本输入至预先训练的实体识别模型,对所述待分析文本中的实体词汇进行识别,以得到候选实体词汇集合;/n基于与所述待分析文本属于相同领域的多个语料,生成领域词库;所述领域词库中包括出现在各个语料中的多个实体词汇;/n基于所述候选实体词汇集合及所述领域词库,对所述语料进行分词处理,并基于分词处理的结果,确定多个候选未知实体词汇;其中,任一所述候选未知实体词汇,属于所述候选实体词汇集合;/n从多个所述候选未知实体词汇中,确定至少一个目标未知实体词汇。/n

【技术特征摘要】
1.一种未知实体词汇的确定方法,其特征在于,所述未知实体词汇的确定方法,包括:
获取待分析文本,并将所述待分析文本输入至预先训练的实体识别模型,对所述待分析文本中的实体词汇进行识别,以得到候选实体词汇集合;
基于与所述待分析文本属于相同领域的多个语料,生成领域词库;所述领域词库中包括出现在各个语料中的多个实体词汇;
基于所述候选实体词汇集合及所述领域词库,对所述语料进行分词处理,并基于分词处理的结果,确定多个候选未知实体词汇;其中,任一所述候选未知实体词汇,属于所述候选实体词汇集合;
从多个所述候选未知实体词汇中,确定至少一个目标未知实体词汇。


2.根据权利要求1所述的方法,其特征在于,所述基于与所述待分析文本属于相同领域的多个语料,生成领域词库,包括:
对各个所述语料进行实体识别处理,得到每个语料中所包括的实体词汇;
基于各个语料所包括的所述实体词汇,构成所述领域词库。


3.根据权利要求1所述的方法,其特征在于,所述分词处理的结果包括:与每个所述语料分别对应的多个分词词汇;任一所述分词词汇,属于所述候选实体词汇集合、和/或属于所述领域词库;
所述基于分词处理的结果,确定多个候选未知实体词汇,包括:
基于词频逆向文件频率TF-IDF的方法,对出现在各个所述语料种的各个所述分词词汇进行词频统计,得到各个分词词汇在各个所述语料中出现的频率;
基于所述候选实体词汇集合、以及各个分词词汇在各个所述语料中出现的频率,从多个分词词汇中,确定多个所述候选未知实体词汇;
任一所述候选未知实体词汇均属于所述候选实体词汇集合。


4.根据权利要求1所述的方法,其特征在于,所述从多个所述候选未知实体词汇中,确定至少一个目标未知实体词汇,包括:
从多个所述候选未知实体词汇中,随机确定至少一个候选未知实体词汇作为验证词汇;
在所述验证词汇不构成实体词汇的情况下,重新选取样本数据对所述实体识别模型重新进行训练,并返回至将所述待分析文本输入至预先训练的实体识别模型的步骤;
在所述验证词汇为已知词汇的情况下,则将该验证词汇从所述候选实体词汇集合、以及所述领域词库中去除,并返回至基于所述候选实体词汇集合及所述领域词库,对所述语料进行分词处理的步骤;
在所述验证词汇为未知词汇的情况下,完成本轮验证过程,并返回至从多个所述候选未知实体词汇中,随机确定至少一个候选未知实体词汇作为验证词汇的步骤;
经过多轮验证过程,最后一轮得到的所述候选未知实体词汇,作为目标未知实体词汇。


5.一种未知实体词汇的确定装置,其特征在于,包括:
获取模块,用于获取待分析文本,并将所述待分析文本输入至预先训练的实体识别模型,对所述待分析文本中的实体词汇进行识别,以得到候选实体词汇集合;
生成模块,用于基于与所述待分析文本属于相同...

【专利技术属性】
技术研发人员:付骁弈徐猛张杰
申请(专利权)人:北京明略软件系统有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1