【技术实现步骤摘要】
一种未知实体词汇的确定方法及装置
本申请涉及自然语言处理
,尤其是涉及一种未知实体词汇的确定方法及装置。
技术介绍
自然语言处理(naturallanguageprocessing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。其中,在自然语言处理技术范畴中,未知实体词汇发现是一种基础的任务,用于判断在一批语料中,哪些字符片段可能属于未知实体词汇。在竞品监控、风险预警等行业中,未知实体词汇发现有着广泛的应用前景,并且对于分词等下游任务精度也起着决定性的作用。但是在现有技术中,往往不能够判断未知词是否为实体词,或是在特定领域上不能够达到目标精度。因此,一种精准确定未知实体词汇成为当前亟待解决的问题。
技术实现思路
有鉴于此,本申请的目的在于提供一种未知实体词汇的确定方法及装置,在发现未知词汇的同时判定未知词汇是否为实体词汇,并在判定未知词汇是否为实体词汇的同时,引入相应领域的专家引导知识,以提高确定未知实体词汇的精准性。第一方面,本申请实施例提供了一种未知实体词汇的确定方法,包括:获取待分析文本,并将所述待分析文本输入至预先训练的实体识别模型,对所述待分析文本中的实体词汇进行识别,以得到候选实体词汇集合;基于与所述待分析文本属于相同领域的多个语料,生成领域词库;所述领域词库中包括出现在各个语料中的多个实体词汇;基于所述候选实体词汇集合及所述领域词库,对所述语料进行分词处理,并基于分词处理的结果,确定多个候选未知实体词汇;其中,任一所述候 ...
【技术保护点】
1.一种未知实体词汇的确定方法,其特征在于,所述未知实体词汇的确定方法,包括:/n获取待分析文本,并将所述待分析文本输入至预先训练的实体识别模型,对所述待分析文本中的实体词汇进行识别,以得到候选实体词汇集合;/n基于与所述待分析文本属于相同领域的多个语料,生成领域词库;所述领域词库中包括出现在各个语料中的多个实体词汇;/n基于所述候选实体词汇集合及所述领域词库,对所述语料进行分词处理,并基于分词处理的结果,确定多个候选未知实体词汇;其中,任一所述候选未知实体词汇,属于所述候选实体词汇集合;/n从多个所述候选未知实体词汇中,确定至少一个目标未知实体词汇。/n
【技术特征摘要】
1.一种未知实体词汇的确定方法,其特征在于,所述未知实体词汇的确定方法,包括:
获取待分析文本,并将所述待分析文本输入至预先训练的实体识别模型,对所述待分析文本中的实体词汇进行识别,以得到候选实体词汇集合;
基于与所述待分析文本属于相同领域的多个语料,生成领域词库;所述领域词库中包括出现在各个语料中的多个实体词汇;
基于所述候选实体词汇集合及所述领域词库,对所述语料进行分词处理,并基于分词处理的结果,确定多个候选未知实体词汇;其中,任一所述候选未知实体词汇,属于所述候选实体词汇集合;
从多个所述候选未知实体词汇中,确定至少一个目标未知实体词汇。
2.根据权利要求1所述的方法,其特征在于,所述基于与所述待分析文本属于相同领域的多个语料,生成领域词库,包括:
对各个所述语料进行实体识别处理,得到每个语料中所包括的实体词汇;
基于各个语料所包括的所述实体词汇,构成所述领域词库。
3.根据权利要求1所述的方法,其特征在于,所述分词处理的结果包括:与每个所述语料分别对应的多个分词词汇;任一所述分词词汇,属于所述候选实体词汇集合、和/或属于所述领域词库;
所述基于分词处理的结果,确定多个候选未知实体词汇,包括:
基于词频逆向文件频率TF-IDF的方法,对出现在各个所述语料种的各个所述分词词汇进行词频统计,得到各个分词词汇在各个所述语料中出现的频率;
基于所述候选实体词汇集合、以及各个分词词汇在各个所述语料中出现的频率,从多个分词词汇中,确定多个所述候选未知实体词汇;
任一所述候选未知实体词汇均属于所述候选实体词汇集合。
4.根据权利要求1所述的方法,其特征在于,所述从多个所述候选未知实体词汇中,确定至少一个目标未知实体词汇,包括:
从多个所述候选未知实体词汇中,随机确定至少一个候选未知实体词汇作为验证词汇;
在所述验证词汇不构成实体词汇的情况下,重新选取样本数据对所述实体识别模型重新进行训练,并返回至将所述待分析文本输入至预先训练的实体识别模型的步骤;
在所述验证词汇为已知词汇的情况下,则将该验证词汇从所述候选实体词汇集合、以及所述领域词库中去除,并返回至基于所述候选实体词汇集合及所述领域词库,对所述语料进行分词处理的步骤;
在所述验证词汇为未知词汇的情况下,完成本轮验证过程,并返回至从多个所述候选未知实体词汇中,随机确定至少一个候选未知实体词汇作为验证词汇的步骤;
经过多轮验证过程,最后一轮得到的所述候选未知实体词汇,作为目标未知实体词汇。
5.一种未知实体词汇的确定装置,其特征在于,包括:
获取模块,用于获取待分析文本,并将所述待分析文本输入至预先训练的实体识别模型,对所述待分析文本中的实体词汇进行识别,以得到候选实体词汇集合;
生成模块,用于基于与所述待分析文本属于相同...
【专利技术属性】
技术研发人员:付骁弈,徐猛,张杰,
申请(专利权)人:北京明略软件系统有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。