一种领域新词识别方法和装置制造方法及图纸

技术编号:35696441 阅读:36 留言:0更新日期:2022-11-23 14:47
本发明专利技术实施例提供了一种领域新词识别方法和装置,可用于人工智能技术领域,所述方法包括:获取领域内的原始语料库;通过语言模型,对原始语料库进行候选词筛选,得到候选词表,候选词表包括多个候选新词;按照单字点互信息,对候选新词进行筛选,得到领域新词集,能够降低识别新词的局限性,综合评估词内部凝聚度,提高新词的识别准确率和召回率。提高新词的识别准确率和召回率。提高新词的识别准确率和召回率。

【技术实现步骤摘要】
一种领域新词识别方法和装置


[0001]本专利技术涉及计算机
,特别涉及人工智能
,尤其涉及一种领域新词识别方法和装置。

技术介绍

[0002]当代社会政治、经济、文化迅速发展,语言的发展离不开环境的影响,较为明显的表现是新词的大量涌现,新词本身就反映社会新热点。目前,通常通过基于统计和规则相结合方法提取新词,传统基于统计和规则相结合提取新词方法存在识别新词有局限性、忽视词内部凝聚度的问题,导致新词的识别准确率和召回率较低。

技术实现思路

[0003]本专利技术的一个目的在于提供一种领域新词识别方法,能够降低识别新词的局限性,综合评估词内部凝聚度,提高新词的识别准确率和召回率。本专利技术的另一个目的在于提供一种领域新词识别装置。本专利技术的再一个目的在于提供一种计算机可读介质。本专利技术的还一个目的在于提供一种计算机设备。
[0004]为了达到以上目的,本专利技术一方面公开了一种领域新词识别方法,包括:
[0005]获取领域内的原始语料库;
[0006]通过语言模型,对原始语料库进行候选词筛选,得到候选词表,候选词表包括多个候选新词;
[0007]按照单字点互信息,对候选新词进行筛选,得到领域新词集。
[0008]优选的,在通过语言模型,对原始语料库进行候选词筛选,得到候选词表,候选词表包括多个候选新词之前,还包括:
[0009]对原始语料库进行清洗预处理,得到清洗后的原始语料库;
[0010]对清洗后的原始语料库进行粗切分,得到粗切分后的原始语料库。
[0011]优选的,语言模型包括滑动窗口,原始语料库包括多个原始语句;
[0012]通过语言模型,对原始语料库进行候选词筛选,得到候选词表,候选词表包括多个候选新词,包括:
[0013]按照滑动窗口的尺寸对原始语句进行滑动切分,得到多个语句片段;
[0014]通过设置的背景词典,从多个语句片段中过滤掉背景词典中存在的语句片段,得到多个新语句片段;
[0015]统计每个新语句片段的词频;
[0016]筛选出词频大于设置的频率阈值的新语句片段,得到多个候选新词;
[0017]根据多个候选新词,生成候选词表。
[0018]优选的,按照单字点互信息,对候选新词进行筛选,得到领域新词集,包括:
[0019]通过点互信息算法,对候选新词进行计算,得到每个候选新词的单字点互信息;
[0020]若单字点互信息大于设置的点互信息阈值,将候选新词确定为领域新词;
[0021]根据多个领域新词,生成领域新词集。
[0022]优选的,在按照单字点互信息,对候选新词进行筛选,得到领域新词集之后,还包括:
[0023]通过邻接熵算法,对领域新词进行扩展,得到候选扩展词表,候选扩展词表包括多个候选扩展词;
[0024]按照多字点互信息,对候选扩展词进行筛选,得到领域扩展新词。
[0025]优选的,通过邻接熵算法,对领域新词进行扩展,得到候选扩展词表,候选扩展词表包括多个候选扩展词,包括:
[0026]判断当前的领域新词是否存在左邻接词;
[0027]若是,判断当前的领域新词和左邻接词的总字数是否小于设置的字数阈值;
[0028]若是,通过左邻接熵算法,对当前的领域新词进行计算,得到当前的领域新词的左邻接熵;
[0029]若左邻接熵小于或等于设置的第一邻接熵阈值,将当前的领域新词和领域新词的左邻接词确定为扩展后当前的领域新词,继续执行判断当前的领域新词是否存在左邻接词的步骤;
[0030]若左邻接熵大于第一邻接熵阈值,将当前的领域新词确定为候选扩展词。
[0031]优选的,通过邻接熵算法,对领域新词进行扩展,得到候选扩展词表,候选扩展词表包括多个候选扩展词,包括:
[0032]判断当前的领域新词是否存在右邻接词;
[0033]若是,判断当前的领域新词和右邻接词的总字数是否小于设置的字数阈值;
[0034]若是,通过右邻接熵算法,对当前的领域新词进行计算,得到当前的领域新词的右邻接熵;
[0035]若右邻接熵小于或等于设置的第二邻接熵阈值,将当前的领域新词和领域新词的右邻接词确定为扩展后当前的领域新词,继续执行判断当前的领域新词是否存在右邻接词的步骤;
[0036]若右邻接熵大于第二邻接熵阈值,将当前的领域新词确定为候选扩展词。
[0037]优选的,按照多字点互信息,对候选扩展词进行筛选,得到领域扩展新词,包括:
[0038]通过多字点互信息算法,对候选扩展词进行计算,得到每个候选扩展词的多字点互信息;
[0039]若多字点互信息位于设置的点互信息阈值区间内,将候选扩展词确定为领域扩展新词;
[0040]根据领域扩展新词和领域新词集,生成全量新词集。
[0041]本专利技术还公开了一种领域新词识别装置,包括:
[0042]获取单元,用于获取领域内的原始语料库;
[0043]第一筛选单元,用于通过语言模型,对原始语料库进行候选词筛选,得到候选词表,候选词表包括多个候选新词;
[0044]第二筛选单元,用于按照单字点互信息,对候选新词进行筛选,得到领域新词集。
[0045]本专利技术还公开了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述方法。
[0046]本专利技术还公开了一种计算机设备,包括存储器和处理器,所述存储器用于存储包括程序指令的信息,所述处理器用于控制程序指令的执行,所述处理器执行所述程序时实现如上所述方法。
[0047]本专利技术还公开了一种计算机程序产品,包括计算机程序/指令,计算机程序/指令被处理器执行时实现如上所述方法。
[0048]本专利技术获取领域内的原始语料库;通过语言模型,对原始语料库进行候选词筛选,得到候选词表,候选词表包括多个候选新词;按照单字点互信息,对候选新词进行筛选,得到领域新词集,能够降低识别新词的局限性,综合评估词内部凝聚度,提高新词的识别准确率和召回率。
附图说明
[0049]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0050]图1为本专利技术实施例提供的一种领域新词识别方法的流程图;
[0051]图2为本专利技术实施例提供的又一种领域新词识别方法的流程图;
[0052]图3为本专利技术实施例提供的一种领域新词识别装置的结构示意图;
[0053]图4为本专利技术实施例提供的一种计算机设备的结构示意图。
具体实施方式
[0054]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种领域新词识别方法,其特征在于,所述方法包括:获取领域内的原始语料库;通过语言模型,对所述原始语料库进行候选词筛选,得到候选词表,所述候选词表包括多个候选新词;按照单字点互信息,对所述候选新词进行筛选,得到领域新词集。2.根据权利要求1所述的领域新词识别方法,其特征在于,在所述通过语言模型,对所述原始语料库进行候选词筛选,得到候选词表,所述候选词表包括多个候选新词之前,还包括:对所述原始语料库进行清洗预处理,得到清洗后的原始语料库;对所述清洗后的原始语料库进行粗切分,得到粗切分后的原始语料库。3.根据权利要求1所述的领域新词识别方法,其特征在于,所述语言模型包括滑动窗口,所述原始语料库包括多个原始语句;所述通过语言模型,对所述原始语料库进行候选词筛选,得到候选词表,所述候选词表包括多个候选新词,包括:按照所述滑动窗口的尺寸对所述原始语句进行滑动切分,得到多个语句片段;通过设置的背景词典,从多个语句片段中过滤掉所述背景词典中存在的语句片段,得到多个新语句片段;统计每个新语句片段的词频;筛选出所述词频大于设置的频率阈值的新语句片段,得到多个候选新词;根据所述多个候选新词,生成候选词表。4.根据权利要求1所述的领域新词识别方法,其特征在于,所述按照单字点互信息,对所述候选新词进行筛选,得到领域新词集,包括:通过点互信息算法,对所述候选新词进行计算,得到每个候选新词的单字点互信息;若所述单字点互信息大于设置的点互信息阈值,将所述候选新词确定为领域新词;根据多个领域新词,生成领域新词集。5.根据权利要求1所述的领域新词识别方法,其特征在于,在所述按照单字点互信息,对所述候选新词进行筛选,得到领域新词集之后,还包括:通过邻接熵算法,对所述领域新词进行扩展,得到候选扩展词表,所述候选扩展词表包括多个候选扩展词;按照多字点互信息,对所述候选扩展词进行筛选,得到领域扩展新词。6.根据权利要求5所述的领域新词识别方法,其特征在于,所述通过邻接熵算法,对所述领域新词进行扩展,得到候选扩展词表,所述候选扩展词表包括多个候选扩展词,包括:判断当前的领域新词是否存在左邻接词;若是,判断所述当前的领域新词和所述左邻接词的总字数是否小于设置的字数阈值;若是,通过左邻接熵算法,对所述当前的领域新词进行计算,得到当前的领域新词的左邻接熵;若所述左...

【专利技术属性】
技术研发人员:刘永芳侯岩李仙峰
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1