一种未登录词的判断方法、系统、电子设备及介质技术方案

技术编号:30331780 阅读:28 留言:0更新日期:2021-10-10 00:41
本申请公开了一种未登录词的判断方法、系统、电子设备及介质,未登录词的判断方法包括:字集合获取步骤:将出现在候选词左右的字总结成左邻字集合与右邻字集合;信息熵计算步骤:计算所述候选词的左邻字信息熵与右邻字信息熵;候选词自由运用程度获取步骤:从所述左邻字信息熵与所述右邻字信息熵中选取信息熵值小的信息熵作为所述候选词的自由运用程度值;未登录词判断步骤:设置所述候选词的自由运用程度预设阈值,当所述自由运用程度值大于所述自由运用程度预设阈值时,判断结果为所述候选词是未登录词。本发明专利技术通过信息熵来衡量候选词的自由运用程度,识别未登录词准确度更高、更有逻辑性。有逻辑性。有逻辑性。

【技术实现步骤摘要】
一种未登录词的判断方法、系统、电子设备及介质


[0001]本申请涉及数据能力
,尤其涉及一种未登录词的判断方法、系统、电子设备及介质。

技术介绍

[0002]在人民日益增长物质文化需求的背景下,词语丰富度的发展也是异常迅速,每年都会有大量的新词语出现,这类新词语统称为未登录词。因为在自然语言处理领域,进行文本处理的时,通常会有一个词库,该词库或者是提前加载的,或者是自己定义的,或者是从当前数据集中提取的,而未在词库中出现但又必须要切分出来的词就称为未登录词。未登录词主要包括各类专有名词(人名、地名、企业名等)、缩写词、新增词汇等等。这些新生词汇的产生是文化丰富发展的必然趋势。但这些新生词汇却给分词造成了很大的困扰,因为词库中并没有记录这些新词。为了日后更加准确的分词,使用未登录词对词库进行更新是一件很重要的事,因此如何识别一个词是否为未登录词,成为了业界的一个难题。

技术实现思路

[0003]本申请实施例提供了一种未登录词的判断方法、系统、电子设备及介质,以至少通过本专利技术解决了识别未登录词的过程中未登录词的识别准确率低以及逻辑性低等问题。
[0004]本专利技术提供了未登录词的判断方法,包括:
[0005]字集合获取步骤:将出现在候选词左右的字总结成左邻字集合与右邻字集合;
[0006]信息熵计算步骤:计算所述候选词的左邻字信息熵与右邻字信息熵;
[0007]候选词自由运用程度获取步骤:从所述左邻字信息熵与所述右邻字信息熵中选取信息熵值小的信息熵作为所述候选词的自由运用程度值;
[0008]未登录词判断步骤:设置所述候选词的自由运用程度预设阈值,当所述自由运用程度值大于所述自由运用程度预设阈值时,判断结果为所述候选词是未登录词。
[0009]上述的未登录词的判断方法中,所述字集合获取步骤步骤包括,根据所述候选词,将出现在所述候选词左右的所述字总结成所述左邻字集合与所述右邻字集合。
[0010]上述的未登录词的判断方法中,所述信息熵计算步骤包括,根据信息熵计算公式计算所述左邻字集合与所述右邻字集合的信息熵,获得所述候选词的所述左邻字信息熵与所述右邻字信息熵。
[0011]上述的未登录词的判断方法中,所述未登录词判断步骤包括,设置所述候选词的所述自由运用程度预设阈值后,对所述自由运用程度值与所述自由运用程度预设阈值进行比较,当所述自由运用程度值大于所述自由运用程度预设阈值时,所述判断结果为所述候选词是所述未登录词。
[0012]本专利技术还提供未登录词的判断系统,其中,适用于上述所述的未登录词的判断方法,所述未登录词的判断系统包括:
[0013]字集合获取单元:将出现在候选词左右的字总结成左邻字集合与右邻字集合;
[0014]信息熵计算单元:计算所述候选词的左邻字信息熵与右邻字信息熵;
[0015]候选词自由运用程度获取单元:从所述左邻字信息熵与所述右邻字信息熵中选取信息熵值小的信息熵作为所述候选词的自由运用程度值;
[0016]未登录词判断单元:设置所述候选词的自由运用程度预设阈值,当所述自由运用程度值大于所述自由运用程度预设阈值时,判断结果为所述候选词是未登录词。
[0017]上述的未登录词的判断系统中,根据所述候选词将出现在所述候选词左右的所述字总结成所述左邻字集合与所述右邻字集合,并通过所述字集合获取单元获取所述左邻字集合与所述右邻字集合。
[0018]上述的未登录词的判断系统中,根据信息熵计算公式计算所述左邻字集合与所述右邻字集合的信息熵后,通过所述信息熵计算单元获得所述候选词的所述左邻字信息熵与所述右邻字信息熵。
[0019]上述的未登录词的判断系统中,设置所述候选词的所述自由运用程度预设阈值后,对所述自由运用程度值与所述自由运用程度预设阈值进行比较,当所述自由运用程度值大于所述自由运用程度预设阈值时,所述未登录词判断单元输出所述判断结果为所述候选词是所述未登录词。
[0020]本专利技术还提供一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述任一项所述的未登录词的判断方法。
[0021]本专利技术还提供一种电子设备可读存储介质,所述电子设备可读存储介质上存储有计算机程序指令,所述计算机程序指令被所述处理器执行时实现上述任一项所述的未登录词的判断方法。
[0022]相比于相关技术,本专利技术提出的一种未登录词的判断方法、系统、电子设备及介质,通过信息熵来衡量候选词的自由运用程度,信息熵越高,代表该候选词的自由运用程度越高,因此该候选词被识别为未登录词,从而提高了未登录词识别准确率、逻辑性以及数据挖掘能力。
[0023]本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
[0024]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0025]图1是根据本申请实施例的未登录词的判断方法流程图;
[0026]图2为本专利技术的未登录词的判断系统的结构示意图;
[0027]图3是根据本申请实施例的电子设备的框架图。
[0028]其中,附图标记为:
[0029]字集合获取单元:51;
[0030]信息熵计算单元:52;
[0031]候选词自由运用程度获取单元:53;
[0032]未登录词判断单元:54;
[0033]总线:80;
[0034]处理器:81;
[0035]存储器:82;
[0036]通信接口:83。
具体实施方式
[0037]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0038]显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开内容相关的本领域的普通技术人员而言,在本申请揭露的
技术实现思路
基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
[0039]在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种未登录词的判断方法,其特征在于,包括:字集合获取步骤:将出现在候选词左右的字总结成左邻字集合与右邻字集合;信息熵计算步骤:计算所述候选词的左邻字信息熵与右邻字信息熵;候选词自由运用程度获取步骤:从所述左邻字信息熵与所述右邻字信息熵中选取信息熵值小的信息熵作为所述候选词的自由运用程度值;未登录词判断步骤:设置所述候选词的自由运用程度预设阈值,当所述自由运用程度值大于所述自由运用程度预设阈值时,判断结果为所述候选词是未登录词。2.根据权利要求1所述的未登录词的判断方法,其特征在于,所述字集合获取步骤包括,根据所述候选词,将出现在所述候选词左右的所述字总结成所述左邻字集合与所述右邻字集合。3.根据权利要求1所述的未登录词的判断方法,其特征在于,所述信息熵计算步骤包括,根据信息熵计算公式计算所述左邻字集合与所述右邻字集合的信息熵,获得所述候选词的所述左邻字信息熵与所述右邻字信息熵。4.根据权利要求1所述的未登录词的判断方法,其特征在于,所述未登录词判断步骤包括,设置所述候选词的所述自由运用程度预设阈值后,对所述自由运用程度值与所述自由运用程度预设阈值进行比较,当所述自由运用程度值大于所述自由运用程度预设阈值时,所述判断结果为所述候选词是所述未登录词。5.一种未登录词的判断系统,其特征在于,适用于上述权利要求1至4中任一项所述的未登录词的判断方法,所述未登录词的判断系统包括:字集合获取单元:将出现在候选词左右的字总结成左邻字集合与右邻字集合;信息熵计算单元:计算所述候选词的左邻字信息熵与右邻字信息...

【专利技术属性】
技术研发人员:付金伟梁吉光
申请(专利权)人:上海明略人工智能集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1