一种未登录词的判断方法、系统、电子设备及介质技术方案

技术编号：30331780 阅读：28 留言：0更新日期：2021-10-10 00:41

本申请公开了一种未登录词的判断方法、系统、电子设备及介质，未登录词的判断方法包括：字集合获取步骤：将出现在候选词左右的字总结成左邻字集合与右邻字集合；信息熵计算步骤：计算所述候选词的左邻字信息熵与右邻字信息熵；候选词自由运用程度获取步骤：从所述左邻字信息熵与所述右邻字信息熵中选取信息熵值小的信息熵作为所述候选词的自由运用程度值；未登录词判断步骤:设置所述候选词的自由运用程度预设阈值，当所述自由运用程度值大于所述自由运用程度预设阈值时，判断结果为所述候选词是未登录词。本发明专利技术通过信息熵来衡量候选词的自由运用程度，识别未登录词准确度更高、更有逻辑性。有逻辑性。有逻辑性。

全部详细技术资料下载

【技术实现步骤摘要】
一种未登录词的判断方法、系统、电子设备及介质

[0001]本申请涉及数据能力
，尤其涉及一种未登录词的判断方法、系统、电子设备及介质。

技术介绍

[0002]在人民日益增长物质文化需求的背景下，词语丰富度的发展也是异常迅速，每年都会有大量的新词语出现，这类新词语统称为未登录词。因为在自然语言处理领域，进行文本处理的时，通常会有一个词库，该词库或者是提前加载的，或者是自己定义的，或者是从当前数据集中提取的，而未在词库中出现但又必须要切分出来的词就称为未登录词。未登录词主要包括各类专有名词(人名、地名、企业名等)、缩写词、新增词汇等等。这些新生词汇的产生是文化丰富发展的必然趋势。但这些新生词汇却给分词造成了很大的困扰，因为词库中并没有记录这些新词。为了日后更加准确的分词，使用未登录词对词库进行更新是一件很重要的事，因此如何识别一个词是否为未登录词，成为了业界的一个难题。

技术实现思路

[0003]本申请实施例提供了一种未登录词的判断方法、系统、电子设备及介质，以至少通过本专利技术解决了识别未登录词的过程中未登录词的识别准确率低以及逻辑性低等问题。
[0004]本专利技术提供了未登录词的判断方法，包括：
[0005]字集合获取步骤：将出现在候选词左右的字总结成左邻字集合与右邻字集合；
[0006]信息熵计算步骤：计算所述候选词的左邻字信息熵与右邻字信息熵；
[0007]候选词自由运用程度获取步骤：从所述左邻字信息熵与所述右邻字信息熵中选取信息熵值小的信息熵作为所述候选词...

【技术保护点】

【技术特征摘要】
1.一种未登录词的判断方法，其特征在于，包括：字集合获取步骤：将出现在候选词左右的字总结成左邻字集合与右邻字集合；信息熵计算步骤：计算所述候选词的左邻字信息熵与右邻字信息熵；候选词自由运用程度获取步骤：从所述左邻字信息熵与所述右邻字信息熵中选取信息熵值小的信息熵作为所述候选词的自由运用程度值；未登录词判断步骤:设置所述候选词的自由运用程度预设阈值，当所述自由运用程度值大于所述自由运用程度预设阈值时，判断结果为所述候选词是未登录词。2.根据权利要求1所述的未登录词的判断方法，其特征在于，所述字集合获取步骤包括，根据所述候选词，将出现在所述候选词左右的所述字总结成所述左邻字集合与所述右邻字集合。3.根据权利要求1所述的未登录词的判断方法，其特征在于，所述信息熵计算步骤包括，根据信息熵计算公式计算所述左邻字集合与所述右邻字集合的信息熵，获得所述候选词的所述左邻字信息熵与所述右邻字信息熵。4.根据权利要求1所述的未登录词的判断方法，其特征在于，所述未登录词判断步骤包括，设置所述候选词的所述自由运用程度预设阈值后，对所述自由运用程度值与所述自由运用程度预设阈值进行比较，当所述自由运用程度值大于所述自由运用程度预设阈值时，所述判断结果为所述候选词是所述未登录词。5.一种未登录词的判断系统，其特征在于，适用于上述权利要求1至4中任一项所述的未登录词的判断方法，所述未登录词的判断系统包括：字集合获取单元：将出现在候选词左右的字总结成左邻字集合与右邻字集合；信息熵计算单元：计算所述候选词的左邻字信息熵与右邻字信息...

【专利技术属性】
技术研发人员：付金伟，梁吉光，
申请(专利权)人：上海明略人工智能集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人