新词挖掘方法、新词挖掘装置和电子设备制造方法及图纸

技术编号：44948703 阅读：1 留言：0更新日期：2025-04-12 01:22

本公开的实施例公开了新词挖掘方法、新词挖掘装置和电子设备。该方法的一具体实施方式包括：对获取的原始文本进行标准化处理，得到标准文本；采用基于统计语言模型的算法，对标准文本中的语句进行词切分，得到标准文本的词集合；根据词集合中各词的总数量，将总数量不小于第一阈值的词确定为候选词，得到候选词集合；根据预设指标参数对候选词集合中的候选词进行筛选，以及将筛选得到的候选词确定为挖掘出的新词，其中，预设指标参数用于表征字符的组合能够作为词的概率。该实施方式与文本处理技术有关，不需要准备大量的标注数据和模型训练，也不依赖经验规则，可以实现非监督的潜在新词的自动挖掘。保证数据挖掘效果的同时，可以降低资源需求。

全部详细技术资料下载

【技术实现步骤摘要】

本公开的实施例涉及文本处理，具体涉及新词挖掘方法、新词挖掘装置和电子设备。

技术介绍

1、自然语言处理(简称nlp)是人工智能和计算机科学领域中的一个关键分支，专注于实现人与机器之间用自然语言进行有效通信的各种理论和方法。nlp可以将一种语言的文本自动转换为另一种语言，实现跨语言交流。还可以帮助将文本数据自动分类到不同的类别中。不过不同的语言对于nlp技术的要求也不尽相同。比如中文的处理要比英文复杂的多，中文的书写系统没有明确的词边界标记，如空格。因此，计算机在处理中文文本时，无法直接通过空格来识别词汇单元。需要以词库为基础和依据的分词操作来解决。因此，一个高质量的词库能够减少分词错误，提高分词结果的准确性，为后续的自然语言处理任务提供更好的输入。

2、然而，专利技术人发现，相关技术中的词挖掘方法都存在一些问题。如基于规则的方法在很大程度上依赖于规则的质量和数量。如果规则制定得不够全面或准确，可能会导致新词挖掘的漏报或误报。而基于深度学习的新词发现方法需要大量的标注数据进行训练，且模型的性能和效果受到训练数据的质量和数量的影响。

3、该
技术介绍
部分中所公开的以上信息仅用于增强对本专利技术构思的背景的理解，并因此，其可包含并不形成本国的本领域普通技术人员已知的现有技术的信息。

技术实现思路

1、本公开的内容部分用于以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于

2、本公开的一些实施例提出了新词挖掘方法、新词挖掘装置、电子设备、计算机可读介质和计算机程序产品，来解决以上
技术介绍
部分提到的技术问题中的一项或多项。

3、第一方面，本公开的一些实施例提供了一种新词挖掘方法，包括：对获取的原始文本进行标准化处理，得到标准文本；采用基于统计语言模型的算法，对标准文本中的语句进行词切分，得到标准文本的词集合；根据词集合中各词的总数量，将总数量不小于第一阈值的词确定为候选词，得到候选词集合；根据预设指标参数对候选词集合中的候选词进行筛选，以及将筛选得到的候选词确定为挖掘出的新词，其中，预设指标参数用于表征字符的组合能够作为词的概率。

4、在一些实施例中，对获取的原始文本进行标准化处理，得到标准文本，包括：将原始文本中与预设字符相匹配的字符去除，以及将去除预设字符的原始文本作为标准文本，其中，预设字符包括以下至少一项：语气词、标点符号、特殊符号。

5、在一些实施例中，根据预设指标参数对候选词集合中的候选词进行筛选，包括：对于候选词集合中的每个候选词，根据该候选词在标准文本中出现的次数，确定该候选词的凝固度指标值，其中，凝固度指标用于表征词的内部凝固程度；将凝固度指标值不小于第二阈值的候选词，确定为凝固度筛选得到的候选词，得到第一候选词集。

6、在一些实施例中，根据该候选词在标准文本中出现的次数，确定该候选词的凝固度指标值，包括：对于字符长度大于二的候选词，按照不同的拆分规则，分别拆分得到该候选词不同的字符组合，其中，在拆分过程中，候选词中各字符的位置顺序保持不变；对于每个字符组合，根据该字符组合中各字符在标准文本中出现的次数，以及该候选词在标准文本中出现的次数，确定该字符组合的凝固度指标值；将各字符组合的凝固度指标值中的最小值，作为该候选词的凝固度指标值。

7、在一些实施例中，根据预设指标参数对候选词集合中的候选词进行筛选，还包括：对于候选词集合中的每个候选词，根据标准文本中出现在该候选词左侧和右侧的字符，分别确定该候选词的左右信息熵指标值，其中，左右信息熵指标用于表征词的独立性；将左右信息熵指标值均不小于第三阈值的候选词，确定为左右信息熵筛选得到的候选词，得到第二候选词集。

8、在一些实施例中，将筛选得到的候选词确定为挖掘出的新词，包括：将第一候选词集与第二候选词集共同包含的候选词，确定为挖掘出的新词。

9、在一些实施例中，该方法还包括：响应于确定原始文本中包含多个语句，采用分布式集群对多个语句分别进行处理，其中，分布式集群中包含多个服务器节点，每个服务器节点中设置有至少一个处理器；根据分布式集群中服务器节点的数量，以及原始文本中语句的数量，对原始文本中的语句进行分区处理，其中，位于不同分区内的语句由不同的服务器节点进行处理。

10、在一些实施例中，根据预设指标参数对候选词集合中的候选词进行筛选之前，该方法还包括：根据候选词集合中候选词所包含的字符，以及包含的字符所指示的词在标准文本中出现的次数，生成词频字典；将词频字典在分布式集群中进行广播。

11、第二方面，本公开的一些实施例提供了一种新词挖掘装置，包括：文本处理单元，被配置成对获取的原始文本进行标准化处理，得到标准文本；词切分单元，被配置成采用基于统计语言模型的算法，对标准文本中的语句进行词切分，得到标准文本的词集合；候选词确定单元，被配置成根据词集合中各词的总数量，将总数量不小于第一阈值的词确定为候选词，得到候选词集合；词筛选单元，被配置成根据预设指标参数对候选词集合中的候选词进行筛选，以及将筛选得到的候选词确定为挖掘出的新词，其中，预设指标参数用于表征字符的组合能够作为词的概率。

12、在一些实施例中，文本处理单元进一步被配置成将原始文本中与预设字符相匹配的字符去除，以及将去除预设字符的原始文本作为标准文本，其中，预设字符包括以下至少一项：语气词、标点符号、特殊符号。

13、在一些实施例中，词筛选单元进一步被配置成对于候选词集合中的每个候选词，根据该候选词在标准文本中出现的次数，确定该候选词的凝固度指标值，其中，凝固度指标用于表征词的内部凝固程度；将凝固度指标值不小于第二阈值的候选词，确定为凝固度筛选得到的候选词，得到第一候选词集。

14、在一些实施例中，词筛选单元进一步被配置成对于字符长度大于二的候选词，按照不同的拆分规则，分别拆分得到该候选词不同的字符组合，其中，在拆分过程中，候选词中各字符的位置顺序保持不变；对于每个字符组合，根据该字符组合中各字符在标准文本中出现的次数，以及该候选词在标准文本中出现的次数，确定该字符组合的凝固度指标值；将各字符组合的凝固度指标值中的最小值，作为该候选词的凝固度指标值。

15、在一些实施例中，词筛选单元还进一步被配置成对于候选词集合中的每个候选词，根据标准文本中出现在该候选词左侧和右侧的字符，分别确定该候选词的左右信息熵指标值，其中，左右信息熵指标用于表征词的独立性；将左右信息熵指标值均不小于第三阈值的候选词，确定为左右信息熵筛选得到的候选词，得到第二候选词集。

16、在一些实施例中，词筛选单元进一步被配置成将第一候选词集与第二候选词集共同包含的候选词，确定为挖掘出的新词。

17、在一些实施例中，该新词挖掘装置还包括分布式处理单元，被配置成响应于确定原始文本中包含多个语句，采用分布式集群对多个本文档来自技高网...

【技术保护点】

1.一种新词挖掘方法，包括：

2.根据权利要求1所述的新词挖掘方法，其中，所述对获取的原始文本进行标准化处理，得到标准文本，包括：

3.根据权利要求1所述的新词挖掘方法，其中，所述根据预设指标参数对所述候选词集合中的候选词进行筛选，包括：

4.根据权利要求3所述的新词挖掘方法，其中，所述根据该候选词在所述标准文本中出现的次数，确定该候选词的凝固度指标值，包括：

5.根据权利要求3所述的新词挖掘方法，其中，所述根据预设指标参数对所述候选词集合中的候选词进行筛选，还包括：

6.根据权利要求5所述新词挖掘方法，其中，所述将筛选得到的候选词确定为挖掘出的新词，包括：

7.根据权利要求1-6之一所述的新词挖掘方法，其中，所述方法还包括：

8.根据权利要求7所述的新词挖掘方法，其中，所述根据预设指标参数对所述候选词集合中的候选词进行筛选之前，所述方法还包括：

9.一种新词挖掘装置，包括：

10.一种电子设备，包括：

11.一种计算机可读介质，其上存储有计算机程序，其中，所述

12.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时，实现如权利要求1-8中任一所述的新词挖掘方法。

...

【技术特征摘要】

1.一种新词挖掘方法，包括：

2.根据权利要求1所述的新词挖掘方法，其中，所述对获取的原始文本进行标准化处理，得到标准文本，包括：

3.根据权利要求1所述的新词挖掘方法，其中，所述根据预设指标参数对所述候选词集合中的候选词进行筛选，包括：

4.根据权利要求3所述的新词挖掘方法，其中，所述根据该候选词在所述标准文本中出现的次数，确定该候选词的凝固度指标值，包括：

5.根据权利要求3所述的新词挖掘方法，其中，所述根据预设指标参数对所述候选词集合中的候选词进行筛选，还包括：

6.根据权利要求5所述新词挖掘方法，其中，所述将筛选得到的候选词确...

【专利技术属性】
技术研发人员：隋远，王铭，俞自生，
申请(专利权)人：京东科技信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人