一种词语提取方法及计算机设备技术

技术编号：36048274 阅读：18 留言：0更新日期：2022-12-21 10:57

本申请提供一种词语提取方法及计算机设备，应用于文本处理领域；用于解决提取的候选词语不准确，进而导致利用这些候选词语无法达到舆情监控、分析产品发展趋势等目的问题。该方法应用于计算机设备，包括：获取与目标对象关联的多个第一文本数据。基于第一预设神经网络模型提取多个第一文本数据中每两个字符之间的字符关系向量;其中，字符关系向量用于表征两个字符之间的字符关系类型。根据得到的字符关系向量，查找多个第一文本数据中包含的属性词语和观点词语，并确定每个属性词语和每个观点词语之间的词语关系类型。若词语关系类型表征第一属性词语和第一观点词语属于同一个候选词语，则组合第一属性词语和第一观点词语，得到第一候选词语。得到第一候选词语。得到第一候选词语。

全部详细技术资料下载

【技术实现步骤摘要】
一种词语提取方法及计算机设备

[0001]本申请涉及文本处理
，尤其涉及一种词语提取方法及计算机设备。

技术介绍

[0002]热门词语是一段时期内使用频率突然增加的词语，也可以称为高频词语。热门词语可能是以往已存在但近期频率突然增加的词语，或者也有可能是以往不存在的新词语。对搜索引擎、新闻、期刊等来源提供的文本信息提取高频词语是掌握事情发展的动态、分析趋势以及监控舆情的重要手段。
[0003]相关技术中，有采用基于词典的高频词语提取方法首先采用N
‑
Gram算法对语料库进行分词得到固定大小的词典，然后将文本数据和语料库中的基础词语进行匹配，确定匹配的文本数据为候选词语。但这种方式得到的候选词语不准确，有些词语词不达意，效果不好，利用这些候选词语无法达到舆情监控、分析产品发展趋势等目的。

技术实现思路

[0004]本申请实施例提供一种词语提取方法及计算机设备，用于解决提取的候选词语不准确，进而导致利用这些候选词语无法达到舆情监控、分析产品发展趋势等目的问题。为达到上述目的，本申请的实施例采用如下技术方案：第一方面，提供了一种词语提取方法，该方法包括：计算机设备获取与目标对象关联的多个第一文本数据。然后，计算机设备基于第一预设神经网络模型提取多个第一文本数据中每两个字符之间的字符关系向量;其中，字符关系向量用于表征两个字符之间的字符关系类型，且字符关系类型包括以下四种：两个字符属于同一属性词语，两个字符属于同一观点词语，两个字符中的一个字符属于属性词语、另一个字符属于观点词...

【技术保护点】

【技术特征摘要】
1.一种词语提取方法，其特征在于，所述方法应用计算机设备，所述方法包括：获取多个第一文本数据；所述多个第一文本数据与目标对象关联；基于第一预设神经网络模型提取所述多个第一文本数据中每两个字符之间的字符关系向量;其中，所述字符关系向量用于表征两个字符之间的字符关系类型，所述字符关系类型包括以下四种：所述两个字符属于同一属性词语，所述两个字符属于同一观点词语，所述两个字符中的一个字符属于属性词语、另一个字符属于观点词语、且所述两个字符属于同一个候选词语，所述两个字符之间的关系不属于以上三种关系类型；所述第一预设神经网络模型是基于第一初始神经网络模型训练确定的；根据得到的字符关系向量，查找所述多个第一文本数据中包含的属性词语和观点词语，并确定每个属性词语和每个观点词语之间的词语关系类型；其中，所述词语关系类型用于表征对应属性词语和观点词语是否属于同一个候选词语；在词语关系类型表征第一属性词语和第一观点词语属于同一个候选词语时，组合所述第一属性词语和所述第一观点词语，得到与所述目标对象关联的第一候选词语；其中，所述第一属性词语为所述多个第一文本数据中的任一个属性词语，所述第一观点词语为所述多个第一文本数据中的任一个观点词语。2.根据权利要求1所述的方法，其特征在于，所述根据得到的字符关系向量，查找所述多个第一文本数据中包含的属性词语和观点词语，并确定每个属性词语和每个观点词语之间的词语关系类型，包括：生成目标字对网格，所述目标字对网格包括n行n列，n为所述多个第一文本数据中的字符的个数，每行对应所述多个第一文本数据中的一个字符，每列对应所述多个第一文本数据中的一个字符；将字符关系向量r
ij
填充至所述目标字对网格的第i行第j列；其中，所述字符关系向量r
ij
是所述多个第一文本数据中第i个字符与第j个字符之间的字符关系向量；i和j在{1,2，
……
，n}中取值；根据填充了所述字符关系向量r
ij
的目标字对网格，确定每个属性词语和每个观点词语之间的词语关系类型。3.根据权利要求2所述的方法，其特征在于，所述根据填充了所述字符关系向量r
ij
的目标字对网格，确定每个属性词语和每个观点词语之间的词语关系类型，包括：将填充了所述字符关系向量r
ij
的目标字对网格中、所述字符关系类型均为第一字符关系类型的相邻字符拼接，得到所述属性词语；所述第一字符关系类型用于指示两个字符属于同一属性词语；将填充了所述字符关系向量r
ij
的目标字对网格中、所述字符关系类型均为第二字符关系类型的连续相邻字符拼接，得到所述观点词语；所述第二字符关系类型用于指示两个字符属于同一观点词语；根据所述目标字对网格中、第二属性词语包含的每个字符与第二观点词语包含的每个字符之间的字符关系类型，确定所述第二属性词语和所述第二观点词语之间的词语关系类型；其中，所述第二属性词语为所述目标字对网格中的任一个属性词语，所述第二观点词语为所述目标字对网格中的任一个观点词语。
4.根据权利要求3所述的方法，其特征在于，所述根据所述目标字对网格中、第二属性词语包含的每个字符与第二观点词语包含的每个字符之间的字符关系类型，确定所述第二属性词语和所述第二观点词语之间的词语关系类型，包括：在所述第二属性词语与所述第二观点词语分别所包含的字符之间的字符关系类型为第三字符关系类型的数量大于预设数量阈值时，确定所述第二属性词语和所述第二观点词语之间的词语关系类型属于同一候选词语；所述第三字符关系类型用于指示两个字符中的一个字符属于属性词语、另一个字符属于观点词语、且所述两个字符属于同一个候选词语；在所述第二属性词语与所述第二观点词语分别所包含的字符之间的字符关系类型为第三字符关系类型的数量小于或者等于所述预设数量阈值...

【专利技术属性】
技术研发人员：李胜超，曹熠炜，汤泳，卢志超，余强，
申请(专利权)人：荣耀终端有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人