一种词语提取方法及计算机设备技术

技术编号:36048274 阅读:18 留言:0更新日期:2022-12-21 10:57
本申请提供一种词语提取方法及计算机设备,应用于文本处理领域;用于解决提取的候选词语不准确,进而导致利用这些候选词语无法达到舆情监控、分析产品发展趋势等目的问题。该方法应用于计算机设备,包括:获取与目标对象关联的多个第一文本数据。基于第一预设神经网络模型提取多个第一文本数据中每两个字符之间的字符关系向量;其中,字符关系向量用于表征两个字符之间的字符关系类型。根据得到的字符关系向量,查找多个第一文本数据中包含的属性词语和观点词语,并确定每个属性词语和每个观点词语之间的词语关系类型。若词语关系类型表征第一属性词语和第一观点词语属于同一个候选词语,则组合第一属性词语和第一观点词语,得到第一候选词语。得到第一候选词语。得到第一候选词语。

【技术实现步骤摘要】
一种词语提取方法及计算机设备


[0001]本申请涉及文本处理
,尤其涉及一种词语提取方法及计算机设备。

技术介绍

[0002]热门词语是一段时期内使用频率突然增加的词语,也可以称为高频词语。热门词语可能是以往已存在但近期频率突然增加的词语,或者也有可能是以往不存在的新词语。对搜索引擎、新闻、期刊等来源提供的文本信息提取高频词语是掌握事情发展的动态、分析趋势以及监控舆情的重要手段。
[0003]相关技术中,有采用基于词典的高频词语提取方法首先采用N

Gram算法对语料库进行分词得到固定大小的词典,然后将文本数据和语料库中的基础词语进行匹配,确定匹配的文本数据为候选词语。但这种方式得到的候选词语不准确,有些词语词不达意,效果不好,利用这些候选词语无法达到舆情监控、分析产品发展趋势等目的。

技术实现思路

[0004]本申请实施例提供一种词语提取方法及计算机设备,用于解决提取的候选词语不准确,进而导致利用这些候选词语无法达到舆情监控、分析产品发展趋势等目的问题。为达到上述目的,本申请的实施例采用如下技术方案:第一方面,提供了一种词语提取方法,该方法包括:计算机设备获取与目标对象关联的多个第一文本数据。然后,计算机设备基于第一预设神经网络模型提取多个第一文本数据中每两个字符之间的字符关系向量;其中,字符关系向量用于表征两个字符之间的字符关系类型,且字符关系类型包括以下四种:两个字符属于同一属性词语,两个字符属于同一观点词语,两个字符中的一个字符属于属性词语、另一个字符属于观点词语、且两个字符属于同一个候选词语,两个字符之间的关系不属于以上三种关系类型。第一预设神经网络模型是基于第一初始神经网络模型训练确定的,学习了大量样本文本数据中的字符与字符之间的关系,对多个第一文本数据可以提取得到更为准确的字符关系类型。然后,计算机设备根据得到的字符关系向量,查找多个第一文本数据中包含的属性词语和观点词语,并确定每个属性词语和每个观点词语之间的词语关系类型;其中,词语关系类型用于表征对应属性词语和观点词语是否属于同一个候选词语。如果词语关系类型表征第一属性词语和第一观点词语属于同一个候选词语,那么计算机设备组合第一属性词语和第一观点词语,得到与目标对象关联的第一候选词语;其中,第一属性词语可以是多个第一文本数据中的任一个属性词语,第一观点词语可以是多个第一文本数据中的任一个观点词语。
[0005]这样,对于多个第一文本数据中以前出现过和未出现过的候选词语,都可以通过该方法提取出来。不仅可以保证提取的候选词语的准确性,还可以保证从新的文本数据中提取出新的候选词语。进而计算机设备可以自动完成根据最新的数据更新候选词语的数据库,无需人工维护候选词语数据库,减少人工成本。
[0006]在一些可能的实施方式中,根据得到的字符关系向量,查找多个第一文本数据中包含的属性词语和观点词语,并确定每个属性词语和每个观点词语之间的词语关系类型,具体可以包括:生成n行n列的目标字对网格,n为多个第一文本数据中的字符的个数,每行对应多个第一文本数据中的一个字符,每列对应多个第一文本数据中的一个字符;将字符关系向量r
ij
填充至目标字对网格的第i行第j列;其中,字符关系向量r
ij
是多个第一文本数据中第i个字符与第j个字符之间的字符关系向量;i和j在{1,2,
……
,n}中取值;根据填充了字符关系向量r
ij
的目标字对网格,确定每个属性词语和每个观点词语之间的词语关系类型。
[0007]在该方案中,将多个第一文本数据中每两个字符的字符关系向量以目标字对网格的形式呈现,便于计算机设备查找多个第一文本数据中包含的属性词语和观点词语,以及获取每个属性词语和每个观点词语之间的词语关系类型。
[0008]在一些可能的实施方式中,根据填充了字符关系向量r
ij
的目标字对网格,确定每个属性词语和每个观点词语之间的词语关系类型,具体可以包括:将填充了字符关系向量r
ij
的目标字对网格中、字符关系类型均为第一字符关系类型的相邻字符拼接,得到属性词语;第一字符关系类型用于指示两个字符属于同一属性词语;将填充了字符关系向量r
ij
的目标字对网格中、字符关系类型均为第二字符关系类型的连续相邻字符拼接,得到观点词语;第二字符关系类型用于指示两个字符属于同一观点词语;根据目标字对网格中、第二属性词语包含的每个字符与第二观点词语包含的每个字符之间的字符关系类型,确定第二属性词语和第二观点词语之间的词语关系类型;其中,第二属性词语为目标字对网格中的任一个属性词语,第二观点词语为目标字对网格中的任一个观点词语。
[0009]在该方案中,先在字对网格中搜索字符关系向量,确定第一文本数据中包含的属性词语和观点词语。应理解,多个第一文本数据中确定出的属性词语和观点词语可能都包括多个。然后再基于属性词语中包含字符与观点词语包含字符之间的字符关系向量,推断属性词语和观点词语之间的词语关系。这样,可以提高从多个第一文本数据中查找出的属性词语和观点词语的准确性。
[0010]在一些可能的实施方式中,根据目标字对网格中、第二属性词语包含的每个字符与第二观点词语包含的每个字符之间的字符关系类型,确定第二属性词语和第二观点词语之间的词语关系类型,具体可以包括:如果第二属性词语与第二观点词语分别所包含的字符之间的字符关系类型为第三字符关系类型的数量大于预设数量阈值,则计算机设备确定第二属性词语和第二观点词语之间的词语关系类型属于同一候选词语;第三字符关系类型用于指示两个字符中的一个字符属于属性词语、另一个字符属于观点词语、且两个字符属于同一个候选词语。如果第二属性词语与第二观点词语分别所包含的字符之间的字符关系类型为第三字符关系类型的数量小于或者等于预设数量阈值时,确定第二属性词语和第一观点词语之间的词语关系类型不属于同一候选词语。如果词语包含的字符之间的字符关系类型大部分都是属于第三字符关系类型,那么这一组属性词语和观点词语之间属于同一候选词语的可能性较高。通过字符关系类型推断词语关系的方式,可以提高提取词语的准确性。
[0011]在一些可能的实施方式中,基于第一预设神经网络模型提取多个第一文本数据中
每两个字符之间的字符关系向量,具体可以包括:计算机设备对多个第一文本数据进行特征提取,得到多个第一文本数据中各字符的语义特征向量;其中,语义特征向量用于表征各字符在多个第一文本数据中的词语含义。然后,计算机设备分别对多个第一文本数据中任意两个字符的语义特征向量进行向量运算,得到多个第一文本数据中的每两个字符对应的第一向量。再然后,计算机设备获取预设字符关系权重矩阵;预设字符关系权重矩阵是基于初始字符关系权重矩阵经过训练确定的。最后,计算机设备分别基于各第一向量与预设字符关系权重矩阵,确定多个第一文本数据中每两个字符之间的字符关系向量。
[0012]在该方案中,先对多个第一文本数据提取语义特征向量,并基于语义特本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种词语提取方法,其特征在于,所述方法应用计算机设备,所述方法包括:获取多个第一文本数据;所述多个第一文本数据与目标对象关联;基于第一预设神经网络模型提取所述多个第一文本数据中每两个字符之间的字符关系向量;其中,所述字符关系向量用于表征两个字符之间的字符关系类型,所述字符关系类型包括以下四种:所述两个字符属于同一属性词语,所述两个字符属于同一观点词语,所述两个字符中的一个字符属于属性词语、另一个字符属于观点词语、且所述两个字符属于同一个候选词语,所述两个字符之间的关系不属于以上三种关系类型;所述第一预设神经网络模型是基于第一初始神经网络模型训练确定的;根据得到的字符关系向量,查找所述多个第一文本数据中包含的属性词语和观点词语,并确定每个属性词语和每个观点词语之间的词语关系类型;其中,所述词语关系类型用于表征对应属性词语和观点词语是否属于同一个候选词语;在词语关系类型表征第一属性词语和第一观点词语属于同一个候选词语时,组合所述第一属性词语和所述第一观点词语,得到与所述目标对象关联的第一候选词语;其中,所述第一属性词语为所述多个第一文本数据中的任一个属性词语,所述第一观点词语为所述多个第一文本数据中的任一个观点词语。2.根据权利要求1所述的方法,其特征在于,所述根据得到的字符关系向量,查找所述多个第一文本数据中包含的属性词语和观点词语,并确定每个属性词语和每个观点词语之间的词语关系类型,包括:生成目标字对网格,所述目标字对网格包括n行n列,n为所述多个第一文本数据中的字符的个数,每行对应所述多个第一文本数据中的一个字符,每列对应所述多个第一文本数据中的一个字符;将字符关系向量r
ij
填充至所述目标字对网格的第i行第j列;其中,所述字符关系向量r
ij
是所述多个第一文本数据中第i个字符与第j个字符之间的字符关系向量;i和j在{1,2,
……
,n}中取值;根据填充了所述字符关系向量r
ij
的目标字对网格,确定每个属性词语和每个观点词语之间的词语关系类型。3.根据权利要求2所述的方法,其特征在于,所述根据填充了所述字符关系向量r
ij
的目标字对网格,确定每个属性词语和每个观点词语之间的词语关系类型,包括:将填充了所述字符关系向量r
ij
的目标字对网格中、所述字符关系类型均为第一字符关系类型的相邻字符拼接,得到所述属性词语;所述第一字符关系类型用于指示两个字符属于同一属性词语;将填充了所述字符关系向量r
ij
的目标字对网格中、所述字符关系类型均为第二字符关系类型的连续相邻字符拼接,得到所述观点词语;所述第二字符关系类型用于指示两个字符属于同一观点词语;根据所述目标字对网格中、第二属性词语包含的每个字符与第二观点词语包含的每个字符之间的字符关系类型,确定所述第二属性词语和所述第二观点词语之间的词语关系类型;其中,所述第二属性词语为所述目标字对网格中的任一个属性词语,所述第二观点词语为所述目标字对网格中的任一个观点词语。
4.根据权利要求3所述的方法,其特征在于,所述根据所述目标字对网格中、第二属性词语包含的每个字符与第二观点词语包含的每个字符之间的字符关系类型,确定所述第二属性词语和所述第二观点词语之间的词语关系类型,包括:在所述第二属性词语与所述第二观点词语分别所包含的字符之间的字符关系类型为第三字符关系类型的数量大于预设数量阈值时,确定所述第二属性词语和所述第二观点词语之间的词语关系类型属于同一候选词语;所述第三字符关系类型用于指示两个字符中的一个字符属于属性词语、另一个字符属于观点词语、且所述两个字符属于同一个候选词语;在所述第二属性词语与所述第二观点词语分别所包含的字符之间的字符关系类型为第三字符关系类型的数量小于或者等于所述预设数量阈值...

【专利技术属性】
技术研发人员:李胜超曹熠炜汤泳卢志超余强
申请(专利权)人:荣耀终端有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1