一种文本分析方法及相关装置制造方法及图纸

技术编号:35096672 阅读:20 留言:0更新日期:2022-10-01 17:00
本申请实施例公开了一种人工智能领域的文本分析方法及相关装置,其中该方法包括:对目标文本进行语义分析处理,得到目标文本对应的依赖树,该依赖树中节点之间的位置关系用于表征对应的文本单元之间的语义关联关系;根据该依赖树、以及目标向量组合对涉及的文本单元,确定该目标向量组合对的语义距离特征,该目标向量组合对包括方面向量组合和观点向量组合,该语义距离特征用于表征该方面向量组合和该观点向量组合各自涉及的文本单元之间的语义相关性;根据方面向量组合和观点向量组合以及语义距离特征,确定目标向量组合对的情感极性。该方法能够提高从评论文本中抽取出的情感极性的准确度。感极性的准确度。感极性的准确度。

【技术实现步骤摘要】
一种文本分析方法及相关装置


[0001]本申请涉及人工智能
,尤其涉及一种文本分析方法及相关装置。

技术介绍

[0002]近年来,基于方面的情感分析(Aspect

based sentiment analysis,ABSA)在业界受到越来越多的关注;ABSA作为一种细粒度的情感分析任务,旨在针对文本中涉及的事物挖掘细粒度的观点信息。
[0003]情感抽取任务是ABSA任务中的关键,该任务的目标是抽取评论文本中的方面(aspect)、观点(opinion)以及对应的情感极性(sentiment)等元素。其中,方面可以理解为评论文本所针对的事物,观点是评论文本针对其评论的事物表达的观点态度,情感极性是评论文本表达的观点所属的情感类型,例如积极、消极等等。
[0004]目前,用于执行上述情感抽取任务的方法在实际应用中取得的效果普遍不够理想,很多方法从评论文本中抽取出的情感极性的准确度较低;而这也会进一步影响与情感抽取任务相关的其它下游应用的实现效果,例如,影响舆情分析业务、消费决策业务等业务的可靠性。

技术实现思路

[0005]本申请实施例提供了一种文本分析方法及相关装置,能够有效地提高从评论文本中抽取出的情感极性的准确度,进而有利于提高与情感抽取任务相关的其它下游应用的实现效果。
[0006]有鉴于此,本申请第一方面提供了一种文本分析方法,所述方法包括:
[0007]对目标文本进行语义分析处理,得到所述目标文本对应的依赖树;所述依赖树中包括所述目标文本中各个文本单元各自对应的节点,所述依赖树中节点之间的位置关系用于表征对应的文本单元之间的语义关联关系;
[0008]根据所述依赖树、以及目标向量组合对涉及的文本单元,确定所述目标向量组合对的语义距离特征;所述目标向量组合对包括方面向量组合和观点向量组合,所述方面向量组合和所述观点向量组合是基于所述目标文本中至少一个文本单元的嵌入向量生成的;所述语义距离特征用于表征所述方面向量组合和所述观点向量组合各自涉及的文本单元之间的语义相关性;
[0009]根据所述方面向量组合和所述观点向量组合、以及所述语义距离特征,确定所述目标向量组合对的情感极性。
[0010]本申请第二方面提供了一种文本分析装置,所述装置包括:
[0011]语义分析模块,用于对目标文本进行语义分析处理,得到所述目标文本对应的依赖树;所述依赖树中包括所述目标文本中各个文本单元各自对应的节点,所述依赖树中节点之间的位置关系用于表征对应的文本单元之间的语义关联关系;
[0012]语义距离确定模块,用于根据所述依赖树、以及目标向量组合对涉及的文本单元,
确定所述目标向量组合对的语义距离特征;所述目标向量组合对包括方面向量组合和观点向量组合,所述方面向量组合和所述观点向量组合是基于所述目标文本中至少一个文本单元的嵌入向量生成的;所述语义距离特征用于表征所述方面向量组合和所述观点向量组合各自涉及的文本单元之间的语义相关性;
[0013]情感极性确定模块,用于根据所述方面向量组合和所述观点向量组合、以及所述语义距离特征,确定所述目标向量组合对的情感极性。
[0014]本申请第三方面提供了一种计算机设备,所述设备包括处理器以及存储器:
[0015]所述存储器用于存储计算机程序;
[0016]所述处理器用于根据所述计算机程序,执行如上述第一方面所述的文本分析方法的步骤。
[0017]本申请第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行上述第一方面所述的文本分析方法的步骤。
[0018]本申请第五方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述第一方面所述的文本分析方法的步骤。
[0019]从以上技术方案可以看出,本申请实施例具有以下优点:
[0020]本申请实施例提供了一种文本分析方法,在该方法中,对于所需分析的目标文本先进行语义分析处理,得到该目标文本对应的依赖树;该依赖树中包括该目标文本中各个文本单元各自对应的节点,并且该依赖树中节点之间的位置关系能够反映对应的文本单元之间的语义关联关系;然后,可以根据上述依赖树、以及目标向量组合对涉及的文本单元,确定该目标向量组合对的语义距离特征,该目标向量组合对中包括方面向量组合和观点向量组合,该方面向量组合和该观点向量组合均是基于目标文本中至少一个文本单元的嵌入向量生成的,该语义距离特征能够反映该方面向量组合和该观点向量组合各自涉及的文本单元之间的语义相关性;进而,可以根据目标向量组合对包括的方面向量组合和观点向量组合、以及该目标向量组合对的语义距离特征,确定该目标向量组合对的情感极性。上述方法基于目标向量组合对抽取情感极性时,创新性地引入了该目标向量组合对的语义距离特征;该语义距离特征是基于对目标文本进行语义分析处理得到的依赖树确定的,其能够准确地反映目标向量组合对中的方面向量组合和观点向量组合各自涉及的文本单元之间的语义相关性;将该语义距离特征作为抽取情感极性时考虑的因素之一,即相当于在抽取情感极性时综合考虑相关文本单元在目标文本中的语义关联关系,而语义关联关系对于抽取情感极性来说具有较高的参考价值,因此能够有效地提高所抽取出的情感极性的准确度,相应地,对于与情感抽取任务相关的其它下游应用也能够提高其实现效果。
附图说明
[0021]图1为本申请实施例提供的文本分析方法的应用场景示意图;
[0022]图2为本申请实施例提供的文本分析方法的流程示意图;
[0023]图3为本申请实施例提供的一种示例性的依赖树的示意图;
[0024]图4为本申请实施例提供的生成目标向量组合对的流程示意图;
[0025]图5为本申请实施例提供的针对目标文本中的各个分词确定其词嵌入向量的实现示意图;
[0026]图6为本申请实施例提供的针对文本单元向量组合进行分类处理的流程示意图;
[0027]图7为本申请实施例提供的一种示例性的无向图的示意图;
[0028]图8为本申请实施例提供的一种示例性的语义距离映射关系的示意图;
[0029]图9为本申请实施例提供的针对目标向量组合对抽取情感极性的流程示意图;
[0030]图10为本申请实施例提供的文本分析方法的实现架构示意图;
[0031]图11为本申请实施例提供的文本分析装置的结构示意图;
[0032]图12为本申请实施例提供的终端设备的结构示意图;
[0033]图13为本申请实施例提供的服务器的结构示意图。
具体实施方式
[0034]为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本分析方法,其特征在于,所述方法包括:对目标文本进行语义分析处理,得到所述目标文本对应的依赖树;所述依赖树中包括所述目标文本中各个文本单元各自对应的节点,所述依赖树中节点之间的位置关系用于表征对应的文本单元之间的语义关联关系;根据所述依赖树、以及目标向量组合对涉及的文本单元,确定所述目标向量组合对的语义距离特征;所述目标向量组合对包括方面向量组合和观点向量组合,所述方面向量组合和所述观点向量组合是基于所述目标文本中至少一个文本单元的嵌入向量生成的;所述语义距离特征用于表征所述方面向量组合和所述观点向量组合各自涉及的文本单元之间的语义相关性;根据所述方面向量组合和所述观点向量组合、以及所述语义距离特征,确定所述目标向量组合对的情感极性。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据所述方面向量组合和所述观点向量组合、以及所述语义距离特征,确定相关性检测结果;若所述相关性检测结果表征所述方面向量组合和所述观点向量组合相关,则执行所述根据所述方面向量组合和所述观点向量组合、以及所述语义距离特征,确定所述目标向量组合对的情感极性;若所述相关性检测结果表征所述方面向量组合和所述观点向量组合无关,则丢弃所述目标向量组合对。3.根据权利要求1所述的方法,其特征在于,所述根据所述依赖树、以及目标向量组合对涉及的文本单元,确定所述目标向量组合对的语义距离特征,包括:将所述依赖树转换为对应的无向图;确定所述无向图中每两个节点之间的最短距离;根据所述无向图中每两个节点之间的最短距离、以及所述无向图中每个节点对应的文本单元,构建所述目标文本对应的语义距离映射关系;所述语义距离映射关系用于表征所述目标文本中每两个文本单元之间的语义距离;根据所述语义距离映射关系、以及所述方面向量组合和所述观点向量组合各自涉及的文本单元,确定所述目标向量组合对的语义距离特征。4.根据权利要求3所述的方法,其特征在于,所述根据所述语义距离映射关系、以及所述方面向量组合和所述观点向量组合各自涉及的文本单元,确定所述目标向量组合对的语义距离特征,包括:基于所述方面向量组合涉及的各文本单元和所述观点向量组合涉及的各文本单元,构造候选文本单元对;每个所述候选文本单元对中包括一个所述方面向量组合涉及的文本单元和一个所述观点向量组合涉及的文本单元;针对每个所述候选文本单元对,在所述语义距离映射关系中查找其包括的两个文本单元之间的语义距离,作为所述候选文本单元对的语义距离;在各个所述候选文本单元对各自的语义距离中确定最短的语义距离,作为所述目标向量组合对的语义距离特征。5.根据权利要求1所述的方法,其特征在于,所述根据所述依赖树、以及目标向量组合对涉及的文本单元,确定所述目标向量组合对的语义距离特征,包括:
将所述依赖树转换为对应的无向图;根据所述方面向量组合和所述观点向量组合各自涉及的文本单元在所述无向图中对应的节点位置,确定所述目标向量组合对的语义距离特征。6.根据权利要求5所述的方法,其特征在于,所述根据所述方面向量组合和所述观点向量组合各自涉及的文本单元在所述无向图中对应的节点位置,确定所述目标向量组合对的语义距离特征,包括:基于所述方面向量组合涉及的各文本单元和所述观点向量组合涉及的各文本单元,构造候选文本单元对;每个所述候选文本单元对中包括一个所述方面向量组合涉及的文本单元和一个所述观点向量组合涉及的文本单元;针对每个所述候选文本单元对,在所述无向图中确定其包括的两个文本单元各自对应的节点位置之间的最短距离,作为所述候选文本单元对的语义距离;在各个所述候选文本单元对各自的语义距离中确定最短的语义距离,作为所述目标向量组合对的语义距离特征。7.根据权利要求1所述的方法,其特征在于,所述对目标文本进行语义分析处理,得到所述目标文本对应的依赖树,包括:对所述目标文本进行依存句法分析处理,确定所述目标文本中各个文本单元各自对应的依存关系;所述依存关系用于表征对应的文本单元是否对应所述依赖树的根节点,以及在所述文本单元不对应所述根节点的情况下表征所述文本单元在所述目...

【专利技术属性】
技术研发人员:杜泽峰张海松
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1