【技术实现步骤摘要】
一种文本分析方法及相关装置
[0001]本申请涉及人工智能
,尤其涉及一种文本分析方法及相关装置。
技术介绍
[0002]近年来,基于方面的情感分析(Aspect
‑
based sentiment analysis,ABSA)在业界受到越来越多的关注;ABSA作为一种细粒度的情感分析任务,旨在针对文本中涉及的事物挖掘细粒度的观点信息。
[0003]情感抽取任务是ABSA任务中的关键,该任务的目标是抽取评论文本中的方面(aspect)、观点(opinion)以及对应的情感极性(sentiment)等元素。其中,方面可以理解为评论文本所针对的事物,观点是评论文本针对其评论的事物表达的观点态度,情感极性是评论文本表达的观点所属的情感类型,例如积极、消极等等。
[0004]目前,用于执行上述情感抽取任务的方法在实际应用中取得的效果普遍不够理想,很多方法从评论文本中抽取出的情感极性的准确度较低;而这也会进一步影响与情感抽取任务相关的其它下游应用的实现效果,例如,影响舆情分析业务、消费决策业务等业务的可靠性。
技术实现思路
[0005]本申请实施例提供了一种文本分析方法及相关装置,能够有效地提高从评论文本中抽取出的情感极性的准确度,进而有利于提高与情感抽取任务相关的其它下游应用的实现效果。
[0006]有鉴于此,本申请第一方面提供了一种文本分析方法,所述方法包括:
[0007]对目标文本进行语义分析处理,得到所述目标文本对应的依赖树;所述依赖树中包括所述目标 ...
【技术保护点】
【技术特征摘要】
1.一种文本分析方法,其特征在于,所述方法包括:对目标文本进行语义分析处理,得到所述目标文本对应的依赖树;所述依赖树中包括所述目标文本中各个文本单元各自对应的节点,所述依赖树中节点之间的位置关系用于表征对应的文本单元之间的语义关联关系;根据所述依赖树、以及目标向量组合对涉及的文本单元,确定所述目标向量组合对的语义距离特征;所述目标向量组合对包括方面向量组合和观点向量组合,所述方面向量组合和所述观点向量组合是基于所述目标文本中至少一个文本单元的嵌入向量生成的;所述语义距离特征用于表征所述方面向量组合和所述观点向量组合各自涉及的文本单元之间的语义相关性;根据所述方面向量组合和所述观点向量组合、以及所述语义距离特征,确定所述目标向量组合对的情感极性。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:根据所述方面向量组合和所述观点向量组合、以及所述语义距离特征,确定相关性检测结果;若所述相关性检测结果表征所述方面向量组合和所述观点向量组合相关,则执行所述根据所述方面向量组合和所述观点向量组合、以及所述语义距离特征,确定所述目标向量组合对的情感极性;若所述相关性检测结果表征所述方面向量组合和所述观点向量组合无关,则丢弃所述目标向量组合对。3.根据权利要求1所述的方法,其特征在于,所述根据所述依赖树、以及目标向量组合对涉及的文本单元,确定所述目标向量组合对的语义距离特征,包括:将所述依赖树转换为对应的无向图;确定所述无向图中每两个节点之间的最短距离;根据所述无向图中每两个节点之间的最短距离、以及所述无向图中每个节点对应的文本单元,构建所述目标文本对应的语义距离映射关系;所述语义距离映射关系用于表征所述目标文本中每两个文本单元之间的语义距离;根据所述语义距离映射关系、以及所述方面向量组合和所述观点向量组合各自涉及的文本单元,确定所述目标向量组合对的语义距离特征。4.根据权利要求3所述的方法,其特征在于,所述根据所述语义距离映射关系、以及所述方面向量组合和所述观点向量组合各自涉及的文本单元,确定所述目标向量组合对的语义距离特征,包括:基于所述方面向量组合涉及的各文本单元和所述观点向量组合涉及的各文本单元,构造候选文本单元对;每个所述候选文本单元对中包括一个所述方面向量组合涉及的文本单元和一个所述观点向量组合涉及的文本单元;针对每个所述候选文本单元对,在所述语义距离映射关系中查找其包括的两个文本单元之间的语义距离,作为所述候选文本单元对的语义距离;在各个所述候选文本单元对各自的语义距离中确定最短的语义距离,作为所述目标向量组合对的语义距离特征。5.根据权利要求1所述的方法,其特征在于,所述根据所述依赖树、以及目标向量组合对涉及的文本单元,确定所述目标向量组合对的语义距离特征,包括:
将所述依赖树转换为对应的无向图;根据所述方面向量组合和所述观点向量组合各自涉及的文本单元在所述无向图中对应的节点位置,确定所述目标向量组合对的语义距离特征。6.根据权利要求5所述的方法,其特征在于,所述根据所述方面向量组合和所述观点向量组合各自涉及的文本单元在所述无向图中对应的节点位置,确定所述目标向量组合对的语义距离特征,包括:基于所述方面向量组合涉及的各文本单元和所述观点向量组合涉及的各文本单元,构造候选文本单元对;每个所述候选文本单元对中包括一个所述方面向量组合涉及的文本单元和一个所述观点向量组合涉及的文本单元;针对每个所述候选文本单元对,在所述无向图中确定其包括的两个文本单元各自对应的节点位置之间的最短距离,作为所述候选文本单元对的语义距离;在各个所述候选文本单元对各自的语义距离中确定最短的语义距离,作为所述目标向量组合对的语义距离特征。7.根据权利要求1所述的方法,其特征在于,所述对目标文本进行语义分析处理,得到所述目标文本对应的依赖树,包括:对所述目标文本进行依存句法分析处理,确定所述目标文本中各个文本单元各自对应的依存关系;所述依存关系用于表征对应的文本单元是否对应所述依赖树的根节点,以及在所述文本单元不对应所述根节点的情况下表征所述文本单元在所述目...
【专利技术属性】
技术研发人员:杜泽峰,张海松,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。