【技术实现步骤摘要】
基于人工智能的情感分类方法和相关装置
本申请涉及数据处理领域,特别是涉及一种情感分类方法和相关装置。
技术介绍
用户在使用互联网的过程中会产生大量的文本信息,例如聊天内容、购物评价、商品点评、博客、朋友圈等等。这些文本信息可以体现出用户的不同类别情感,例如正向情感、负向情感等。如果能够准确确定出文本信息中用户情感的类别,可以为产品研发、内容推荐、市场预测等提供重要数据依据。在确定文本信息所体现情感类别的相关技术中,主要采用情感字典作为的依据。情感字典中需要包括了大量人工标注类别的情感词,标注过程非常依赖人为经验,且难以覆盖全面。而且,同一情感词针对不同的要素(例如食物、价格)所体现出的情感可能完全不同,即使使用人工标注也难以实现准确区分。
技术实现思路
为了解决上述技术问题,本申请提供了一种情感分类方法和相关装置,提高了对应于要素的情感分类精度。本申请实施例公开了如下技术方案:一方面,本申请实施例提供了一种情感分类方法,所述方法包括:获取待分类文本;所述待分类文本包括多个词;根据所述待分类文本的文本特征,确定对应胶囊网络模型中胶囊结构的输入数据;所述文本特征包括所述多个词分别对应的词特征向量,所述胶囊结构与要素一一对应,所述要素用于标识对象类别,所述对象类别所包括的对象具有相关的情感词,所述胶囊结构中包括所对应目标要素的特征向量;获取所述胶囊结构基于所述特征向量和注意力机制确定的输出数据,所述输出数据包括第一识别结果和第二识别结果,所述第一识 ...
【技术保护点】
1.一种情感分类方法,其特征在于,所述方法包括:/n获取待分类文本;所述待分类文本包括多个词;/n根据所述待分类文本的文本特征,确定对应胶囊网络模型中胶囊结构的输入数据;所述文本特征包括所述多个词分别对应的词特征向量,所述胶囊结构与要素一一对应,所述要素用于标识对象类别,所述对象类别所包括的对象具有相关的情感词,所述胶囊结构中包括所对应目标要素的特征向量;/n获取所述胶囊结构基于所述特征向量和注意力机制确定的输出数据,所述输出数据包括第一识别结果和第二识别结果,所述第一识别结果用于标识所述多个词中是否包括属于所述目标要素的词,所述第二识别结果用于标识所述多个词相对于所述目标要素的情感类别;/n根据所述胶囊网络模型中每个胶囊结构的输出数据,确定所述待分类文本对应于要素的情感分类结果。/n
【技术特征摘要】
1.一种情感分类方法,其特征在于,所述方法包括:
获取待分类文本;所述待分类文本包括多个词;
根据所述待分类文本的文本特征,确定对应胶囊网络模型中胶囊结构的输入数据;所述文本特征包括所述多个词分别对应的词特征向量,所述胶囊结构与要素一一对应,所述要素用于标识对象类别,所述对象类别所包括的对象具有相关的情感词,所述胶囊结构中包括所对应目标要素的特征向量;
获取所述胶囊结构基于所述特征向量和注意力机制确定的输出数据,所述输出数据包括第一识别结果和第二识别结果,所述第一识别结果用于标识所述多个词中是否包括属于所述目标要素的词,所述第二识别结果用于标识所述多个词相对于所述目标要素的情感类别;
根据所述胶囊网络模型中每个胶囊结构的输出数据,确定所述待分类文本对应于要素的情感分类结果。
2.根据权利要求1所述的方法,其特征在于,所述胶囊结构包括要素注意力模块和情感注意力模块,所述获取所述胶囊结构基于所述特征向量和注意力机制确定的输出数据,包括:
根据所述特征向量和所述输入数据,通过所述要素注意力模块确定相对于所述目标要素,所述多个词分别对应的第一注意力权值;所述第一注意力权值用于标识所对应词属于所述目标要素的可能性;
根据所述第一注意力权值,确定所述第一识别结果;
根据所述特征向量和所述输入数据,通过所述情感注意力模块确定相对于所述目标要素,所述多个词分别对应的第二注意力权值;所述第二注意力权值用于标识所对应词属于与所述目标要素相关的情感词的可能性;
根据所述第二注意力权值,确定所述第二识别结果。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一注意力权值,确定所述第一识别结果,包括:
根据所述文本特征和所述第一注意力权值,确定所述第一识别结果;
所述根据所述第二注意力权值,确定所述第二识别结果,包括:
根据所述文本特征和所述第二注意力权值,确定所述第二识别结果。
4.根据权利要求2所述的方法,其特征在于,所述胶囊结构还包括共享注意力模块,所述方法还包括:
根据所述特征向量和所述输入数据,通过所述共享注意力模块确定相对于所述目标要素,所述多个词分别对应的第三注意力权值;所述第三注意力权值用于标识所对应词在属于所述目标要素和属于所述情感词间的偏向程度;
所述根据所述第一注意力权值,确定所述第一识别结果,包括:
根据所述第一注意力权值和所述第三注意力权值,确定所述第一识别结果;
所述根据所述第二注意力权值,确定所述第二识别结果,包括:
根据所述第二注意力权值和所述第三注意力权值,确定所述第二识别结果。
5.根据权利要求1-4任意一项所述的方法,其特征在于,所述胶囊网络模型包括由多个胶囊结构共享的预处理层,所述根据所述待分类文本的文本特征,确定对应胶囊网络模型中胶囊结构的输入数据,包括:
根据所述多个胶囊结构分别对应的要素,通过所述预处理层对所述文本特征进行针对所述多个胶囊结构的预处理,得到所述多个胶囊结构分别对应的输入数据;其中,针对所述多个胶囊结构中的一个胶囊结构,这个胶囊结构对应的输入数据是结合所述多个胶囊结构中其他胶囊结构所对应输入数据确定的。
6.根据权利要求2所述的方法,其特征在于,所述胶囊结构设置有对应的字典库,所述字典库包括词与要素权重参数间的对应关系,所述方法还包括:
若所述情感分类结果中包括对应所述目标要素的子情感分类结果,确定所述待分类文本中属于所述目标要素的第一词,以及所述第一词对应的第一注意力权值;
根据所述第一词对应的第一注意力权值,更新所述字典库中所述第一词对应的要素权重参数;
在完成针对文本集合的情感分类后,根据所述字典库中的要素权重参数,确定所述目标要素对应的要素词列表,所述文本集合包括所述待分类文本。
7.根据权利要求6所述的方法,其特征在于,所述字典库还包括词与情感权重参数间的对应关系,所述方法还包括:
若所述情感分类结果中包括对应所述目标要素的子情感分类结果,确定所述待分类文本中属于所述情感词的第二词,以及所述第二词对应的第二注意力权值;
根据所述第二词对应的第二注意力权值,更新所述字典库中所述第二词对应的情感权重参数;
在完成针对所述文本集合的情感分类后,根据所述字典库中的情感权重参数,确定所述目标要素对应的情感词列表。
8.根据...
【专利技术属性】
技术研发人员:王业全,孙爱欣,王爱华,朱小燕,魏望,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。