本发明专利技术公开了一种基于权重学习和多特征抽取的多情绪分类方法及装置,其中,方法包括以下步骤:从互联网上获取多条用户发布的微博文本;对多条微博文本进行预处理,以抽取多个词性特征词和多个句法特征词;通过权重学习融合多个词性特征词和多个句法特征词,以得到句子信息;根据句子信息训练情绪分类体系中每个节点的二分类器,以构建情绪分类体系,并通过分类体系实现情绪分类;根据分类结果得到多条用户发布的微博文本的情绪分类信息。该分类方法可以利用抽取出的词性特征和依存句法特征,并使用权重融合词性特征和依存句法特征,从而对微博用户情绪细进行分类,有效地对微博用户进行层次情绪分类。
【技术实现步骤摘要】
本专利技术涉及计算机应用机器学习
,特别涉及一种基于权重学习和多特征抽取的多情绪分类方法及装置。
技术介绍
微博作为一个已有广大群众基础的网络社交平台,有对社会热点话题敏锐,数据资源丰富多样等特点。新浪微博作为流行的中文社交网络平台,其用户评论信息对学业界和工业界来说都是宝贵的研究资料。近年来多项关于新浪微博评论的创新研究发表。微博用户信息分析在用户观点挖掘以及标签推荐、用户情绪分析等应用上存在着巨大的挖掘潜力。相关技术中,分类系统着重研究微博用户的情绪分析。情绪分析对于线上用户对于产品的反馈、话题的流行、舆论的分析有着的辅助作用,并广泛应用于执法部门监控、正向舆论导向、产品使用分析、流行趋势预测等具体应用领域。结合新浪微博的流行应用平台,能十分有效地反应用户的对于某具体事物的具体观点,具有实时性、话题敏感性和多变性的特点。情感分析作为自然语言处理的重要组成部分,也是人工智能中的一个重要研究领域。微博用户信息分析蕴含的极大的研究价值仍表明,这是个值得探索的领域。情绪分析作为自然语言处理乃至文本处理的重要组成部分,对其基于微博用户评论的情绪分类是十分必要和具有应用价值的。为了实现基于微博用户评论信息的层次情绪分类,需要解决三个方面的主要难题:1)短文本词性特征和句法特征的抽取。2)词性特征与句法特征的融合。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的一个目的在于提出一种基于权重学习和多特征抽取的多情绪分类方法,该方法可以有效地对微博用户进行层次情绪分类,简单易实现。本专利技术的另一个目的在于提出一种基于权重学习和多特征抽取的多情绪分类装置。为达到上述目的,本专利技术一方面实施例提出了一种基于权重学习和多特征抽取的多情绪分类方法,包括以下步骤:从互联网上获取多条用户发布的微博文本;对所述多条微博文本进行预处理,以抽取多个词性特征词和多个句法特征词;通过权重学习融合所述多个词性特征词和多个句法特征词,以得到句子信息;根据所述句子信息训练情绪分类体系中每个节点的二分类器,以构建所述情绪分类体系,并通过所述分类体系实现情绪分类;根据分类结果得到所述多条用户发布的微博文本的情绪分类信息。本专利技术实施例的基于权重学习和多特征抽取的多情绪分类方法,针对微博文本的内容,通过抽取词性和句法特征抽取,并且通过学习权重的方法融合了词性和句法特征,符合文本特点的模块引用提高了分类的准确性,获得了较好的分类结果,通过利用抽取出的词性特征和依存句法特征,并使用权重融合词性特征和依存句法特征,从而对微博用户情绪细进行分类,有效地对微博用户进行层次情绪分类,简单易实现。另外,根据本专利技术上述实施例的基于权重学习和多特征抽取的多情绪分类方法还可以具有以下附加的技术特征:进一步地,在本专利技术的一个实施例中,所述对所述多条微博文本进行预处理为对微博文本进行分词、词性标注和句法依存分析。进一步地,在本专利技术的一个实施例中,根据名词、动词、形容词和副词抽取所述多个词性特征词,并且根据句法结构特征抽取所述多个句法特征,其中,所述句法结构特征包括动补结构、关联结构、后附加结构、定中结构、动宾结构、主谓结构、状中结构、并列结构和核心。进一步地,在本专利技术的一个实施例中,在词性抽取中,否定词与后一个词集合成一个词,以进行词向量表示之后再进行抽取。进一步地,在本专利技术的一个实施例中,所述通过权重学习融合所述多个词性特征词和多个句法特征词进一步包括:运用权重和阈值将所述多个词性特征词的预测值和所述多个句法特征词的预测值相融合,以得到所述句子信息。为达到上述目的,本专利技术另一方面实施例提出了一种基于权重学习和多特征抽取的多情绪分类装置,包括:获取模块,用于从互联网上获取多条用户发布的微博文本;抽取模块,用于对所述多条微博文本进行预处理,以抽取多个词性特征词和多个句法特征词;融合模块,用于通过权重学习融合所述多个词性特征词和多个句法特征词,以得到句子信息;构建模块,用于根据所述句子信息训练情绪分类体系中每个节点的二分类器,以构建所述情绪分类体系,并通过所述分类体系实现情绪分类;分类模块,用于根据分类结果得到所述多条用户发布的微博文本的情绪分类信息。本专利技术实施例的基于权重学习和多特征抽取的多情绪分类装置,针对微博文本的内容,通过抽取词性和句法特征抽取,并且通过学习权重的方法融合了词性和句法特征,符合文本特点的模块引用提高了分类的准确性,获得了较好的分类结果,通过利用抽取出的词性特征和依存句法特征,并使用权重融合词性特征和依存句法特征,从而对微博用户情绪细进行分类,有效地对微博用户进行层次情绪分类,简单易实现。另外,根据本专利技术上述实施例的基于权重学习和多特征抽取的多情绪分类装置还可以具有以下附加的技术特征:进一步地,在本专利技术的一个实施例中,所述对所述多条微博文本进行预处理为对微博文本进行分词、词性标注和句法依存分析。进一步地,在本专利技术的一个实施例中,根据名词、动词、形容词和副词抽取所述多个词性特征词,并且根据句法结构特征抽取所述多个句法特征,其中,所述句法结构特征包括动补结构、关联结构、后附加结构、定中结构、动宾结构、主谓结构、状中结构、并列结构和核心。进一步地,在本专利技术的一个实施例中,在词性抽取中,否定词与后一个词集合成一个词,以进行词向量表示之后再进行抽取。进一步地,在本专利技术的一个实施例中,所述融合模块具体用于运用权重和阈值将所述多个词性特征词的预测值和所述多个句法特征词的预测值相融合,以得到所述句子信息。本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1为根据本专利技术实施例的基于权重学习和多特征抽取的多情绪分类方法的流程图;图2为根据本专利技术一个实施例的基于权重学习和多特征抽取的多情绪分类方法的流程图;图3为根据本专利技术一个实施例的求权重最优解的算法流程图;图4为根据本专利技术一个实施例的求阈值最优解的算法流程图;图5为根据本专利技术实施例的基于权重学习和多特征抽取的多情绪分类装置的结构示意图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。下面参照附图描述根据本专利技术实施例提出的基于权重学习和多特征抽取的多情绪分类方法及装置,首先将参照附图描述根据本专利技术实施例提出的基于权重学习和多特征抽取的多情绪分类方法。图1是本专利技术实施例的基于权重学习和多特征抽取的多情绪分类方法的流程图。如图1所示,该基于权重学习和多特征抽取的多情绪分类方法包括以下步骤:在步骤S101中,从互联网上获取多条用户发布的微博文本。在步骤S102中,对多条微博文本进行预处理,以抽取多个词性特征词和多个句法特征词。其中,在本专利技术的一个实施例中,对多条微博文本进行预处理为对微博文本进行分词、词性标注和句法依存分析。进一步地,在本专利技术的一个实施例中,根据名词、动词、形容词和副词抽取多个词性特征词,并且根据句法结构特征抽取多个句法特征,其中,本文档来自技高网...
【技术保护点】
一种基于权重学习和多特征抽取的多情绪分类方法,其特征在于,包括以下步骤:从互联网上获取多条用户发布的微博文本;对所述多条微博文本进行预处理,以抽取多个词性特征词和多个句法特征词;通过权重学习融合所述多个词性特征词和多个句法特征词,以得到句子信息;根据所述句子信息训练情绪分类体系中每个节点的二分类器,以构建所述情绪分类体系,并通过所述分类体系实现情绪分类;以及根据分类结果得到所述多条用户发布的微博文本的情绪分类信息。
【技术特征摘要】
1.一种基于权重学习和多特征抽取的多情绪分类方法,其特征在于,包括以下步骤:从互联网上获取多条用户发布的微博文本;对所述多条微博文本进行预处理,以抽取多个词性特征词和多个句法特征词;通过权重学习融合所述多个词性特征词和多个句法特征词,以得到句子信息;根据所述句子信息训练情绪分类体系中每个节点的二分类器,以构建所述情绪分类体系,并通过所述分类体系实现情绪分类;以及根据分类结果得到所述多条用户发布的微博文本的情绪分类信息。2.根据权利要求1所述的基于权重学习和多特征抽取的多情绪分类方法,其特征在于,所述对所述多条微博文本进行预处理为对微博文本进行分词、词性标注和句法依存分析。3.根据权利要求1所述的基于权重学习和多特征抽取的多情绪分类方法,其特征在于,根据名词、动词、形容词和副词抽取所述多个词性特征词,并且根据句法结构特征抽取所述多个句法特征,其中,所述句法结构特征包括动补结构、关联结构、后附加结构、定中结构、动宾结构、主谓结构、状中结构、并列结构和核心。4.根据权利要求1所述的基于权重学习和多特征抽取的多情绪分类方法,其特征在于,在词性抽取中,否定词与后一个词集合成一个词,以进行词向量表示之后再进行抽取。5.根据权利要求1所述的基于权重学习和多特征抽取的多情绪分类方法,其特征在于,所述通过权重学习融合所述多个词性特征词和多个句法特征词进一步包括:运用权重和阈值将所述多个词性特征词的预测值和所述多个句法特征词的预测值相融合,以得到所述句子信息。6.一种...
【专利技术属性】
技术研发人员:徐华,
申请(专利权)人:清华大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。