本发明专利技术涉及模式识别领域,公开了一种基于集成学习的中文评论文本的情感分类方法和基于该方法的系统。包括:a)从网页中获取中文评论文本,并进行预处理,b)并行地序列训练多分类器系统,c)用基分类器对待分类的评论文本分类,将分类输出转化为直觉模糊数,d)结合基分类器的权重和引导变量,融合待分类的评论文本的情感倾向,并做出分类决策。本发明专利技术具有以下优点:训练和分类速度极快;采取序列学习策略,便于发现新兴词汇,降低对语料库的要求;通过集成学习来提高分类准确率,因而基于该方法的系统能更好地支持管理或购买决策。
【技术实现步骤摘要】
本专利技术是针对评论文本的情感分类方法的研究,涉及模式识别领域,特别是涉及一种基于集成学习的中文评论文本的情感分类方法与基于该方法的系统。
技术介绍
互联网的普及以及多种新型网络媒体的出现不仅给人们带来了海量的信息,同时也给人们提供了各种表达自己情感的舞台,比如BLOG, BBS,新闻评论等在线评论平台。于是如何科学高效的管理这些包含个人情感色彩的网络的在线评论对个人、企业、社会安全都尤为重要。然而,这些评论文本相比普通文本有明显的不同一是评论文本没有固定的语法结构,长度短,甚至随着时间的推移不断地出现新词汇,也称之为新型文本;二是对其管理的首要任务是了解网民对评论主体的情感态度,比如酒店经理最关心的是顾客对酒店的服务满意与否。·现有的评论文本的情感分类方法可以分为两类。一类是借鉴传统文本分类的方法,利用特征表示文本,利用机器学习的方法预测情感倾向。但由于没有考虑特征之间的关系,分类性能不够好。另一类方法分别累计文本中的积极(Pos)情感和消极(Neg)情感,从而判断文本的整体情感倾向。这类方法更适合情感分类问题。其中两个关键问题是情感特征之间的关系的描述和所表达情感的累加方式。现有技术表明定量描述特征的模糊性可以提高分类效果。然而,现有方法均只利用特征对文本属于某类别的支持程度,直接忽视特征对文本不属于某类别的支持程度,没有充分利用从语料库中提取的信息。在具体的情感分类技术中,主要需要解决的问题有两个特征选择与分类算法。这两个问题都是相对于传统的文本分类而言的。特征选择方法有n-gram(unigram, bigram, trigram)、词性、语义树等,但这些方法孰优孰劣尚在争论之中。分类算法的研究已经从传统的机器学习算法转向基于总体情感倾向合成的方法,即先确定每个特征的情感倾向,然后集结文本中的所有特征的情感倾向,得到文本的情感倾向,而这种方法都可以用一定形式的集结算子来表示。名称为“Ensemble of feature setsand classification algorithms for sentiment classification”,作者为 Rui Xia,Chengqing Zong, Shoushan Li 发表于〈〈Information Science〉〉的文献(一下称为文献 I)首次提出了利用分类器集成的方法来提高分类器集成的效果。然而,现有的研究在以下方面有待改进(I)文献I提出的基于集成学习的解决方案中基分类器的类型为NaiveBayes分类器、最大熵分类器和支持向量机。当基分类器数量较大时,这些传统的分类器将给系统带来很大的时间和空间的开销。这在很大程度上限制了该技术的应用范围。(2)集成学习虽然能很好的改善单分类器的不稳定性,但传统的集成学习方法只简单的考虑分类器对样本属于类别的支持程度,忽视了分类器输出同时还包含着样本不属于类别的程度,没有定量地考虑分类器输出的模糊的或概率的不确定性。这就导致了集成分类方法有时并没有很大程度地改善分类性能。(3)现有技术中的分类器训练过程均为一次性完成的,这就要求在系统开始运行时就准备好一个足够充分的训练语料库。然而语料库的准备是很困难的。更重要的是,一次性训练好的分类器无法捕捉一些新兴词汇在表达情感时的作用。
技术实现思路
为了解决上述问题,提高中文评论文本的情感倾向的辨识率,为企业管理者以及潜在客户提供更有效的决策支持,本专利技术公开了一种基于集成学习的中文评论文本的情感分类方法及基于该方法的系统,该方法主要通过序列学习来训练多个基分类器,再通过直觉模糊集结算子集成多个基分类器的分类结果,进而预测评论文本的情感倾向。为了实现上述专利技术目的,本专利技术采用的技术方案如下基于集成学习的中文评论文本的情感分类方法,包括以下步骤步骤101 :从网页中获取中文评论文本,并进行预处理;·步骤102 :并行地序列训练多分类器系统;步骤103 :用基分类器对待分类的中文评论文本分类,将分类输出转化为直觉模糊矩阵;步骤104 :结合基分类器的权重和引导变量,融合待分类的中文评论文本的情感倾向,并作出分类决策。本专利技术还提供了一种基于上述情感分类方法的系统,包括初始化模块Ml、基分类器训练模块M2和分类模块M3,其中初始化模块Ml、基分类器训练模块M2和分类模块M3依次串行连接,同时初始化模块Ml和分类模块M3串行连接。a)初始化模块Ml :从网页中获取评论文本,并初始化。包含评论获取单元U11、文本向量初始化单元U12 ;b)基分类器训练模块M2 :按训练语料准备就绪的时间顺序,并行地序列训练多个ELM (Extreme Learning Machine)分类器,并计算相关参数值。包含基分类器训练单元U21、权重、引导变量获取单元U22 ;c)分类模块M3 :用基分类器训练单元U22中训练的分类器模型对待分类样本分类,其输出汇总为分类器输出矩阵,将基分类器输出矩阵转换为直觉模糊矩阵,结合分类器权重和引导变量融合直觉模糊信息并做出分类决策。包含基分类器调用单元U31、输出转换单元U32、基分类器融合单元U33和分类决策单元U34 ;相比本领域的现有技术,本专利技术的适用于中文评论文本的情感分类方法具有以下优点(I)本专利技术采用的基分类器为ELM分类器,比文献I的基分类器具有更好的辨识率和稳定性,而且训练速度极其迅速,能够满足对时间敏感的网络应用的需求。(2)本专利技术技术在融合多分类器的输出时采用直觉模糊集的引导型加权融合方法,该方法同时考虑了待分类样本属于某类别的隶属度和非隶属度,量化了分类器的不确定性,并融入分类器的融合过程中,降低了系统的不确定性,提高集成学习的效率。(3)本专利技术采用序列学习策略,一方面降低了对语料库的初始准备的要求,另一方面通过及时补充新的训练语料来捕获新兴词汇对表达情感倾向的影响。附图说明图I是本专利技术基于集成学习的中文评论文本的情感分类方法的流程图。图2是本专利技术分类方法中多分类器系统训练的流程图。图3是本专利技术分类方法中分类器输出转换与融合的流程图。图4是本专利技术实施例在第一个语料库上的测 结果图。图5是本专利技术实施例在第二个语料库上的测试结果图。图6是本专利技术实施例在第三个语料库上的测试结果图。图7是实现本专利技术分类方法的模块的结构图。具体实施例方式以下结合附图和具体实施例对本专利技术作具体说明。本专利技术的基于集成学习的中文评论文本的情感分类方法如图I所示,包括以下步骤步骤101 :从网络中获取中文评论文本,并进行预处理;步骤102 :并行地序列训练多分类器系统;步骤103 :用基分类器对待分类的中文评论文本分类,将分类输出转化为直觉模糊数;步骤104 :结合基分类器的权重和引导变量,融合待分类的中文评论文本的情感倾向,并做出分类决策。以下进一步详细的说明本专利技术中的各个细节问题。评论文本的情感分类是将文本按其表达的情感倾向分为若干类别。分类的粒度根据实际应用需要大小不一,可以粗略的分为2类(褒义(P0S类)、贬义(NEG类)),也可以分为3类(褒义(P0S类)、贬义(NEG类)和中性(NEUTRAL类)),还可以更详细地分为5类(将POS类和NEG类分别按其程度各分为2类)。本专利技术对情感类别的粒度不做具体的限制,根据集体的应用环境的需要进行设置本文档来自技高网...
【技术保护点】
基于集成学习的中文评论文本的情感分类方法,其特征在于,所述方法包括:步骤101:从网页中获取中文评论文本,并进行预处理;步骤102:并行地序列训练多分类器系统;步骤103:用基分类器对待分类的中文评论文本分类,将分类输出转化为直觉模糊数;步骤104:结合基分类器的权重和引导变量,融合待分类的中文评论文本的情感倾向,并做出分类决策。
【技术特征摘要】
【专利技术属性】
技术研发人员:钱钢,王海,沈玲玲,乔爱萍,
申请(专利权)人:钱钢,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。