当前位置: 首页 > 专利查询>钱钢专利>正文

基于集成学习的中文评论文本的情感分类方法与系统技术方案

技术编号：7996339 阅读：196 留言：0更新日期：2012-11-22 05:10

本发明专利技术涉及模式识别领域，公开了一种基于集成学习的中文评论文本的情感分类方法和基于该方法的系统。包括：a)从网页中获取中文评论文本，并进行预处理，b)并行地序列训练多分类器系统，c)用基分类器对待分类的评论文本分类，将分类输出转化为直觉模糊数，d)结合基分类器的权重和引导变量，融合待分类的评论文本的情感倾向，并做出分类决策。本发明专利技术具有以下优点：训练和分类速度极快；采取序列学习策略，便于发现新兴词汇，降低对语料库的要求；通过集成学习来提高分类准确率，因而基于该方法的系统能更好地支持管理或购买决策。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术是针对评论文本的情感分类方法的研究，涉及模式识别领域，特别是涉及一种基于集成学习的中文评论文本的情感分类方法与基于该方法的系统。
技术介绍
互联网的普及以及多种新型网络媒体的出现不仅给人们带来了海量的信息，同时也给人们提供了各种表达自己情感的舞台，比如BLOG, BBS,新闻评论等在线评论平台。于是如何科学高效的管理这些包含个人情感色彩的网络的在线评论对个人、企业、社会安全都尤为重要。然而，这些评论文本相比普通文本有明显的不同一是评论文本没有固定的语法结构，长度短，甚至随着时间的推移不断地出现新词汇，也称之为新型文本；二是对其管理的首要任务是了解网民对评论主体的情感态度，比如酒店经理最关心的是顾客对酒店的服务满意与否。·现有的评论文本的情感分类方法可以分为两类。一类是借鉴传统文本分类的方法，利用特征表示文本，利用机器学习的方法预测情感倾向。但由于没有考虑特征之间的关系，分类性能不够好。另一类方法分别累计文本中的积极(Pos)情感和消极(Neg)情感，从而判断文本的整体情感倾向。这类方法更适合情感分类问题。其中两个关键问题是情感特征之间的关系的描述和所表达情感的累加方式。现有技术表明定量描述特征的模糊性可以提高分类效果。然而，现有方法均只利用特征对文本属于某类别的支持程度，直接忽视特征对文本不属于某类别的支持程度，没有充分利用从语料库中提取的信息。在具体的情感分类技术中，主要需要解决的问题有两个特征选择与分类算法。这两个问题都是相对于传统的文本分类而言的。特征选择方法有n-gram(unigram, bigram, trigram)、词性、语义树...

【技术保护点】
基于集成学习的中文评论文本的情感分类方法，其特征在于，所述方法包括：步骤101：从网页中获取中文评论文本，并进行预处理；步骤102：并行地序列训练多分类器系统；步骤103：用基分类器对待分类的中文评论文本分类，将分类输出转化为直觉模糊数；步骤104：结合基分类器的权重和引导变量，融合待分类的中文评论文本的情感倾向，并做出分类决策。

【技术特征摘要】

【专利技术属性】
技术研发人员：钱钢，王海，沈玲玲，乔爱萍，
申请(专利权)人：钱钢，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人