一种计算机文本情感分类方法技术

技术编号：9490113 阅读：146 留言：0更新日期：2013-12-25 23:55

本发明专利技术提出了一种计算机文本情感分类方法，包括以下步骤：使用两种方法表示文本：使用词袋的方法把文本表示为一个由一组特征组成的特征向量；使用图的方法把整个特征空间表示为一个有向无环图，图上的每一个节点为一个特征；用L1-正则化逻辑回归作为特征选择工具进行特征空间降维。用降维后的特征向量和特征空间中的子图作为输入，利用图稀疏化逻辑回归分类器模型为文本分类。本发明专利技术对现有的基于词袋的文本表示方法进行改善和提高，能够避免词袋方法导致的文本结构信息丢失的问题。特征空间上建立的有向无环图可以很好地表示出文本的结构信息。同时，L1-正则化逻辑回归可以很好地选出关键特征，提高学习效率。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】本专利技术提出了，包括以下步骤：使用两种方法表示文本：使用词袋的方法把文本表示为一个由一组特征组成的特征向量；使用图的方法把整个特征空间表示为一个有向无环图，图上的每一个节点为一个特征；用L1-正则化逻辑回归作为特征选择工具进行特征空间降维。用降维后的特征向量和特征空间中的子图作为输入，利用图稀疏化逻辑回归分类器模型为文本分类。本专利技术对现有的基于词袋的文本表示方法进行改善和提高，能够避免词袋方法导致的文本结构信息丢失的问题。特征空间上建立的有向无环图可以很好地表示出文本的结构信息。同时，L1-正则化逻辑回归可以很好地选出关键特征，提高学习效率。【专利说明】
本专利技术涉及一种计算机文本数据处理领域，特别是。
技术介绍
随着当今世界信息量的急剧增加，以及计算机网络技术迅速普及和发展，虚拟生活越来越成为人们必不可少的东西。人们在网络中发表大量的观点，评论。在信息量爆炸的网络大数据时代，对数据的计算机分类多种多样，不同的分类有不同的作用。情感分类能够快速的把握人们对一类舆情的导向。因此如何对计算机文本进行情感分类成为重要的技术问题。比如，人们对某一个电影的影评，对某一部手机的评价等。能够自动的预测人们发表的评论的情感，可以帮助预测人们对某件事物的看法，进而有利于进一步改进产品等。用计算机自动的为这些评论进行情感分类，成为了当下非常热门的研究课题。文本的情感分类就是根据文本的内容，利用计算机给一个文本安排一个情感(正情感和负情感)。对于一个文本的情感分类任务，首先把每一个文本都映射到一个高维欧几里得空间，然后使用特征选择方法或特征抽取方法选...

【技术保护点】
一种计算机文本情感分类方法，其特征在于，包括以下步骤：步骤一，使用词袋方法处理计算机文本：使用词袋方法把计算机文本表示为一个由一组特征组成的特征向量，每个计算机文本包括一个类标；步骤二，使用图的方法处理计算机文本：使用有向无环图的方法把根据特征向量得到的整个特征空间表示为一个子图G，图上的每一个节点为一个特征；步骤三，使用L1?正则化逻辑回归作为特征选择工具进行特征空间降维；步骤四，利用图稀疏化逻辑回归分类器模型为文本分类。

【技术特征摘要】

【专利技术属性】
技术研发人员：戴新宇，付强，
申请(专利权)人：南京大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人