本发明专利技术提出了一种计算机文本情感分类方法,包括以下步骤:使用两种方法表示文本:使用词袋的方法把文本表示为一个由一组特征组成的特征向量;使用图的方法把整个特征空间表示为一个有向无环图,图上的每一个节点为一个特征;用L1-正则化逻辑回归作为特征选择工具进行特征空间降维。用降维后的特征向量和特征空间中的子图作为输入,利用图稀疏化逻辑回归分类器模型为文本分类。本发明专利技术对现有的基于词袋的文本表示方法进行改善和提高,能够避免词袋方法导致的文本结构信息丢失的问题。特征空间上建立的有向无环图可以很好地表示出文本的结构信息。同时,L1-正则化逻辑回归可以很好地选出关键特征,提高学习效率。
【技术实现步骤摘要】
【专利摘要】本专利技术提出了,包括以下步骤:使用两种方法表示文本:使用词袋的方法把文本表示为一个由一组特征组成的特征向量;使用图的方法把整个特征空间表示为一个有向无环图,图上的每一个节点为一个特征;用L1-正则化逻辑回归作为特征选择工具进行特征空间降维。用降维后的特征向量和特征空间中的子图作为输入,利用图稀疏化逻辑回归分类器模型为文本分类。本专利技术对现有的基于词袋的文本表示方法进行改善和提高,能够避免词袋方法导致的文本结构信息丢失的问题。特征空间上建立的有向无环图可以很好地表示出文本的结构信息。同时,L1-正则化逻辑回归可以很好地选出关键特征,提高学习效率。【专利说明】
本专利技术涉及一种计算机文本数据处理领域,特别是。
技术介绍
随着当今世界信息量的急剧增加,以及计算机网络技术迅速普及和发展,虚拟生活越来越成为人们必不可少的东西。人们在网络中发表大量的观点,评论。在信息量爆炸的网络大数据时代,对数据的计算机分类多种多样,不同的分类有不同的作用。情感分类能够快速的把握人们对一类舆情的导向。因此如何对计算机文本进行情感分类成为重要的技术问题。比如,人们对某一个电影的影评,对某一部手机的评价等。能够自动的预测人们发表的评论的情感,可以帮助预测人们对某件事物的看法,进而有利于进一步改进产品等。用计算机自动的为这些评论进行情感分类,成为了当下非常热门的研究课题。文本的情感分类就是根据文本的内容,利用计算机给一个文本安排一个情感(正情感和负情感)。对于一个文本的情感分类任务,首先把每一个文本都映射到一个高维欧几里得空间,然后使用特征选择方法或特征抽取方法选出一部分对分类有用的特征。利用机器学习里的分类器,从大量的训练数据中学习出分类器模型,最后用这个分类器模型对未知情感的文本进行分类。近年来,随着机器学习技术的发展,文本情感分类方法取得了一系列重要的进展。而在文本的表示步骤中,基于词袋的文本表示方法因为其简单,高效的性质而得到了广泛的应用。但是这种表示方法忽略了文本的结构信息,无法表示出文本中词与词之间的内在结构关系。比如下面这个例子,他们是来自真实的用户评论数据库中,是用户对同一款数码相机的评价,并且这四个文本表达了同一个意思“在取景窗中可以看到镜头”:文本1: lens visible in optical viewfinder.文本2: lens is visible in the viewfinder.文本 3:lens barrel in the viewfinder.文本 4: the lens barrel does obstruct part of the lower left corner inthe lens viewfinder.通过这四个文本我们可以发现,如果一个句子中有Iens和viewfinder这两个词同时出现在一起,这个评论就很有可能是一个负面评论。但是基于词袋的文本表示方法独立的看待每一个特征,并不能表示出这两个词同时出现在一起这个信息。而基于图的文本表示方法可以克服这个问题,构建三阶的有向图就可以把边Iens — viewfinder这个重要信息建立出来。这样,这个有向边就会帮助学习器找出这个隐含的规律,从而提高文本情感分类的精度。
技术实现思路
专利技术目的:本专利技术所要解决的技术问题是针对现有技术的不足,提供。为了解决上述技术问题,本专利技术公开了一种文本情感分类方法,包括以下步骤:步骤一,使用词袋方法处理计算机文本:使用词袋方法把计算机文本表示为一个由一组特征组成的特征向量,每个计算机文本包括一个类标;步骤二,使用图的方法处理计算机文本:使用有向无环图的方法把根据特征向量得到的整个特征空间表示为一个子图G,图上的每一个节点为一个特征;步骤三,使用L1-正则化逻辑回归作为特征选择工具进行特征空间降维;步骤四,利用图稀疏化逻辑回归分类器模型为文本分类。本权利步骤一包括以下步骤:对于计算机文本集合Doc中的文本d=Cl,c2, -Cj-, ck,其中Cj为文本d中的第j个词(英文文本中的单词,中文文本需要经过分词得到每一个词),j=l,2,…k,k表示文本d的总词数,用词袋的方法把文本d的表示为一个由一组特征组成的特征向量,表示为:(CI1, Q2,…,akk),其中,kk表示文本d去掉停用词后的总词数,特征向量中的每一维表示一个特征S,一个特征s对应一个词a。本权利步骤一包括以下步骤:根据词频逆向文件频率(tf ?idf)的计算公式计算特征向量中第i个特征Si在第j个文本中的权重Wij:【权利要求】1.,其特征在于,包括以下步骤: 步骤一,使用词袋方法处理计算机文本:使用词袋方法把计算机文本表示为一个由一组特征组成的特征向量,每个计算机文本包括一个类标; 步骤二,使用图的方法处理计算机文本:使用有向无环图的方法把根据特征向量得到的整个特征空间表示为一个子图G,图上的每一个节点为一个特征; 步骤三,使用L1-正则化逻辑回归作为特征选择工具进行特征空间降维; 步骤四,利用图稀疏化逻辑回归分类器模型为文本分类。2.根据权利要求1中所述的方法,其特征在于,步骤一包括以下步骤: 对于计算机文本集合Doc中的文本Cl=C1, C2, -Cj-, ck,其中Cj为文本d中的第j个词,j=l, 2,…k,k表示文本d的总词数,用词袋的方法把文本d的表示为一个由一组特征组成的特征向量,表示为=U1, Ci2,…,akk),其中,kk表示文本d去掉停用词后的总词数,特征向量中的每一维表示一个特征S, —个特征s对应一个词α。3.根据权利要求2所述的方法,其特征在于,步骤一包括以下步骤: 根据词频逆向文件频率的计算公式计算特征向量中第i个特征Si在第j个文本中的权重Wij: 4.根据权利要求1中所述方法,其特征在于,步骤二包括以下步骤: 根据文本集合Doc中所有文本,抽取全部非重复特征,做为特征空间; 根据每一个文本的词序结构,以特征空间中每一个特征为节点,建立一个有向无环图dG。5.根据权利要求4中所述方法,其特征在于,步骤二包括以下步骤: 有向无环图中每一条边的代价Ce采用下面的计算公式进行计算: 6.根据权利要求1中所述方法,其特征在于,步骤三包括以下步骤: 根据L1-正则化逻辑回归分类器的目标函数计算学习的参数β: 7.根据权利要求6中所述的方法,其特征在于,步骤三包括以下步骤: 学习参数向量β中,它为维度为m的向量,每一个维度对应于特征空间中的一个特征,根据向量β中非零的维度,选择出对应的特征空间中的特征,把未被选中的特征从特征空间中去掉,同时,在每一个文本的向量形式中,去掉未被选中的特征; 假设被选中的特征共有ms个,去掉未被选中的特征后,将向量形式变为X’ j:X j- (w 1; j ? w 2,j,...W ms, j) ? W' u表示原来的向量形式中对应的一个维度的值, 对于特征空间上建立的有向无环图,同样根据向量β中非零的维度去掉有向无环图dG中未被选中的特征和相关的边,得到子图G。8.根据权利要求7中所述的方法,其特征在于,步骤四包括以下步骤: 根据图稀疏化逻辑回归分类器的目标函数: 9.根据权利要求8中所述的方法,其特征在于,本文档来自技高网...
【技术保护点】
一种计算机文本情感分类方法,其特征在于,包括以下步骤:步骤一,使用词袋方法处理计算机文本:使用词袋方法把计算机文本表示为一个由一组特征组成的特征向量,每个计算机文本包括一个类标;步骤二,使用图的方法处理计算机文本:使用有向无环图的方法把根据特征向量得到的整个特征空间表示为一个子图G,图上的每一个节点为一个特征;步骤三,使用L1?正则化逻辑回归作为特征选择工具进行特征空间降维;步骤四,利用图稀疏化逻辑回归分类器模型为文本分类。
【技术特征摘要】
【专利技术属性】
技术研发人员:戴新宇,付强,
申请(专利权)人:南京大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。