一种基于信息熵与词长信息改进的HIDFWL特征提取方法技术

技术编号：24331638 阅读：40 留言：0更新日期：2020-05-29 19:52

本发明专利技术公开了一种基于信息熵与词长信息改进的HIDFWL特征提取方法，属于文本特征提取方法领域，包括：将训练集文本预处理得到文本列表和类别列表；将文本列表中所有不重复的特征词组成特征词列表；计算特征词表中特征词的IDF，所有特征词的IDF组成IDF向量；计算特征词的信息熵与词长权重，利用信息熵与词长权重计算得到信息值，将所有特征词的信息值组成文本向量；利用IDF向量与文本向量得到特征向量，并将特征向量归一化得到特征矩阵；利用特征矩阵与类别列表对分类器进行训练；利用测试文本对训练后的分类器进行测试；利用测试后的分类器对文本进分类。利用本发明专利技术所述的HIDFWL特征提取方法对文进行分类，提高了文本分类的准确率、查全率、召回率以及F1‑score值。

An improved hidfwl feature extraction method based on information entropy and word length information

全部详细技术资料下载

【技术实现步骤摘要】
一种基于信息熵与词长信息改进的HIDFWL特征提取方法
本专利技术涉及文本特征提取的方法，具体涉及一种基于信息熵与词长信息改进的HIDFWL特征提取方法。
技术介绍
随着互联网的迅速发展，每天的生活中数据文本也呈现着爆炸性的增长，对于文本分类的工作者来说，增加了巨大的工作量，面对大数据量的文本，采取人工手动的特征提取进行文本分类显得非常的困难，为了能高效的进行文本分类的工作，就有了文本分类的算法模型。文本分类的过程包括文本预处理、文本分词、去停用词、特征提取、训练分类器等，其中，特征提取对文本分类的效果有着非常大的影响，所以对特征提取算法的研究是很有必要的。1988年，SaltonG首次提出了TFIDF算法，并论证了TFIDF算法在文本分类中的有效性，TFIDF算法的核心思想是文本中词条x出现的频率大，文档集中包含词条x的文本数少就说明这个词条x有较大的区分能力(Erm-weightingapproachesinautomatictextretrieval[M].PergamonPress,Inc.1988.)。传统的TFIDF算法涉及到了两个概念：特征词在文本中的频率和特征词的逆文本频率(IDF)；其中，特征词在文本中的频率表达的是包含特征词x的文本在文本集中出现的频繁程度；包含特征词x的文本越小，就说明特征词x集中在少数的几个文本中，则特征词x区分文本的能力就强；传统的TFIDF算法具体的计算公式如公式1所示：其中x表示的是词条；d表示文本；tf(x)表示的是词条x在文本中的频率；...

【技术保护点】
1.一种基于信息熵与词长信息改进的HIDFWL特征提取方法，其特征在于，包括：/n步骤1、对训练集文本进行分词，去掉停用词，将训练集文本与其对应的类别分别放到文本列表和文本类别列表；/n步骤2、将步骤1中文本列表内所有训练集文本中不重复的特征词组成特征词列表；/n步骤3、计算步骤2中获取的特征词列表中每一特征词的IDF值，所有特征词的IDF值组成IDF向量；/n步骤4、按照步骤2中特征词列表中特征词的顺序计算每一个特征词的信息熵与词长权重，利用信息熵与词长权重计算每一个特征词的信息值，将文本列表中单篇训练集文本中所有特征词的信息值组成文本向量；/n步骤5、利用步骤3得到的IDF向量与步骤4得到的文本向量计算得到特征向量，对特征向量进行归一化，将文本列表中所有训练集文本归一化后的特征向量合成特征矩阵；/n步骤6、将步骤5中的特征矩阵与对应的文本类别列表输入到分类器中，对分类器进行训练；/n步骤7、利用测试文本对训练后的分类器进行测试；/n步骤8、利用测试后的分类器对文本进分类。/n

【技术特征摘要】
1.一种基于信息熵与词长信息改进的HIDFWL特征提取方法，其特征在于，包括：
步骤1、对训练集文本进行分词，去掉停用词，将训练集文本与其对应的类别分别放到文本列表和文本类别列表；
步骤2、将步骤1中文本列表内所有训练集文本中不重复的特征词组成特征词列表；
步骤3、计算步骤2中获取的特征词列表中每一特征词的IDF值，所有特征词的IDF值组成IDF向量；
步骤4、按照步骤2中特征词列表中特征词的顺序计算每一个特征词的信息熵与词长权重，利用信息熵与词长权重计算每一个特征词的信息值，将文本列表中单篇训练集文本中所有特征词的信息值组成文本向量；
步骤5、利用步骤3得到的IDF向量与步骤4得到的文本向量计算得到特征向量，对特征向量进行归一化，将文本列表中所有训练集文本归一化后的特征向量合成特征矩阵；
步骤6、将步骤5中的特征矩阵与对应的文本类别列表输入到分类器中，对分类器进行训练；
步骤7、利用测试文本对训练后的分类器进行测试；
步骤8、利用测试后的分类器对文本进分类。

2.根据权利要求1所述的基于信息熵与词长信息改进的HIDFWL特征提取方法，其特征在于，步骤3中，所述的IDF计算公式为公式(1)所示：
IDF＝log(n/(N+0.01))(1)
其中，N为文本列表中的文本总数量；n为文本列表中包含词条X的文本数；加0.01是为了防止分母为零。

3.根据权利要求1所述的基于信息熵与词长信息改进的HIDFWL特征提取方法，其特征在于，步骤4中，所述的利用信息熵与词长权重计算特征词的信息值，包括：
步骤4.1，按照特征词列表中的顺序统计文本列表中每篇训练集文本的特征词的分布概率；
步骤4.2，根据特征词的分布概率计算特征词的信息熵；所述的信息熵计算公式为公式(2)所示：
h(x)＝-p(x)×logp(x)(2)
其中，h(x)为特征词X的信息熵；p(x)为特征...

【专利技术属性】
技术研发人员：金燕，黄杰，
申请(专利权)人：浙江工业大学，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人