一种基于全覆盖粒计算的文本特征选择方法,包括:1)对样本文本集进行分词、去停用词、词性标注;2)把位置、词性因素以不同的权重系数扩展至TFIDF算法中计算特征词的“文档‑词频”概率;3)采用bLDA主题模型生成特征词概率来计算特征词的语义信息;4)对特征词进行文本粒化,利用全覆盖粒计算的知识约简算法对特征词进行约简,得到约简后的特征词集的“文档‑词频”概率;5)联合bLDA和改进的TFIDF算法计算的特征词权重,得到约简后的特征词集的”文档‑词频”概率。采用本发明专利技术,考虑特征词的词性、位置和语义因素,同时去除对文本表意不强的特征词,从而选出更具代表的特征词集,提高聚类的精度。
【技术实现步骤摘要】
一种基于全覆盖粒计算的文本特征选择方法
本专利技术属于文本挖掘领域与全覆盖粒计算的交叉领域,具体涉及文本的特征选择与全覆盖粒计算模型,尤其涉及全覆盖粒计算的知识约简在文本特征选择中的应用。
技术介绍
文本聚类是模式识别、机器学习以及数据挖掘领域研究的重要课题,主要是将文本对象的集合分组成为由类似的对象组成的多个类,从而实现对未知文本数据的聚类。目前,主要采用向量空间模型对文本信息进行结构化表示,然而该模型存在特征空间的高维性和数据稀疏性问题。高维的特征空间不仅增加系统运算的时间复杂性和空间复杂性,而且还包含大量无效、冗余的特征,大大降低了文本聚类的质量。因而,在文本聚类中采用一种有效的特征选择方法就显得至关重要。有效的特征选择方法可以降低特征向量的维数,去除冗余特征,保留具有较强类别区分能力和表意性较强的特征,从而提高聚类的质量和鲁棒性。针对文本特征选择问题,专家学者们分别提出了一系列的解决方法,但是在解决文本特征这一关键问题上,这些方法仍存在一些问题,主要有:1)现在有很多学者采用信息增益(IG)、互信息(MI)、卡方统计(CHI)等方法,这些基于统计的方法在一定程度上可以选出有效的特征,但方法忽略了文本的语义信息。2)有些学者利用LDA主题模型作特征选择,解决了文本的语义信息,但该算法忽略了文本的词频、词的位置及词性问题,不符合文本的实际表达。因此,本专利技术致力于解决文本特征词的词频、词的位置、词性及语义问题,特征降维时在不改变文本表达的同时保留具有较强类别区分能力和表意性较强的特征词。
技术实现思路
为解决现有特征选择方法准确度差、特征表意不强的不足,本专利技术提出了一种基于全覆盖粒计算的文本特征选择方法。一种基于全覆盖粒计算的文本特征选择方法,包括以下步骤:步骤1:获取不同类别的新闻样本集,对新闻文本集的标题和正文部分分别进行预处理,所述预处理包括分词、去停用词和词性标注;步骤2:改进TFIDF方法成为改进的TFIDF方法,并用改进的TFIDF方法计算特征词的“文档-词频”概率,然后利用全覆盖粒计算的知识约简算法进行特征词约简;步骤3:用bLDA主题模型计算特征词的“文档-词频”概率,联合约简后的TFIDF算法计算的特征词权重,得到最终的特征词的权重并进行聚类处理。所述TFIDF方法的具体公式如下:其中tj表示第m篇文档中词t的词频,N表示文档总数,nj表示包含词t的文档数,分母为归一化因子。所述改进的TFIDF方法的具体公式如下:其中tfi,j的具体公式如下:其中其中λj表示词j的词性权重系数,当λ的不同取值分别为名词、动词、其他词的权重系数,tk表示第i篇文档中词j的词频,u1,u2分别表示标题和正文中词的权重系数,分别表示词j在标题和正文中的词频,l表示第i篇文档中所有词的总数。所述的全覆盖粒计算的知识约简,首先对文本进行粒度化处理,如下表1所示:表1文本粒度化关系表其中全覆盖粒计算模型的基本定义如下:设是非空论域U上的一个全覆盖,全覆盖P={Cj:j=1,…,n},定义粒Gx的中心、全覆盖粒C的中心、P的全覆盖粒度熵分别为:centerC(x)=∩{NC(x)|x∈NC(x),NC(x)∈Gx}center(C)={centerC(x)|x∈U}C的核定义为:所述的对文本进行全覆盖粒计算的知识约简的具体步骤如下:步骤1:计算特征词集D的中心center(D),并计算出D的粒度熵I(D)。步骤2:令约简后的特征词集core(D)=φ,计算特征词集中的文档集Di∈D在特征词集D中的重要度若则core(D)=core(D)∪{Di}。步骤3:计算此时I(Core(D))=I(D)是否成立,若成立则终止步骤,此时core(D)为特征词集D的最小粒约简;否则,若I(core(D))<I(D),执行步骤4。步骤4:令P=core(D)。步骤5:计算词包含的文档集Dt∈D-P相对于特征词集D的相对重要度SigP(Dt),找出满足的文档集Dt,添加到P中,P=P∪{D}。步骤6:计算此时I(P)=I(D)是否成立,若成立则终止步骤,此时的P即为特征词集D的一个约简;否则返回步骤5。所述的bLDA主题模型中的GibbsSampling采样的具体公式如下:其中zi表示第i个特征词对应的主题变量,┐i表示不计入第i项,表示第m篇文档中词t的词频,表示词t分配给主题k(k≠0)的词频,表示第m篇文档中分配给主题k(k=0)的词频,K表示主题个数,V表示文档集中所有词的总数,lamda表示背景主题的先验概率,βt表示词t的狄利克雷先验分布,αk表示主题k的狄利克雷先验分布。附图说明图1是本专利技术的流程图。具体实施方式为使本专利技术之目的、技术方案和优点阐述更加清晰,下面用实际用例对本专利技术做进一步的详细描述。利用网络爬虫从搜狐新闻上获取一定数量的多个不同领域的新闻,对这些文章进行分析整理,去除相同的新闻及新闻中的非文本符号,作为样本集。为了从文中选取具有代表性的特征词集,对样本集的标题和正文部分分别进行分词、去停用词及词性标注。计算特征词的概率时采用改进的TFIDF方法,不同位置、不同词性的词赋予不同的权重系数。例如某篇新闻可以表示为:di={ti|ti1,ti2,ti3,ti4,...,tim},其中ti表示该篇新闻词的集合,ti1,ti2,ti3表示标题中的词,其余的表示正文中的词,若ti1,ti3是名词,ti2是动词,ti4是名词,ti5是动词,ti6是其它词性的词,则权重比例是ti1,ti3>ti2>ti4>ti5>ti6。改进TFIDF计算的结果可以表示为二维矩阵,行表示文档编号,列表示特征词,例如矩阵中0.112表示第一篇文档中词t11的概率,0表示该篇文档中没有该词,第一篇文档中就没有t12,t11在第二篇文档中的概率是0.108。将该二维矩阵中大于0的值置1,等于0的值不变,然后将该矩阵转置,例如将上述例子设置后变为此时行表示特征词,列表示文档编号。上述可以写为t1={d1,d2,...},t2={d2,...},...,tV={...dN},对应全覆盖粒计算模型的概念。以全覆盖粒计算的知识约简为例,详细说明约简过程。设论域U={x1,x2,x3,x4,x5},全覆盖C={C1,C2,C3,C4,C5,C6},其中C1={x1},C2={x2,x3},C3={x3,x4},C4={x3},C5={x5},C6={x1,x5}。(1)x的领域分别为NC(x1)=C1和C6,NC(x2)=C2,NC(x3)=C2,C3和C4,NC(x4)=C3,NC(x5)=C5和C6;x的领域系统分别为NSC(x1)={C1,C6}={{x1},{x1,x5}},NSC(x2)={C2}={{x2,x3}},NSC(x3)={C2,C3,C4}={{x2,x3},{x3,x4},{x3}},NSC(x4)={C3}={{x3,x4}},NSC(x5)={C5,C6}={{x5},{x1,x5}};(2)U上带中心的粒(3)全覆盖粒C的中心center(C)={{x1},{x2,x3},{x3},{x3,x4},{x5}},全覆盖粒度熵(4)全覆盖C中的基本粒的重要度(5)核core(C)={C1,C2,C3,C5},I(本文档来自技高网...
【技术保护点】
1.一种基于全覆盖粒计算的文本特征选择方法,其特征在于,具体包括以下步骤:(1):获取不同类别的新闻样本集,对新闻样本集进行预处理,所述预处理包括分词、去停用词和词性标注;(2):采用改进的TFIDF方法计算特征词的“文档‑词频”概率,得到“文档‑词频”矩阵w,然后利用全覆盖粒计算的知识约简算法进行特征词约简;(3):采用bLDA主题模型计算特征词的“文档‑词频”概率,联合约简后的TFIDF算法计算的特征词权重,得到最终的特征词的权重并进行聚类处理。
【技术特征摘要】
1.一种基于全覆盖粒计算的文本特征选择方法,其特征在于,具体包括以下步骤:(1):获取不同类别的新闻样本集,对新闻样本集进行预处理,所述预处理包括分词、去停用词和词性标注;(2):采用改进的TFIDF方法计算特征词的“文档-词频”概率,得到“文档-词频”矩阵w,然后利用全覆盖粒计算的知识约简算法进行特征词约简;(3):采用bLDA主题模型计算特征词的“文档-词频”概率,联合约简后的TFIDF算法计算的特征词权重,得到最终的特征词的权重并进行聚类处理。2.如权利要求1所述的一种基于全覆盖粒计算的文本特征选择方法,其特征在于所述的对新闻样本集进行预处理,是对新闻文本的标题和正文分别分词。3.如权利要求1所述的一种基于全覆盖粒计算的文本特征选择方法,其特征在于:所述改进的TFIDF算法的公式如下:其中其中λj表示词j的词性权重系数,当λ的不同取值分别为名词、动词、其他词的权重系数,tk表示第i篇文档中词j的词频,u1,u2分别表示标题和正文中词的权重系数,分别表示词j在标题和正文中的词频,l表示第i篇文档中所有词的总数。4.如权利要求1所述的一种基于全覆盖粒计算的文本特征选择方法,其特征在于TFIDF算法的公式如下:式中tj表示第m篇文档中词t的词频,N表示文档总数,nj表示包含词t的文档数,分母为归一化因子。5.如权利要求1所述的一种基于全覆盖粒计算的文本特征选择方法,其特征在于:“文档-词频”概率p大于0时...
【专利技术属性】
技术研发人员:谢珺,邹雪君,靳红伟,续欣莹,
申请(专利权)人:太原理工大学,
类型:发明
国别省市:山西,14
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。