本发明专利技术属于文献信息处理方法技术领域,具体涉及一种基于二元和三元共词潜在语义信息的文献表示方法。本发明专利技术一种基于二元和三元共词潜在语义信息的文献表示方法,包括以下步骤:第一步:对文本数据进行预处理,数据清洗,标记文献,提取每篇文献的关键词,并保留关键词与相应文献的对应关系;第二步:构建关键词空间并对所提取的关键词进行词频统计,关键词按词频降序排列,以备后续建立共现矩阵使用;第三步:以关键词在文献中是否出现为权重,构建文献表示的向量空间模型;第四步:三元共现层矩阵表示;第五步:计算关键词之间的共词矩阵;第六步:三元共现频次的计算;第七步:共现强度计算;第八步:二元、三元加权CLSVSM的构建。
【技术实现步骤摘要】
一种基于二元和三元共词潜在语义信息的文献表示方法
本专利技术属于文献信息处理方法
,具体涉及一种基于二元和三元共词潜在语义信息的文献表示方法。
技术介绍
文本数据挖掘是数据挖掘的一个主要方向,通过对出现在文本数据中的高频关键词进行词频统计分析,我们可以了解到目前某一专题领域里研究的热点。但是,仅仅对这些关键词按照出现频次由高到低的排列还不能表现出这些高频关键词之间的联系,因此可以采用共现分析的技术来进一步挖掘这些关键词之间的联系。关键词的共现分析是根据关键词在同一篇论文中共同出现的次数来表示关键词之间的联系。一般认为,如果两个关键词频繁在同一篇论文中同时出现,往往表明这两个关键词之间具有比较密切的联系,这就是共现分析的理论基础。目前,对共现分析的研究大都考虑的两两词之间的共现关系,三词共现或者更多词的共现已可以进一步挖掘和利用。根据共现理论,多词共现更能凸现主题相似性,因此理论上讲,利用多词共现的信息能提高文本语义信息的挖掘。在国内冷伏海老师首次研究了三元共词,并定义了稳定度和影响力两个指标对三元共词进行量化。与之相近的概念是三重共现,首次由庞弘燊和方曙提出,指三个以上(含三个)相同类型或不同类型特征项共同出现的现象。本研究沿用“元”的概念,将两词、三词共现称为二元、三元共词或二元、三元共现,通过对关键词二元和三元共词信息的提取进而实现文献向量的表示。
技术实现思路
本专利技术的目的是提供一种基于二元和三元共词潜在语义信息的文献表示方法。本专利技术为实现上述目的而采取的技术方案为:一种基于二元和三元共词潜在语义信息的文献表示方法,包括以下步骤:第一步:对文本数据进行预处理,数据清洗,标记文献,提取每篇文献的关键词,并保留关键词与相应文献的对应关系;第二步:构建关键词空间并对所提取的关键词进行词频统计,关键词按词频降序排列,以备后续建立共现矩阵使用;第三步:以关键词在文献中是否出现为权重,构建文献表示的向量空间模型如下:dl=(al1al2al3…alm)T∈Rm,l=1,2,…,n其中:dl是n篇文献中第l篇文献在欧式空间Rm中的表示向量,alj为第j个关键词在第l篇文献中的权重,当第j个关键词是文献dl的关键词时alj等于1,否则为0;l为文献序号,n为文献总篇数,m为关键词集中总关键词的个数,Rm为欧式空间,T表示转置运算,文献集的“篇-词”矩阵A=(alj)n×m;第四步:三元共现层矩阵表示其中:表示第j个关键词与所有关键词对(ti,tk)(i,k=1,2,…,m)的三元共现矩阵,称为三元共现的第j层,为“篇-词”矩阵A的第j列,为对角矩阵,其对角元依次为的分量;第五步:计算关键词之间的共词矩阵C=ATA,其中,当i≠j时,cij为第i个关键词与第j个关键词的共现频次,当i=j时,cii为第i个关键词的总频次;第六步:三元共现频次的计算:由于ci∪j∪k=ci+cj+ck-cij-cjk-cik+cijk所以三元共现频次为cijk=ci∪j∪k-(ci+cj+ck)+(cij+cjk+cik)其中ci∪jk为至少包含(ti,tj,tk)三词之一的文献篇数,可由“篇-词”矩阵A=(alj)n×m得到;cij、cjk和cik为关键词两两共现的频次,ci,cj和ck分别为第i,j,k个关键词各自的频次,可由关键词之间的共词矩阵C=ATA得到;第七步:共现强度计算:(1)二元共现强度计算:其中,c11,c22,…,cmm分别为第1个,第2个,……,第m个关键词的频数;当i≠j时,bij为第i个关键词与第j个关键词的共现强度,当i=j时,bii=1,即矩阵B的对角线元素全为1;(2)三元共现强度计算:bijk为第i,j,k个关键词的三元共现强度;第八步:二元、三元加权CLSVSM的构建其中,Il1={j|alj=1}为所有alj=1的j的指标集。本专利技术采用上述技术方案,通过对二元、三元共现信息的加权实现文献向量的表示,通过二元、三元共现信息的提取深度挖掘文献间的语义信息,提高文献聚类的精度。本专利技术的主要优点如下:1.该专利技术研究了一种三元共现信息的矩阵表示方法——三元共现层矩阵。研究三元共现,首要解决的是三元共现信息的表示问题,然而表示二维关系的矩阵不利于表示所有的三元共现关系。因此我们的研究给出了三元共现的层矩阵表示,即其中任何一词与任意两词的三元共现矩阵表示,具体表示方式见
技术实现思路
的第四步。2.该专利技术引入了一种三元共现频次的计算方法。该计算方法从概率论中得到启发,根据二元共现频次和关键词各自的频次求得三元共现频次。该计算方法将有效提高算法的运算速度,降低计算的复杂度。三元共现频次的计算方法详见研究内容的第六步。3.该专利技术基于二元和三元共现强度构成了二元和三元加权共现潜在语义信息的文献表示方法。在文献表示模型中,三元共现信息相比二元共现信息有更重要的潜在语义信息,也对文献主题聚类有更好的作用。因此,将两两共现信息和三元共现信息加权利用,且给三元共现信息更大的权重,提高了文献主题聚类的精度,具体表示方式见研究内容的第八步。具体实施方式实施例1一种基于二元和三元共词潜在语义信息的文献表示方法,包括以下步骤:第一步:对文本数据进行预处理,数据清洗,标记文献,提取每篇文献的关键词,并保留关键词与相应文献的对应关系:数据来源于CNKI,根据其分类,分别从信息科学下的“出版”、“图书情报与数字图书馆”和“档案及博物馆”三个学科各选300篇文献作为分析的文献,除去没有关键词的文献4篇,最终获得的文献总数为896篇,其中“出版”299篇、“图书情报与数字图书馆”298篇、“档案及博物馆”299篇,并获取不同的关键词2509个,即:文献数n=896,关键词数m=2509,表1为截取的前20篇文献及其对应的全部关键词,表1中LM为文献类别,ID为文献编号,k1-k10为文献相应关键词。表1:文献与相应关键词列表(部分)第二步:构建关键词空间并对所提取的关键词进行词频统计,关键词按词频降序排列,表2为我们实验结果中的前20个关键词及相应的词频:表2:关键词频次统计(部分)第三步:以关键词在文献中是否出现为权重,构建文献表示的向量空间模型如下:dl=(al1,al2,...,al,2509)T∈R2509,l=1,2,…,896其中:dl是896篇文献中第l篇文献在欧式空间R2509中的表示向量,因为有2509个关键词,所以欧式空间为R2509,alj(j=1,2,…,2509)为第j个关键词在第l篇文献中的权重,l为文献序号,T表示转置运算,当第j个关键词是文献dl的关键词时alj等于1,否则为0,文献集的“篇-词”矩阵为A=(alj)896×2509,表3为矩阵A在实验中的前20行和前15列在Excel中的数据呈现,该实验中矩阵A的维数为896×2509,表3中第1行记录了2509个关键词;第1列记录了类别信息;第2列记录了文献的ID;第1行第1列位置的897指使用该Excel表格897行,表3:基于VSM的“篇-词”矩阵A(部分)第四步:三元共现层矩阵表示:三元共现层矩阵的表示形式为其中:表示第j个关键词与所有关键词对(ti,tk)(i,k=1,2,…,2509)的三元共现矩阵,称为三元共现的第j层,为“篇-词”矩阵A本文档来自技高网...
【技术保护点】
一种基于二元和三元共词潜在语义信息的文献表示方法,其特征是包括以下步骤:第一步:对文本数据进行预处理,数据清洗,标记文献,提取每篇文献的关键词,并保留关键词与相应文献的对应关系;第二步:构建关键词空间并对所提取的关键词进行词频统计,关键词按词频降序排列,以备后续建立共现矩阵使用;第三步:以关键词在文献中是否出现为权重,构建文献表示的向量空间模型如下:d
【技术特征摘要】
1.一种基于二元和三元共词潜在语义信息的文献表示方法,其特征是包括以下步骤:第一步:对文本数据进行预处理,数据清洗,标记文献,提取每篇文献的关键词,并保留关键词与相应文献的对应关系;第二步:构建关键词空间并对所提取的关键词进行词频统计,关键词按词频降序排列,以备后续建立共现矩阵使用;第三步:以关键词在文献中是否出现为权重,构建文献表示的向量空间模型如下:dl=(al1al2al3…alm)T∈Rm,l=1,2,…,n其中:dl是n篇文献中第l篇文献在欧式空间Rm中的表示向量,alj为第j个关键词在第l篇文献中的权重,当第j个关键词是文献dl的关键词时alj等于1,否则为0;l为文献序号,n为文献总篇数,m为关键词集中总关键词的个数,Rm为欧式空间,T表示转置运算,文献集的“篇-词”矩阵A=(alj)n×m;第四步:三元共现层矩阵表示其中:表示第j个关键词与所有关键词对(ti,tk)(i,k=1,2,…,m)的三元共现矩阵,称为三元共现的第j层,为“篇-词”矩阵A的第j列,为对角矩阵,其对角元依次为的分量;第五步:计算关键词之间的共词矩阵C=ATA,其中,当i≠j时,cij为第i个关键词与第j个关键词的共现频次,当i=j时,cii为第i个关键词的总频次;第六步:三元共现频次的计算:由于c...
【专利技术属性】
技术研发人员:牛奉高,
申请(专利权)人:山西大学,
类型:发明
国别省市:山西,14
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。