一种建立主题地图的方法、系统和装置制造方法及图纸

技术编号:17406976 阅读:18 留言:0更新日期:2018-03-07 04:50
本发明专利技术公开了一种建立主题地图的方法、系统和装置,本发明专利技术的方法包括以下步骤:根据文档集中的文档,得到文档‑词项矩阵;使用主题生成模型对得到的文档‑词项矩阵进行降维,得到文档主题集;对文档主题集中的文档进行分类,得到主题地图的主题和主题与文档间关系;计算主题地图中主题之间的相关性和主题地图中文档之间的相似性,得到主题地图的主题间关系和文档间关系;根据得到的主题、主题与文档间关系、主题间关系和文档间关系生成主题地图。本发明专利技术建立主题地图的效率高,得到的主题地图图形化合理。便于用户快速获取有用的信息。本发明专利技术可以广泛应用于数据挖掘领域。

A method, system, and device for building a thematic map

The invention discloses a system and a device for establishing method, topic map, the method of the invention comprises the following steps: according to the documents in the document set, get the document lexical entry matrix; use the theme generation model is used to reduce the dimensionality of the document lexical entry matrix, get the document theme set; classification of documents focus the documents, obtained the topic map theme and theme and the relationship between the document; calculating the similarity between the document theme map correlation and topic map, get the topic map and document the relationship between subject relations; according to the theme, theme and theme, the relationship between the relationship between documents and document the relationship between topic map generation. The invention has a high efficiency in setting up a theme map and a reasonable thematic map of the subject. It is convenient for users to get useful information quickly. The invention can be widely used in the field of data mining.

【技术实现步骤摘要】
一种建立主题地图的方法、系统和装置
本专利技术涉及数据挖掘领域,尤其是一种建立主题地图的方法、系统和装置。
技术介绍
名词解释:主题地图:是一种语义网络的知识表示模式,它的组成元素通常包括topic、association和occurrence,这种主题地图的组织形式简称TAO型。topic:主题是一个概念的机器可处理的表示。主题用于表示电子资源(诸如文档,网页,Web服务)和非电子资源(诸如人或地方)。主题同样可以用来表示没有形式的事物,例如公司,事件和抽象概念,如“养老金”或“保险”。association:关联是表示主题图中主题之间的关系的一般形式。一个关联可以被认为是主题的一个n元关系聚合。也就是说,关联是没有隐含方向或顺序的主题分组,并且对可以被分在一组的主题数量没有限制。occurrence:代表一个topic与其对应的信息资源之间的关系。relevancy:代表信息资源与信息资源之间的关系。LDA:LatentDirichletAllocation是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。SVM:SupportVectorMachine支持向量机。Fruchterman-Reingold算法:是一种网络布局算法。tf-idf算法:是一种用于信息检索与数据挖掘的常用加权算法。度中心性:DegreeCentrality是在网络分析中刻画节点中心性(Centrality)的最直接度量指标。一个节点的节点度越大就意味着这个节点的度中心性越高,该节点在网络中就越重要。余弦相似度:又称为余弦相似性。通过计算两个向量的夹角余弦值来评估他们的相似度。降维:在机器学习领域中的降维就是指采用映射的方法,将原高维度空间中的数据点映射到低纬度的空间中。停用词:在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为StopWords(停用词)。重要文档节点:指在网络中与其他文档存在较多联系的文档节点,若删除该文档节点,文档节点所在的网络效率会下降。随着互联网的发展,用户接触到的信息远超出自己的处理能力,为了解决该问题,主要的办法是减少搜索策略中的信息过载或者减少浏览策略的信息过载。而目前大量研究将重点放在减少搜索策略中的信息过载上,而浏览策略的信息过载却没有引起足够的重视。但是浏览策略面临的信息过载更为严重,因为搜索策略可以根据关键字自动过滤掉不相干的内容,极大的减少了信息量,但浏览策略却不能。一般而言,对于新用户或者对某领域不了解的用户而言,由于缺乏关键词汇来展示兴趣点,所以只能采用浏览策略,但在浏览过程中很容易在大量信息中迷失,无法准确找到相关信息,并且浪费时间和精力。同时,无论是搜索策略还是浏览策略,都不能体现知识间的相关关系。即用户只能看到描述某一知识的某个文档,却无法知道其他知识与该文档中的知识之间以及其他文档与该文档的相互关系。用户对某领域的认识只能依靠自身知识体系的建立,无法对该领域所含的知识进行整体把握。如何使用知识组织手段对用户的浏览策略进行优化,以便用户从大量的信息和知识中快速获取有价值的内容,揭示知识间的深层次关系,成为了国内外的研究热门。建立主题地图是一个有效的办法,目前有部分学者提出了一些建立主题地图的方法,这些方法以句子作为层次建立主题地图,但是在海量的数据背景下,以句子为层次建立的主题地图过于庞大,建造的效率低;同时,大多数的主题地图采用TAO型结构进行图形化表示,而TAO型结构的图形化表示缺乏文档与文档之间的关系,导致难以从主题地图中看出文档与文档之间的关系,这样的图形化并不合理。
技术实现思路
为解决上述技术问题,本专利技术的第一目的在于:提供一种效率高和图形化合理的主题地图的建立方法。本专利技术的第二目的在于:提供一种效率高和图形化合理的主题地图的建立系统。本专利技术的第三目的在于:提供一种效率高和图形化合理的主题地图的建立装置。本专利技术所采用的第一种技术方案是:一种建立主题地图的方法,包括以下步骤:根据文档集中的文档,得到文档-词项矩阵;使用主题生成模型对得到的文档-词项矩阵进行降维,得到文档主题集;对文档主题集中的文档进行分类,得到主题地图的主题和主题与文档间关系;计算主题地图中主题之间的相关性和主题地图中文档之间的相似性,得到主题地图的主题间关系和文档间关系;根据得到的主题、主题与文档间关系、主题间关系和文档间关系生成主题地图。进一步,所述主题地图中主题之间的相关性的计算采用相关性函数Sim(ti,tj)来计算,Sim(ti,tj)表达式为:其中,σ和μ为常数;Di为主题为i的所有文档的集合,Dj为主题为j的所有文档的集合;Diξ为Di集合的第ξ个文档,Djζ为Dj集合的第ζ个文档;为在文档主题集Θ中Diξ对应的主题词的权重,为在文档主题集Θ中Djζ对应的主题词的权重;为主题i主题词的权重和,为主题j的主题词的权重和;Simd(di,dj)表示主题ti的文档di与主题tj的文档dj的相似度;M表示主题i中的文档和主题j中的文档相似性大于阀值的个数;ni表示主题ti所有文档的个数,nj表示主题tj的所有文档的个数;表示主题ti和tj间语义相似度。进一步,所述主题地图中文档之间的相似性的计算采用余弦相似度算法来计算。进一步,还包括对主题地图中重要文档节点进行标注的步骤。进一步,所述对主题地图中重要文档节点进行标注的步骤为:采用度中心性对主题地图中的重要文档节点进行标注。进一步,所述根据文档集中的文档,得到文档-词项矩阵的步骤包括:对文档集中的每个文档进行分词,并去掉停用词,以为每个文档生成一个词项表;将得到的词项表添加到词典中;去除词典中出现频率低于最低设定值和高于最高设定值的词项;计算每个文档中词项的重要程度值,得到重要程度值表;对得到的重要程度值表和词典进行矩阵化,得到文档-词项矩阵。进一步,所述使用主题生成模型对得到的文档-词项矩阵进行降维,得到文档主题集的步骤具体为:使用LDA主题生成模型对得到的文档-词项矩阵进行降维。进一步,所述对文档主题集中的文档进行分类,得到主题地图的主题和主题与文档间关系的步骤包括:生成一个和文档主题集长度相同的随机数组,所述随机数组内元素的取值范围为(0,1);将随机数组内的元素与文档主题集中的文档一一对应,并且遍历随机数组,以将随机数组内元素对应的文档加入训练集或测试集:若随机数组内的元素大于0.5,则将该元素对应的文档加入训练集,反之,则将该元素对应的文档加入测试集;用训练集对SVM分类器进行训练;用训练后的SVM分类器对测试集的文档分类,得到主题地图的主题和主题与文档间关系。本专利技术所采用的第二种技术方案是:一种建立主题地图的系统,包括:文档-词项矩阵生成模块,用于根据文档集中的文档,得到文档-词项矩阵;文档主题集生成模块,用于使用主题生成模型对得到的文档-词项矩阵进行降维,得到文档主题集;分类模块,用于对文档主题集中的文档进行分类,得到主题地图的主题和主题与文档间关系;计算模块,用于计算主题地图中主题之间的相关性和主题地图中文档之间的相似性,得到主题地图的主题间关系和文档间关系;主题地图生成模块,用于根据得到的主题、主题与文档间关系、本文档来自技高网
...
一种建立主题地图的方法、系统和装置

【技术保护点】
一种建立主题地图的方法,其特征在于,包括以下步骤:根据文档集中的文档,得到文档‑词项矩阵;使用主题生成模型对得到的文档‑词项矩阵进行降维,得到文档主题集;对文档主题集中的文档进行分类,得到主题地图的主题和主题与文档间关系;计算主题地图中主题之间的相关性和主题地图中文档之间的相似性,得到主题地图的主题间关系和文档间关系;根据得到的主题、主题与文档间关系、主题间关系和文档间关系生成主题地图。

【技术特征摘要】
1.一种建立主题地图的方法,其特征在于,包括以下步骤:根据文档集中的文档,得到文档-词项矩阵;使用主题生成模型对得到的文档-词项矩阵进行降维,得到文档主题集;对文档主题集中的文档进行分类,得到主题地图的主题和主题与文档间关系;计算主题地图中主题之间的相关性和主题地图中文档之间的相似性,得到主题地图的主题间关系和文档间关系;根据得到的主题、主题与文档间关系、主题间关系和文档间关系生成主题地图。2.根据权利要求1所述的一种建立主题地图的方法,其特征在于:所述主题地图中主题之间的相关性的计算采用相关性函数Sim(ti,tj)来计算,Sim(ti,tj)表达式为:其中,σ和μ为常数;Di为主题为i的所有文档的集合,Dj为主题为j的所有文档的集合;Diξ为Di集合的第ξ个文档,Djζ为Dj集合的第ζ个文档;为在文档主题集Θ中Diξ对应的主题词的权重,为在文档主题集Θ中Djζ对应的主题词的权重;为主题i主题词的权重和,为主题j的主题词的权重和;Simd(di,dj)表示主题ti的文档di与主题tj的文档dj的相似度;M表示主题i中的文档和主题j中的文档相似性大于阀值的个数;ni表示主题ti所有文档的个数,nj表示主题tj的所有文档的个数;表示主题ti和tj间语义相似度。3.根据权利要求2所述的一种建立主题地图的方法,其特征在于:所述主题地图中文档之间的相似性的计算采用余弦相似度算法来计算。4.根据权利要求1所述的一种建立主题地图的方法,其特征在于:还包括对主题地图中重要文档节点进行标注的步骤。5.根据权利要求4所述的一种建立主题地图的方法,其特征在于:所述对主题地图中重要文档节点进行标注的步骤为:采用度中心性对主题地图中的重要文档节点进行标注。6.根据权利要求1所述的一种建立主题地图的方法,其特征在于:所述根据文档集中的文档...

【专利技术属性】
技术研发人员:聂瑞华李卓越赵淦森王欣明席云杨晋吉
申请(专利权)人:华南师范大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1