The invention discloses a system and a device for establishing method, topic map, the method of the invention comprises the following steps: according to the documents in the document set, get the document lexical entry matrix; use the theme generation model is used to reduce the dimensionality of the document lexical entry matrix, get the document theme set; classification of documents focus the documents, obtained the topic map theme and theme and the relationship between the document; calculating the similarity between the document theme map correlation and topic map, get the topic map and document the relationship between subject relations; according to the theme, theme and theme, the relationship between the relationship between documents and document the relationship between topic map generation. The invention has a high efficiency in setting up a theme map and a reasonable thematic map of the subject. It is convenient for users to get useful information quickly. The invention can be widely used in the field of data mining.
【技术实现步骤摘要】
一种建立主题地图的方法、系统和装置
本专利技术涉及数据挖掘领域,尤其是一种建立主题地图的方法、系统和装置。
技术介绍
名词解释:主题地图:是一种语义网络的知识表示模式,它的组成元素通常包括topic、association和occurrence,这种主题地图的组织形式简称TAO型。topic:主题是一个概念的机器可处理的表示。主题用于表示电子资源(诸如文档,网页,Web服务)和非电子资源(诸如人或地方)。主题同样可以用来表示没有形式的事物,例如公司,事件和抽象概念,如“养老金”或“保险”。association:关联是表示主题图中主题之间的关系的一般形式。一个关联可以被认为是主题的一个n元关系聚合。也就是说,关联是没有隐含方向或顺序的主题分组,并且对可以被分在一组的主题数量没有限制。occurrence:代表一个topic与其对应的信息资源之间的关系。relevancy:代表信息资源与信息资源之间的关系。LDA:LatentDirichletAllocation是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构。SVM:SupportVectorMachine支持向量机。Fruchterman-Reingold算法:是一种网络布局算法。tf-idf算法:是一种用于信息检索与数据挖掘的常用加权算法。度中心性:DegreeCentrality是在网络分析中刻画节点中心性(Centrality)的最直接度量指标。一个节点的节点度越大就意味着这个节点的度中心性越高,该节点在网络中就越重要。余弦相似度:又称为余弦相似性。通过计算两个向量 ...
【技术保护点】
一种建立主题地图的方法,其特征在于,包括以下步骤:根据文档集中的文档,得到文档‑词项矩阵;使用主题生成模型对得到的文档‑词项矩阵进行降维,得到文档主题集;对文档主题集中的文档进行分类,得到主题地图的主题和主题与文档间关系;计算主题地图中主题之间的相关性和主题地图中文档之间的相似性,得到主题地图的主题间关系和文档间关系;根据得到的主题、主题与文档间关系、主题间关系和文档间关系生成主题地图。
【技术特征摘要】
1.一种建立主题地图的方法,其特征在于,包括以下步骤:根据文档集中的文档,得到文档-词项矩阵;使用主题生成模型对得到的文档-词项矩阵进行降维,得到文档主题集;对文档主题集中的文档进行分类,得到主题地图的主题和主题与文档间关系;计算主题地图中主题之间的相关性和主题地图中文档之间的相似性,得到主题地图的主题间关系和文档间关系;根据得到的主题、主题与文档间关系、主题间关系和文档间关系生成主题地图。2.根据权利要求1所述的一种建立主题地图的方法,其特征在于:所述主题地图中主题之间的相关性的计算采用相关性函数Sim(ti,tj)来计算,Sim(ti,tj)表达式为:其中,σ和μ为常数;Di为主题为i的所有文档的集合,Dj为主题为j的所有文档的集合;Diξ为Di集合的第ξ个文档,Djζ为Dj集合的第ζ个文档;为在文档主题集Θ中Diξ对应的主题词的权重,为在文档主题集Θ中Djζ对应的主题词的权重;为主题i主题词的权重和,为主题j的主题词的权重和;Simd(di,dj)表示主题ti的文档di与主题tj的文档dj的相似度;M表示主题i中的文档和主题j中的文档相似性大于阀值的个数;ni表示主题ti所有文档的个数,nj表示主题tj的所有文档的个数;表示主题ti和tj间语义相似度。3.根据权利要求2所述的一种建立主题地图的方法,其特征在于:所述主题地图中文档之间的相似性的计算采用余弦相似度算法来计算。4.根据权利要求1所述的一种建立主题地图的方法,其特征在于:还包括对主题地图中重要文档节点进行标注的步骤。5.根据权利要求4所述的一种建立主题地图的方法,其特征在于:所述对主题地图中重要文档节点进行标注的步骤为:采用度中心性对主题地图中的重要文档节点进行标注。6.根据权利要求1所述的一种建立主题地图的方法,其特征在于:所述根据文档集中的文档...
【专利技术属性】
技术研发人员:聂瑞华,李卓越,赵淦森,王欣明,席云,杨晋吉,
申请(专利权)人:华南师范大学,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。