一种基于图谱模型的话题探测系统技术方案

技术编号：10437092 阅读：174 留言：0更新日期：2014-09-17 13:40

本发明专利技术公开了一种基于图谱模型的话题探测系统，该系统包括预处理模块、图谱结构构造模块和子图探测模块，预处理模块对语料文本集预处理；图谱结构构造模块用于构造表示原型的图谱结构，其顶点为语料文档的词项，其边缘为词对之间的相关度，根据词是否为实体词、词对之间是否存在依存关系以及词对之间的距离间隔赋予词对之间的相关度以不同的权值，构造以实体词为图谱中心的无向图；子图探测模块处理相关度图谱得到每个子图对应的词汇集合，再进行排序筛选得到每个子话题的最终结果。利用本发明专利技术，能够自动获得离散文本集合中隐含的话题，可应用于特征空间降维、相关度计算、语义扩展等自然语言处理相关领域。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于图谱模型的话题探测系统
本专利技术涉及信息抽取、浅语义分析、特征空间降维、命名实体识别、依存句法解析、聚类算法、无向图模型等
，具体地说是一种基于利用实体词和句法信息的图谱模型去探测离散文本集合中隐含话题的话题探测系统。
技术介绍
浅语义分析在自然语言处理领域中有着重要应用，在判断文档的相关性时需要考虑文档的隐含语义，如何发现离散文档中相似的概念或话题是文本挖掘(TextMining)研究中的热点问题。作为浅语义分析的重要技术之一，话题模型是其中一种比较有效的模型，并在机器学习其他领域中也有着重要应用。例如，对于相对宽泛的话题“国际政治”可细分为多个相似的子话题：中东局势、朝鲜半岛核问题，美俄关系等等，这涉及到话题的粒度问题，在发现这些主题时，表达这些主题的词汇集合可能包括：冲突、死亡、爆炸、谈判、对话、协商、武装、领导人等等。传统的潜语义分析(LSA)通过对矢量语义(向量空间模型)进行奇异值分解把高维词汇空间映射到低维的浅语义空间，文档的相似性在这个空间内进行比较，LSA的缺点在于缺少统计基础。近年来，基于概率浅语义分析模型PLSA而改进的更一般化的LDA成为主流方法，这些方法基于词汇的共现而建立统计模型。然而从语义的角度思考，这些方法没用考虑词汇特别是实体词本身携带的语义信息和词汇所在句子上下文存在的依存信息。
技术实现思路
本专利技术的目的是针对现有技术的不足而提供的一种基于图谱模型的话题探测系统，该系统基于实体和词对所在共现句中存在的句法依存关系来对词语的相关度进行度量得到词汇之间的相关度并构造词汇相关图谱模型，该图谱模型由相关度邻接矩阵...

【技术保护点】
一种基于图谱模型的话题探测系统，其特征在于该系统包括预处理模块、图谱结构构造模块和子图探测模块，其中：预处理模块：对语料文本集的分句、分词、命名实体识别和依存句法解析的预处理；图谱结构构造模块：用于构造表示原型的图谱结构，图谱结构为一个无向图，其顶点为语料文档的词项，其边缘为词对之间的相关度，根据词是否为实体词、词对之间是否存在依存关系以及词对之间的距离间隔赋予词对之间的相关度以不同的权值，构造以实体词为图谱中心即话题中心的无向图；其中，词对之间的相关度定义如下：根据词对()是否有实体词和词对之间是否存在依存关系，计算词对的依存相关度和自然距离相关度：如果词对()存在依存关系，则其相关度值为：其中maxLen为常数，代表最大句子长度,dis是词对在句子中的间隔距离，是平滑参数；当词对中至少有一个是实体词，；或者，都不是实体词；其中满足条件，e为自然对数底数常数；当词对不存在依存关系，定义词对的自然相关度和所在句子中的位置关系如下：对相同词对多次出现，则对其求和，作为图谱中词对的最终相关度：其中式中表示词对在语料中共现的次数，为依存相关度和自然距离相关度的权重设置参数；子图探测模块：探...

【技术特征摘要】
1.一种基于图谱模型的话题探测系统，其特征在于该系统包括预处理模块、图谱结构构造模块和子图探测模块，其中：预处理模块：对语料库的分句、分词、命名实体识别和依存句法解析的预处理；图谱结构构造模块：用于构造表示原型的图谱结构，图谱结构为一个无向图，其顶点为语料库的词项，其边缘为词对之间的相关度，根据词是否为实体词、词对之间是否存在依存关系以及词对之间的距离间隔赋予词对之间的相关度以不同的权值，构造以实体词为图谱中心即话题中心的无向图；其中，词对之间的相关度定义如下：根据词对(vi,vj)是否有实体词和词对之间是否存在依存关系，计算词对的依存相关度和自然距离相关度：1)如果词对(vi,vj)存在依存关系，则其依存相关度值为：其中maxLen为常数，代表最大句子长度,dis是词对在句子中的间隔距离，λ是平滑参数；当词对(vi,vj)中至少有一个是实体词，λ＝λ1；或者λ＝λ2，vi,vj都不是实体词；其中λ1，λ2满...

【专利技术属性】
技术研发人员：林欣，赵昂，杨静，贺樑，
申请(专利权)人：华东师范大学，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人