【技术实现步骤摘要】
本专利技术涉及语义搜索,语义网络领域,特别是涉及一种基于领域本体的语义索引方法。
技术介绍
随着网络信息的膨胀和网络用户的增长,人们对信息的利用方式和迫切需求,正逐渐在发生改变,从以前的人工搜索,到现在的Google,Baidu等搜索引擎的使用。但是由于关键字搜索仍然存在着很多缺点,对搜索的准确度和性能难于满足高级用户的需求,基于此我们提出了基于语义的索引技术。可以看出,传统的基于关键词匹配的搜索引擎普遍存在以下几个问题。(1)高查全率与低准确性并存。尽管内容高度相关的网页已包含在检索结果中,但有价值的信息被掺杂在数以万计的其他相关度低,甚至不相关的文档中,无法起到其应有的作用;(2)查询结果对关键词的高度敏感。通常用户最先选择的关键词并不能产生期望的查询结果。这是由于某些网页中使用了与我们所选用的关键词不相同的术语,如同义词,近义词等。但用户所希望的是:语义相同的查询能够返回相同的结果;(3)查询的结果之间缺乏语义关联。如果用户需要的信息分散在许多不同的网络文档中,用户必须构造多个查询来获取所需要的文档,然后手工提取和融合文档里的部分信息,增加了用户相应操作和处理的负担。产生这些问题的主要原因是目前互联网上的大部分内容还只适合人来进行阅读和处理,现代计算机在语句理解和信息自动抽取方面的能力还十分有限,本专利技术就是利用语义索引的语义相关性的特点,对文档建立语义索引,消除关键词搜索所存在的这些问题。
技术实现思路
本专利技术的目的在于克服上述技术的缺陷,而提供一种基于领域本体的语义索引方法。本专利技术的目的是通过以下技术方案来实现的。这种基于领域本体的语义索 ...
【技术保护点】
一种基于领域本体的语义索引方法,其特征在于:包括以下步骤: (1)、利用奇异值分解对单词-文档矩阵进行分解处理:将分词后得到的单词-文档矩阵进行奇异值分解,在单词和文档之间建立一个概念层,得到概念词-文档矩阵,得到最能描述该文档的概念词信息和文档之间的语义关联信息; (2)、基于本体的动态语义模版:首先建立该领域的基本本体知识库,该知识库基本包含了所有的本体概念,本体之间的等价,子类,超类的关系,利用该本体知识库构建一个基于领域本体的动态语义模板库;其中的动态语义模板库的含义在于基本本体知识库的基础之上,通过处理该领域的文档,识别新的本体及陈述,丰富本体知识库,得到更完整的语义模板; (3)、基于本体及其相关陈述的二级索引:语义索引是基于本体及其相关陈述进行的二级索引,利用了步骤(2)添加到动态语义模板库的概念词,即本体,对文档建立倒排索引,同时在每一个本体之下对其出现的相关陈述建立二级索引,该二级索引结构采用Tri树结构。
【技术特征摘要】
1.一种基于领域本体的语义索引方法,其特征在于:包括以下步骤:(1)、利用奇异值分解对单词-文档矩阵进行分解处理:将分词后得到的单词-文档矩阵进行奇异值分解,在单词和文档之间建立一个概念层,得到概念词-文档矩阵,得到最能描述该文档的概念词信息和文档之间的语义关联信息;(2)、基于本体的动态语义模版:首先建立该领域的基本本体知识库,该知识库基本包含了所有的本体概念,本体之间的等价,子类,超类的关系,利用该本体知识库构建一个基于领域本体的动态语义模板库;其中的动态语义模板库的含义在于基本本体知识库的基础之上,通过处理该领域的文档,识别新的本体及陈述,丰富本体知识库,得到更完整的语义模板;(3)、基于本体及其相关陈述的二级索引:语义索引是基于本体及其相关陈述进行的二级索引,利用了步骤(2)添加到动态语义模板库的概念词,即本体,对文档建立倒排索引,同时在每一个本体之下对其出现的相关陈述建立二级索引,该二级索引结构采用Tri树结构。2.根据权利要求1所述的基于领域本体的语义索引方法,其特征在于:步骤(1)中利用奇异值分解对语义分词得到的单词-文档矩阵进行处理,得到新的概念词-文档矩阵;奇异值分解的计算公式如下:Mt×d=Kt×r*Sr×r*Dr×dT其中:Mt×d矩阵为步骤(1)中分词之后得到单词-文档矩阵Kt×r矩阵通过求Mt×d·Mt×dT的特征向量得到Sr×r矩阵为一个r×r的以降序存储奇异值的对角矩阵Dr×d...
【专利技术属性】
技术研发人员:吴朝晖,付志宏,姜晓红,
申请(专利权)人:浙江大学,
类型:发明
国别省市:86[中国|杭州]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。