【技术实现步骤摘要】
一种关键词的多样化拓展方法
本专利技术属于Web信息检索领域,具体涉及Web信息检索、Web信息应用中的一种关键词的拓展方法。
技术介绍
随着网络在人们日常生活中的普及,网络上的资源呈指数倍增长。各种信息杂乱地分布在互联网络上,目前,大部分用户借助搜索引擎来查找信息。但是,依靠关键词匹配的技术来筛选信息,使得现有的搜索引擎技术具有很大的局限性。缺点之一是:搜索引擎对用户服务质量的好坏在很大程度上依赖于用户输入的关键词的精确程度。实际上,只有少部分的用户一次性地给出准确的搜索词。由于用户的先验知识及用户表达能力的差异,很多情况下,在输入关键词时,用户需要搜索引擎提供一定的指导。目前,也出现了一些关键词拓展/关键词推荐的相关技术和应用。例如:Google、Bing、Baidu等知名搜索引擎的“Searchesrelatedto…”中,系统推荐出了与搜索词相匹配的、并且最近一段时间的热度搜索关键词;搜索“天气预报”,会出现“天气预报查询一周”、“北京天气预报”、“上海天气预报”等。但是,这样的相关搜索有一个前提,要求用户输入的关键词是正确的。假如,用户无法给出查询内容的一个关键词,这种推荐是无效的。此外,有些搜索引擎也会借助传统的搜索引擎,把匹配到的网页中出现频次较高的一些词作为扩展词,推荐给用户;比如:Carrot(http://search.carrot2.org/stable/search)。相比于Google等的“Searchesrelatedto..”,这类推荐能够帮助用户对搜索的内容进一步精确。比如:搜索“教育”,会推荐出“高等教育”,“高考”,“儿 ...
【技术保护点】
一种关键词的多样化扩展方法,用于辅助网络信息搜索;其特征在于:(1)首先,把网页类别看作一个主题;依据选定的分类体系,把网页进行分类;对网页类与网页类之间的超链接进行统计、归一化,构建网页类与网页类之间的关联,形成基于网页分类的索引网络;(2)其次,基于构建的索引网络,实现关键词的多样化扩展;主要包含关键词的“兄弟语义”扩展、关键词的“关联性”扩展和关键词的“用户个性化”扩展三种关键词扩展方法;所述关键词,是指用户用来搜索信息时,所输入的关键词;所述关键词的“兄弟语义”扩展,是指扩展出与关键词同属于一个主题的其它特征词;所述关键词的“关联性”拓展,是指扩展出与关键词具有某种现实关联的其它特征词;所述关键词的“用户个性化”扩展,是指针对歧义关键词,依据用户的历史日志,预估用户正在查找的关键词语义,并推荐出与选定语义相关的其它特征词。
【技术特征摘要】
1.一种关键词的多样化扩展方法,用于辅助网络信息搜索;其特征在于:首先,把网页类别看作一个主题;依据选定的分类体系,把网页进行分类;对网页类与网页类之间的超链接进行统计、归一化,构建网页类与网页类之间的关联,形成基于网页分类的索引网络;其次,基于构建的索引网络,实现关键词的多样化扩展;包含关键词的“兄弟语义”扩展、关键词的“关联性”扩展和关键词的“用户个性化”扩展三种关键词扩展方法;所述关键词,是指用户用来搜索信息时,所输入的关键词;所述关键词的“兄弟语义”扩展,是指扩展出与关键词同属于一个主题的其它特征词;所述关键词的“关联性”拓展,是指扩展出与关键词具有某种现实关联的其它特征词;所述关键词的“用户个性化”扩展,是指针对歧义关键词,依据用户的历史日志,预估用户正在查找的关键词语义,并推荐出与选定语义相关的其它特征词;具体包括如下步骤:第一步,依据互联网络上面的超链接,构建基于网页分类的索引网络;(11)首先,选定网页分类体系及其训练集合,使用朴素贝叶斯算法,完成网页类的特征向量的训练;具体地,借助dmoz人工分类目录的中文部分,人工选取分类目录中的300个类,把它们包含的网页作为训练集;训练完成之后,使用WorldNet,对网页类的特征词进行近义词拓展,获得描述更全面的特征向量;(12)然后,爬取互联网络上的网页,依据训练好的网页分类器,对网页进行分类处理;爬虫从信息门户网站出发,使用深度优先的策略来爬取互联网络上的网页;(13)最后,分析网页类与网页类之间的超链接,建立网页类与网页类之间关联,形成索引网络;使用公式(1)来统计网页类与网页类之间的超链接,判断网页类之间的关联是否存在;进一步地,用公式(2)对公式(1)的结果进行归一化处理,给出关联的强度;其中,“u”代表网页类;“p”代表网页,“|u|”代表类u中的网页总数;
【专利技术属性】
技术研发人员:蒋昌俊,陈闳中,闫春钢,丁志军,王鹏伟,孙海春,
申请(专利权)人:同济大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。