一种用户需求分析定位器和分析及定位方法,其用户需求分析及定位器可以分为两个模块:1用户需求分析模块。2用户需求定位模块。用户需求分析模块的主要功能为:理解用户输入的信息。用户需求定位模块的主要功能为:将用户的输入信息定位到网络信息服务系统中的基础类中,每个类中都包含有和该类相关的网页。用户需求分析及定位器主要是根据用户在输入一个检索需求之后,能够根据用户的检索需求,分析用户需求,充分挖掘用户需求中包含的信息。然后根据挖据的信息与网络信息服务系统已经建立好的索引网络进行匹配,选择一个能够最大限度反应用户需求的类来完成需求的定位。
【技术实现步骤摘要】
本专利技术涉及网络信息检索中的分析及定位方法,具体为网络信息服务系统的。
技术介绍
飞速发展的Internet给用户提供了海量的信息资源,导致用户从爆炸性增长的信息中迅速获得需要的信息变得越来越困难。为了帮助用户快速准确地检索到所需的网络信息,网络搜索引擎的研究与开发已经成为当今网络信息检索的热点。搜索引擎是以Web页面为检索文档的信息检索系统,它的核心就是信息检索技术。广 义地说,搜索引擎就是指在互联网上能够响应用户提交的搜索请求,返回相应的查询结果信息的技术和系统。搜索引擎并不是真正地搜索互联网,它搜索的是预先整理好的网页索引数据库。一般来说,搜索引擎得原理可以分为三步(I)从互联网中抓取网页;(2)建立索引数据库;在索引数据库中进行搜索排序。传统搜索引擎主要采用网站分类技术和全文检索技术来实现信息查询,前者成本高,对网站描述也比较简单,不能深入网站内部细节。而后者效率比较低且返回信息过多。传统搜索引擎所使用的技术都难以解决用户“找信息难”的问题,造成这种困难的实质在于搜索引擎缺乏知识处理能力和理解能力。因此要把信息检索从基于关键词层面进行改善。
技术实现思路
本专利技术的目的在于克服现有技术的不足,公开一种基于关键词扩展的用户需求理解及定位方法,根据用户在输入一个检索需求之后,能够根据用户的检索需求,分析用户需求,充分挖掘用户需求中包含的信息,然后根据挖据的信息与网络信息服务系统已经建立好的索引网络进行匹配,选择一个能够最大限度反应用户需求的类来完成需求的定位。本专利技术通过以下技术方案实现一种用户需求分析及定位方法,其特征在于,具体包括如下步骤(1)利用现有的分词算法对用户的输入进行切词;(2)根据已经建立的近义词库对关键词进行特征向量的扩展,使得在搜索结果中能够反映出与近义词相关的网页;(3)根据形成的特征向量与网络信息服务系统中基础类的特征向量进行比对,取和该特征向量最相似的特征向量所属的类为该特征向量定位到的类。所述步骤(1),其特征在于,具体采用下方法实现使用搜狗输入法的词库及现有的分词算法-最短路径匹配算法,来对用户的输入进行切词。所述步骤(2),其特征在于,具体采用下方法实现步骤一将步骤(I)中产生的切词分量根据近义词库找出它们η个近义词集,其中近义词库建立方法为通过分析互联网上各个词典中对于近义词的描述,对每个词的近义词进行加权;步骤二 步骤一中选取的近义词集中选取m个词作为本次用户输入的特征向量;选取的时候考虑用户输入的完整性;即当m>=n时,根据切词的结果产生的每个近义词集中至少有一个出现在特征向量中,其他词的选择则根据该词的权值占所有扩展成的近义词的比例来从高到低进行选择;当m〈n时,则选择所有扩展成的近义词集中权值最高的词组成集合中的前m个作为用户输入的特征向量。所述步骤(3),其特征在于,具体采用下方法实现步骤一让用户需求特征向量中的关键词与每个基础类的特征向量的关键词进行匹配,如果有相同的关键词,则加权为I,如果互相包含则加权为O. 5,匹配完成后,每个基础类和用户的输入向量均有一个匹配值;步骤二 根据用户的输入和每个定义的类的匹配权值,选择匹配到的类的集合;如果要定位到一个类中,贝1J选择其中权值最高的类作为定位的结果输出;如果要选择定位的η个类中,则选择匹配中前η高权值的类作为结果输出。一种用户行为需求分析定位器,其特征在于,它包括用户需求分析模块和用户需求定位模块,所述用户需求分析模块实现理解用户输入的信息,它包括分词处理器和特征向量扩展器,所述用户需求定位模块为需求定位器,将用户的输入信息定位到网络信息服务系统中的基础类中,每个类中都包含有和该类相关的网页,其中所述分词处理器利用现有的分词算法对用户的输入进行切词,从而更好的理解用户需求;所述特征向量扩展器,根据已经建立的近义词库对关键词进行特征向量的扩展,使得在搜索结果中能够反映出与近义词相关的网页;所述需求定位器,根据形成的特征向量与网络信息服务系统中基础类的特征向量进行比对,取和该特征向量最相似的特征向量所属的类为该特征向量定位到的类。本专利技术用户需求分析及定位器主要是根据用户在输入一个检索需求之后,能够根据用户的检索需求,分析用户需求,充分挖掘用户需求中包含的信息。然后根据挖据的信息与网络信息服务系统已经建立好的索引网络进行匹配,选择一个能够最大限度反应用户需求的类来完成需求的定位。与现有技术相比,本专利技术的创新点1、用户需求的扩展采用近义词扩展,这样不仅可以对用户的需求进行理解,还能够扩展出用户感兴趣需求,能够在搜索结果中反映出更多而且准确的信息。2、将用户需求定义为特征向量,在不影响用户需求表达的前提下,充分挖掘用户的需求。3、定义特征向量是一种新的匹配方法,该方法能够根据特征向量间词语的包含关系来反应特征向量的相似度。4、不只是简单的将用户需求直接定位到网页中,而是将用户需求定位到类中,将定位提升到一个更高的层次,方便对分好类的网页做进一步的操作处理。附图说明图1是类的组成结构。图2是网络信息服务系统整体架构图。图3是用户需求分析定位器主要功能。图4是特征向量扩展器流程图。图5是需求定位器流程图。具体实施例方式以下结合附图对本发面技术方案作进一步说明。整个信息服务服务系统建立在传统的搜索引擎的基础之上,即首先从互联网上抓取网页,将网页建立数据库进行存储,然后对网页建立倒排索引,保证传统的搜索引擎功能能够实现;其次,针对用户找信息难的问题,本专利技术信息服务服务系统采用两个方面进行解决(1)对用户需求进行分析和理解,最大限度的提供给用户有价值的信息;(2)对网页进行整理分类,提供给用户一套服务方案。首先根据DMOZ的人工分类目录,提取出类,每个类由类名和特征向量组成,具体如图1所示。然后,对抓取的网页按照提取到的类标准对网页进行分类,根据类中的网页之间的互相链接关系上升为类与类之间的链接关系,从而确定出类与类之间的一套索引网,进行存储,最后根据用户的输入在索引网络上抽取出不同的服务方案,返回给用户。整个信息服务服务系统的工作流程如图2所示。该信息服务服务系统的具体功能为首先信息收集子系统中,使用爬虫对互联网的信息进行收集,其次利用分类器,对爬取的信息进行分类整理,然后根据索引网构建器对分好类的网页进行构建索引网,方便对于用户服务流程的推荐,然后将构建的结果存入数据库。最后,当用户的检索要求进来时,则根据用户需求分析定位器来完成对于用户需求的分析及定位,最后返回给用户界面满足用户需求的信息。其中本专利技术的用户需求分析及定位器可以分为两个模块1用户需求分析模块。2用户需求定位模块。所述用户需求分析模块的主要功能为理解用户输入的信息。其主要操作为(1)利用现有的分词算法对用户的输入进行切词;(2)根据已经建立的近义词库对关键词进行特征向量的扩展,使得在搜索结果中能够反映出与近义词相关的网页。所述用户需求定位模块的主要功能为将用户的输入信息定位到网络信息服务系统中的基础类中,每个类中都包含有和该类相关的网页。其主要操作为根据形成的特征向量与网络信息服务系统中定义的类的特征向量进行比对,取和该特征向量最相似的特征向量所属的类为该特征向量定位到的类。本专利技术的用户行为需求分析器的主要功能如图3所示,结构上它主要有三个本文档来自技高网...
【技术保护点】
一种用户需求分析及定位方法,其特征在于,具体包括如下步骤:(1)利用现有的分词算法对用户的输入进行切词;(2)根据已经建立的近义词库对关键词进行特征向量的扩展,使得在搜索结果中能够反映出与近义词相关的网页;(3)根据形成的特征向量与网络信息服务系统中基础类的特征向量进行比对,取和该特征向量最相似的特征向量所属的类为该特征向量定位到的类。
【技术特征摘要】
【专利技术属性】
技术研发人员:蒋昌俊,陈闳中,闫春钢,丁志军,王鹏伟,孙海春,邓晓栋,
申请(专利权)人:同济大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。