当前位置: 首页 > 专利查询>南华大学专利>正文

一种基于体裁的多维信息检索系统技术方案

技术编号:11520602 阅读:122 留言:0更新日期:2015-05-29 12:21
本发明专利技术涉及一种基于体裁的多维信息检索系统,包括客户端和搜索引擎,搜索引擎包括任务分析引擎和索引匹配引擎,其中客户端包括任务监视器、用户任务分析模块和用户接口模块,任务分析引擎包括体裁数据库、用户任务体裁分析器和用户任务日志数据库,本发明专利技术通过采集用户在桌面完成的各种任务过程中的事件信息和用户查询历史信息,从而获取用户查询意图,建立用户查询体裁表示,从而显著提高用户查询精度,使得用户可以快速得到查询结果,省去对不相关查询信息的筛选,节省用户信息检索时间,提高效率,改善用户查询体验。

【技术实现步骤摘要】
一种基于体裁的多维信息检索系统
本专利技术属于计算机信息检索领域,具体涉及一种信息检索系统,特别是涉及一种基于体裁的多维信息检索系统。
技术介绍
20世纪以来,人类创造的信息量高速增长。据估计,70年代以来全世界每年出版图书50万种以上、期刊10万种以上、专利约50万件、科技报告约90万件、会议文献10多万篇、产品样本50多万种、每年发表的科技论文总数近500万篇,并呈指数式增长,可谓浩如烟海。如何从这浩如烟海的信息中找到所需信息,就成为信息检索的重任。随着上下文感知计算(Context-AwareComputing)得到越来越广泛的关注,上下文感知的信息检索(Context-AwareInformationRetrieval)也日渐成为信息检索研究的热点。虽然物理世界传感网络、RFID等感知技术的兴起大大提高了计算设备间的感知和交互能力,但是面向信息世界的上下文信息检索(ContextualInformationRetrieval,CIR)仍有许多亟待解决的热点难点问题,而任务上下文驱动的信息检索(Task-contextDrivenInformationRetrieval,TDIR)更是成为其中重要的研究方向和发展趋势。信息检索经历了以系统为中心(System-Centered),到以用户为中心(User-Centered),到基于上下文(ContextualApproach)的发展过程。上下文在信息检索中的主要应用是推测查询目标和文档目标。当前研究表明,推测查询目标的各类上下文中使用最多的是任务上下文。2007年TGSE研讨会(TowardsGenre-EnabledSearchEngines)专门讨论利用体裁改进搜索引擎质量。许多研究者使用体裁来过滤搜索引擎返回结果。这表明用体裁表示文档目标已成为主流。依据上下文推测出的查询目标和文档目标,主要应用在查询扩展、检索结果过滤、目标独立匹配等方面。近年来,以查询目标与文档目标直接进行匹配逐渐成为趋势。综上所述,文档体裁和任务上下文是当前上下文信息检索的研究热点,已取得了大量成果,但仍然存在严峻的挑战:①由于体裁依赖于文档内部特征,如词句、文档长度、说话方式、短语或句子类型、图形元素或网页标签等,体裁识别主要依靠人工方式,只能应用在特定的小范围内,难以大范围推广。②用户的查询目标或者是隐含在查询主题中,或者是隐含在任务中,未能显式地以体裁表示出来,这使得查询目标与文档目标的表示形式不一致,给匹配算法带来了很大的困难。由此可见,开发一个提高用户查询精准度,解决传统方法中查询目标用体裁显式表达困难的多维信息检索系统是具有积极意义的。
技术实现思路
本专利技术的目的在于克服现有技术的上述不足,提供一种基于体裁的多维信息检索系统,解决了现有信息检索系统依靠人工识别体裁,难以显示的表示体裁和度量体裁,查询目标与文档目标表示形式的不一致等问题,显著提高了信息检索精度和检索质量,节省用户信息检索时间,提高效率,改善用户查询体验。本专利技术的上述目的主要是通过如下技术方案予以实现的:一种基于体裁的多维信息检索系统,包括客户端和搜索引擎,其中搜索引擎包括任务分析引擎和索引匹配引擎,其中客户端包括任务监视器、用户任务分析模块和用户接口模块,任务分析引擎包括体裁数据库、用户任务体裁分析器和用户任务日志数据库,其中:任务监视器:实时采集用户在桌面完成的各种任务过程中的事件信息,并将所述事件信息传送给用户任务分析模块;用户接口模块:将用户查询历史信息实时发送给用户任务分析模块;当接收到用户输入的查询请求时,将所述查询请求同时发送给索引匹配引擎和用户任务分析模块;并从索引匹配引擎接收最终查询结果返回给用户;用户任务分析模块:实时接收任务监视器输出的所述事件信息和用户接口模块输出的所述用户查询历史信息,以及接收用户接口模块输出的查询请求,并发送给用户任务体裁分析器;体裁数据库:存储各种体裁分类的集合;用户任务体裁分析器:实时接收用户任务分析模块输出的所述事件信息和用户接口模块输出的所述用户查询历史信息,同时查询体裁数据库,将所述事件信息和所述用户查询历史信息按照体裁分类进行体裁标注并存储到用户任务日志数据库;当从用户任务分析模块接收到查询请求时,根据用户任务日志数据库得到所述查询请求的体裁形式表示并发送给索引匹配引擎;用户任务日志数据库:用于存储体裁标注后的事件信息和用户查询历史信息;索引匹配引擎:实时从互联网抓取原始数据并保存,对所述原始数据建立内容-体裁索引,即对原始数据同时建立内容索引和体裁索引;从用户接口模块接收用户查询请求,将所述用户查询请求与建立的内容索引作匹配,得到初始查询结果;之后从用户任务体裁分析器接收以体裁形式表示的查询请求,将初始查询结果根据所述以体裁形式表示的查询请求、以及建立的体裁索引作二次匹配,得到最终的用户查询结果,返回给用户接口模块。在上述基于体裁的多维信息检索系统中,用户任务体裁分析器包括用户任务消息接口,用户任务体裁分析引擎,用户任务体裁生成器和任务体裁标注模块,其中:用户任务消息接口:实时接收任务监视器输出的用户在桌面完成的各种任务过程中的事件信息和用户接口模块输出的用户查询历史信息,以及从用户任务分析模块接收查询请求,发送给用户任务体裁分析引擎;用户任务体裁分析引擎:对接收到的信息进行判断,若为实时接收的任务监视器输出的用户在桌面完成的各种任务过程中的事件信息和用户接口模块输出的用户查询历史信息,则发送给任务体裁标注模块;若为从用户任务分析模块接收到的查询请求,则发送给用户任务体裁生成器;并从用户任务体裁生成器接收以体裁形式表示的用户查询请求,发送给索引匹配引擎;任务体裁标注模块:从用户任务体裁分析引擎接收所述事件信息和所述用户查询历史信息,查询体裁数据库,将所述事件信息和所述用户查询历史信息按照体裁分类进行体裁标注并存储到用户任务日志数据库;用户任务体裁生成器:从用户任务体裁分析引擎接收所述查询请求,从用户任务日志数据库中获取所述查询请求的用户的任务日志信息,生成以体裁形式表示的所述用户的查询请求,并返回给用户任务分析引擎。在上述基于体裁的多维信息检索系统中,任务监视器包括事件拦截器、窗口切换历史分析器与标题语义分析器;其中:事件拦截器为任务监视器的中枢,对窗口事件进行拦截,得到编码信息,对编码信息进行分类处理,并传送给用户任务分析模块,具体分类处理方法为:如果窗口事件数量超过设定阈值,则交由标题语义分析器进行语义分析,并把所述窗口事件分配到对应的任务类中;若窗口事件数量小于设定阈值,则交由窗口切换历史分析器处理,处理方法为在不同窗口之间切换次数超过设定阈值的不同窗口事件属于同一类事件,分到相应的任务类中。在上述基于体裁的多维信息检索系统中,索引匹配引擎包括爬虫模块、原始数据库、索引模块、内容-体裁索引库、匹配模块和查询接口,其中:爬虫模块:实时从互联网抓取原始数据并保存到原始数据库;原始数据库:保存爬虫模块从互联网抓取的原始数据;索引模块:对所述原始数据建立内容-体裁索引,即原始数据的内容索引和体裁索引,将所述内容-体裁索引保存到内容体裁索引库;内容体裁索引库:用于存储原始数据的内容-体裁索引;匹配模块:从查询接口接收用户查询请求,将所述本文档来自技高网
...
一种基于体裁的多维信息检索系统

【技术保护点】
一种基于体裁的多维信息检索系统,包括客户端和搜索引擎,其中搜索引擎包括任务分析引擎和索引匹配引擎,其中客户端包括任务监视器、用户任务分析模块和用户接口模块,任务分析引擎包括体裁数据库、用户任务体裁分析器和用户任务日志数据库,其中:任务监视器:实时采集用户在桌面完成的各种任务过程中的事件信息,并将所述事件信息传送给用户任务分析模块;用户接口模块:将用户查询历史信息实时发送给用户任务分析模块;当接收到用户输入的查询请求时,将所述查询请求同时发送给索引匹配引擎和用户任务分析模块;并从索引匹配引擎接收最终查询结果返回给用户;用户任务分析模块:实时接收任务监视器输出的所述事件信息和用户接口模块输出的所述用户查询历史信息,以及接收用户接口模块输出的查询请求,并发送给用户任务体裁分析器;体裁数据库:存储各种体裁分类的集合;用户任务体裁分析器:实时接收用户任务分析模块输出的所述事件信息和用户接口模块输出的所述用户查询历史信息,同时查询体裁数据库,将所述事件信息和所述用户查询历史信息按照体裁分类进行体裁标注并存储到用户任务日志数据库;当从用户任务分析模块接收到查询请求时,根据用户任务日志数据库得到所述查询请求的体裁形式表示并发送给索引匹配引擎;用户任务日志数据库:用于存储体裁标注后的事件信息和用户查询历史信息;索引匹配引擎:实时从互联网抓取原始数据并保存,对所述原始数据建立内容‑体裁索引,即对原始数据同时建立内容索引和体裁索引;从用户接口模块接收用户查询请求,将所述用户查询请求与建立的内容索引作匹配,得到初始查询结果;之后从用户任务体裁分析器接收以体裁形式表示的查询请求,将初始查询结果根据所述以体裁形式表示的查询请求、以及建立的体裁索引作二次匹配,得到最终的用户查询结果,返回给用户接口模块。...

【技术特征摘要】
1.一种基于体裁的多维信息检索系统,包括客户端和搜索引擎,其中搜索引擎包括任务分析引擎和索引匹配引擎,其中客户端包括任务监视器、用户任务分析模块和用户接口模块,任务分析引擎包括体裁数据库、用户任务体裁分析器和用户任务日志数据库,其中:任务监视器:实时采集用户在桌面完成的各种任务过程中的事件信息,并将所述事件信息传送给用户任务分析模块;用户接口模块:将用户查询历史信息实时发送给用户任务分析模块;当接收到用户输入的查询请求时,将所述查询请求同时发送给索引匹配引擎和用户任务分析模块;并从索引匹配引擎接收最终查询结果返回给用户;用户任务分析模块:实时接收任务监视器输出的所述事件信息和用户接口模块输出的所述用户查询历史信息,以及接收用户接口模块输出的查询请求,并发送给用户任务体裁分析器;体裁数据库:存储各种体裁分类的集合;用户任务体裁分析器:实时接收用户任务分析模块输出的所述事件信息和所述用户查询历史信息,同时查询体裁数据库,将所述事件信息和所述用户查询历史信息按照体裁分类进行体裁标注并存储到用户任务日志数据库;当从用户任务分析模块接收到查询请求时,根据用户任务日志数据库得到所述查询请求的体裁形式表示并发送给索引匹配引擎;用户任务日志数据库:用于存储体裁标注后的事件信息和用户查询历史信息;索引匹配引擎:实时从互联网抓取原始数据并保存,对所述原始数据建立内容-体裁索引,即对原始数据同时建立内容索引和体裁索引;从用户接口模块接收用户查询请求,将所述用户查询请求与建立的内容索引作匹配,得到初始查询结果;之后从用户任务体裁分析器接收以体裁形式表示的查询请求,将初始查询结果根据所述以体裁形式表示的查询请求、以及建立的体裁索引作二次匹配,得到最终的用户查询结果,返回给用户接口模块。2.根据权利要求1所述的一种基于体裁的多维信息检索系统,其特征在于:所述用户任务体裁分析器包括用户任务消息接口,用户任务体裁分析引擎,用户任务体裁生成器和任务体裁标注模块,其中:用户任务消息接口:实时接收任务监视器输出的用户在桌面完成的各种任务过程中的事件信息和用户接口模块输出的用户查询历史信息,以及从用户任务分析模块接收查询请求,发送给用户任务体裁分析引擎;用户任务体裁分析引擎:对接收到的信息进行判断,若为实时接收的任务监视器输出的用户在桌面完成的各种任务过程中的事件信息和用户接口模块输出的用户查询历史信息,则发送给任务体裁标注模块;若为从用户任...

【专利技术属性】
技术研发人员:万亚平阳小华莫文涛刘志明张娟欧阳纯萍宋涛涛顾伟余颖
申请(专利权)人:南华大学国家核电技术有限公司北京软件技术中心
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1