信息检索系统及其信息检索方法技术方案

技术编号:2877773 阅读:208 留言:0更新日期:2012-04-11 18:40
为了提供能够轻易地发现类似于用户最喜爱网站的信息检索系统,而与每个用户和在获得信息步骤获得的检索结果没有差别。HTML文件获得装置从互联网网站获得HTML文件。还原密钥提取装置分析用户指定URL所示HTML文件的内容和提取关键字作为还原密钥。检索结果存储装置根据提取的还原密钥检索索引表和存储检索结果。检索结果显示装置改造检索结果用于用户看到和输出结果。计分装置计算HTML标记和关键字的分数。索引表存储装置存储提取的索引。(*该技术在2022年保护过期,可自由使用*)

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及一种信息检索系统和用于该系统的信息检索方法,更具体地涉及检索公开具体内容的网站的方法。在这种情况下,因为检索过程利用搜索引擎中输入的关键字进行,用户选择关键字和规定检索条件是有效检索的关键点。利用用户输入关键字的检索方法在日本专利2001-52014中公开。但是,因为在检索方法中使用用户输入的关键字,检索结果依赖用户选择的关键字,所以存在这样一个问题,即每个用户获得的检索结果和获得信息的步骤在每种情况下都不同。根据本专利技术的信息检索系统是一种检索由超文本文件所表示内容的记录网站的信息检索系统,包括提取装置,用于从外部规定的超文本文件中提取关键字;和检索装置,用于利用提取装置提取的关键字检索内容的记录网站。根据本专利技术的信息检索方法是一种检索由超文本文件所表示内容的记录站点的信息检索方法,包括从外部规定的超文本文件中提取关键字的步骤;和利用提取的关键字检索内容的记录网站的步骤。也就是说,根据本专利技术的网站检索系统(信息检索系统)可以轻易地检索到类似于用户指定网站的网站。在根据本专利技术的网站检索系统中,用户可以检索到类似于指定网站的网站而不必输入关键字。因此,可以不必烦恼关键字选择的执行检索过程。根据本专利技术,可以省略输入关键字的步骤,从而能够利用装有浏览器的小移动信息终端(例如,PDA(个人数字助理)等等)和手持电话机等等更容易地执行检索,这些终端通常对输入字符的装置具有严格的限制。在根据本专利技术的网站检索系统中,关键字可以自动地从规定网站的HTML文件提取,控制信息也可以提取。在这种情况下,不仅可以考虑规定网站的内容,还可以考虑包含在用于规定网站的HTML(超文本标记语言)的控制信息,例如,标记的相似性等等。因此,相比较只使用关键字的情况,可以检索到更相似的网站,从而更容易地执行检索过程。然后,本专利技术的实施方式将在下文参照附图描述。附图说明图1是根据本专利技术第一个实施方式的网站检索系统配置的方框图。在图1中,根据本专利技术第一实施方式的网站检索系统包括用户终端1和检索服务器2,用户终端1和检索服务器2分别连接到互联网100。网络(WWW(全球网)的缩写)网站(也称为WWW服务器)6连接到互联网100。用户终端1包括计算机,网络浏览器10可以作为互联网用户(以下简称为用户)的接口工作。网络浏览器10主要提供用户接口11的功能。用户接口11包括超级文本标志语言(超文本标记语言)显示装置12、字符输入装置13、和检索方法规定装置14。用户终端1不局限于个人计算机,而可以是装载有浏览器的小的移动信息终端(例如,PDA(个人数字助理)等等)和手持电话机等等,只要可以操作网络浏览器10。URL(通用资源定位器)利用字符输入装置13输入到网络浏览器10。检索方法规定装置14提供一用户接口,来使用根据本实施方式的检索方法。检索服务器2处理来自网络浏览器10的请求。检索服务器2是一网站,例如装有搜索引擎的门户网站,包括相似网站检索装置3和索引表产生装置4。相似网站检索装置3提供实现根据本实施方式检索方法的装置,包括HTML文件获得装置31、还原密钥提取装置、检索结果存储装置32和检索结果显示装置33。HTML文件获得装置31获得来自互联网100存在的网站6的HTML文件。HTML文件获得装置31在执行相似网站检索时获得URL规定的HTML文件,当索引表产生装置4产生索引表时,利用机器人等等全面收集来自互联网100网站6的HTML文件。还原密钥提取装置5分析用户指定URL所示HTML文件的内容和提取关键字作为还原密钥。提取关键字的方法可以是由关键字提取装置利用形态分析从HTML文件提取词素(词性)的方法,词素可以是关键字,例如名词等等。当一名词从HTML文件提取为关键字,通常考虑从HTML文件提取多个关键字。当提取多个关键字时,关键字集被用作还原密钥。还原密钥提取装置5包括检测包含在HTML文件中的控制信息的装置。根据本实施方式,它包括HTML标记信息提取装置52,作为检测控制信息的装置。关于HTML标记的信息由HTML标记信息提取装置52提取,HTML文件所用每个HTML标记的特征也被提取。检索结果存储装置32根据还原密钥提取装置5提取的还原密钥检索索引表,和存储器检索中获得的检索结果。检索结果显示装置3 3改造保存在检索结果存储装置32的检索结果,以使用户可以很容易看到检索结果,然后输出改造后的结果。当存在多个检索结果时,多个HTML文件由计分装置41排列,因此文件可以按顺序显示。当网络浏览器10被用作显示接口时,提供从HTML文件的检索服务器输出响应的功能。索引表产生装置4包括与相似网站检索装置3共享的还原密钥提取装置5,计分计算装置41用于计算所提取HTML标记和关键字的分数,索引表存储装置42存储已提取的索引和产生要求实现相似网站检索的索引表。作为相似网站检索装置3,还原密钥提取装置5提取HTML标记和关键字作为还原密钥。计分装置41计算表示已提取HTML标记和关键字优先级的分数和分别为HTML标记和关键字分配权值。也就是说,执行这样的计算,即关键字和HTML标记越重要,分数越高,关键字和HTML标记越不重要,分配的分数越低。根据本实施方式,不规定计分方法。分配给关键字和HTML标记的分数记录在保存在存储装置42的索引表中。当执行检索时,相似网站检索装置3参照索引表。图2是根据本专利技术第一个实施方式的产生网站检索系统的索引表的过程流程图。根据本专利技术第一实施方式的产生网站检索系统中的索引表的处理将在下文参照图1和2描述。为了实现根据本实施方式的检索方法,应当预先产生索引表。首先,HTML文件获得装置31全面收集要检索网站6中的HTML文件(图2的步骤S1)。HTML文件由HTML文件收集机器人收集,以便收集互联网100中所有的文件。但是,在本实施方式中,不规定收集HTML文件的范围。还原密钥提取装置5的HTML标记信息提取装置52从HTML文件获得装置31收集的每个HTML文件提取HTML标记,和获得正使用的的标记信息(图2所示的S3)。HTML标记利用脚本语言,例如Perl(实际提取和报告语言)等等提取。然后,还原密钥提取装置5的关键字提取装置51从HTML文件提取关键字作为还原密钥(图2所示的步骤S4)。在提取关键字中,通过自然语言过程,例如形态分析从HTML文件中提取词素(一部分语音),例如名词(词组)等等。因为一具体HTML标记规定的字符串,例如由充当文件摘要信息的TITLE标记封闭的字符串、显示为用规定加强的大字符的字符串可以是重要的关键字,这种字符串可以提取为关键字。计分装置41为在步骤S3和S4提取的HTML标记和关键字计分,从提取的HTML标记和关键字选择用作重要索引的还原密钥的HTML标记和关键字(图2所示的步骤S5)。因为在提取的HTML标记或与HTML文件内容无关的标记中存在调整布局和风格的标记,对已提取HTML标记和关键字执行这样的处理,即HTML标记和关键字越重要,分配的分数越高,HTML标记和关键字越不重要,分配的分数越低。在步骤S3和S4提取的HTML标记和关键字清楚地反映了它们所提取的HTML文件内容,当检索HTML文件时可以是索引。此后,该索引表示从HTML文件提取本文档来自技高网...

【技术保护点】
一种检索由超文本文件所表示内容的记录网站的信息检索系统,包括:提取装置,用于从外部规定的超文本文件提取关键字;和检索装置,用于利用所述提取装置提取的所述关键字检索内容的记录网站。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:寺西俊裕
申请(专利权)人:日本电气株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1