本发明专利技术揭示一种信息检索方法和信息检索装置,包括存储检索对象文本的检索对象数据存储手段101;将检索对象文本划分为词单元的文本划分手段102;保持划分为词单元的文本的单词划分文本存储手段103;根据划分为词单元的文本,生成具有表示词界的单词信息且字符数为N的带单词信息字符串索引的索引生成手段104;存储所生成带单词信息字符串索引的索引存储手段105;用带单词信息字符串索引进行检索词的字符串检索和单词检索的检索手段106。(*该技术在2020年保护过期,可自由使用*)
【技术实现步骤摘要】
本专利技术涉及实施利用电子计算机进行机器翻译、大量文本检索、文本自动摘要等的自然语言处理系统前处理分析部分中,进行信息检测用的方法及其装置,特别涉及能降低检索噪声无漏检的信息检索方法和装置。全文检索系统是指从存储的文本数据检索使用者指定的字符串用的系统。为了实现全文检索,已提出各种方法的建议。典型的方法,如长尾真等人所著《语言信息处理》(岩波书店1998年发行)第72页~第77页所述,有以下两种。一种为根据文本数据生成单词索引后,由单词索引检索使用者指定的字符串(检索词);另一种为根据文本数据生成字符串索引后由字符串索引对检索词进行检索。单词索引生成法生成文本中所出现全部单词的索引。在日语之类粘着语的情况下,由于单词界限不明,通常用辞典进行形态单元分析,将文本划分为词单后,生成所有这些词的索引。例如对“東京都品川区”的文本,生成“東京”、“東京都”、“品川”、“品川区”这4种索引。检索时,在指定東京”或“品川区”的场合,原样检索该索引即可,而在指定复合词“東京都品川区”时,利用形态单元分析对检索词进行分解后,对各词分别进行检索即可。利用上述方法,可按文章中任意的词进行检索。为了减少单词索引的数量,还提出一种作法的建议,即采用包含某词的最长单词作为索引。上述例子中,“東京都”包含“東京”,因而仅将“東京都”作为索引(日本专利特开平10-334118公报等)。单词划分方面,除形态单元分析外,还提出用统计术进行划分的方法(中渡濑秀一著“用归一化频度推定形态单元边界”,信息处理学会自然语言研究会113-3(1996)等)。字符串索引生成法生成对文本中全部连续N字符的索引(n-gram index)。N采用2的较多。例如对文本“東京都品川区”生成2字符组的索引时,生成“東京”、“京都”、“都品”、“品川”、“川区“这5种索引。用图进一步详细说明字符串索引生成法的例子。图22为表示字符串生成过程的图。对文本“本發明の実施は、”生成2字符组成的7个字符串索引、“本发”、“专利技术”、“明の”、“の実”、“実施”、“施は”、“は”,并将本文号和字符串出现位置(字符位置)写入各索引。对全部文本生成这种索引,并按字符串将这些索引分类后加以存储。检索时,例如检索“本专利技术”,则对“本发”、“专利技术”2个字符串进行索引的检索,并判断发现的索引是否连续出现即可。字符串索引生成法具有不需要进行形态单元分析的特征。然而,采用单词索引的方式中,需要在生成索引时将文本划分为单词,其划分精度影响检索准确度。即,由于未正确划分单词,可能发生漏检。使用形态单元分析划分文本时,分析精度取决于形态单元分析中使用的辞典。语言通常总在流动,不断产生新词,因而需要经常修整形态单元分析用的辞典。往往因作为对象的文本而单词用法不同,所以每次改变对象文本必须调整辞典。即,按照医学专用数据库或经济专用数据库,进行不同的辞典调整等。即使随时注意修整辞典,也不能否定形态单元分析中可能遇到未知词,即辞典未记载的词。由于未知词的出现,往往会使形态单元分析精度大为下降。反之,若采用借助统计术的单词划分,则表面上虽然无未知词的问题,但并非单词划分精度达到100%,留有同样的问题。形态单元分析中,为了提高其精度,有时采用依靠上下文的分析。然而,这种复杂的处理往往将长文中出现的句和短文中出现的句分解为不同的字符串。采用字符串索引的方式中,不需要划分单词,因而原理上无漏检。然而,例如用“京都”检索时,连文本中“東京都”的部分也命中,从而包含此类非本来希望的结果(一般称之为检索噪声)。针对此问题,日本专利特开平10-307835公报中,揭示了一种方式,该方式具有单词索引和字符串索引两者,根据情况进行划分。然而,采取这种结果,则检索的索引规模变大。此外,用减少噪声的模式进行检索,则产生漏检;做到不产生漏检,则噪声变多。实质上没有解决问题。即使假设同时对这两种索引进行检索,也不仅检索时间变长,而且检索结果的综合要化费时间。本专利技术解决如上所述以往技术的课题,其目的在于利用融合单词索引方式和字符串索引方式提供能防止漏检且能降噪的信息检索方法,并提供实施该方法的装置。本专利技术的信息检索方法将对象文本划分为词单元,根据划分为词单元的文本,生成具有表示词界的单词信息且字符数为N的带单词信息字符串索引后,根据该带单词信息字符串索引,用字符串检索或单词检索或这两种检索对检索词进行检索。本专利技术的信息检索装置设置存储检索对象文本的检索对象文本存储手段;将检索对象文本划分为词单元的文本划分手段保持划分为词单元的文本的单词划分文本存储手段;根据划分为词单元的文本,生成具有表示词界的单词信息且字符数为N的带单词信息字符串索引的带单词信息字符串索引生成手段;存储生成的带单词信息字符串索引的带单词信息字符串索引存储手段;用带单词信息字符段索引,进行检索词的字符串检索或单词检索或这两种检索的带单词信息字符串索引检索手段。因此,可在一个装置用一种索引进行单词检索和字符串检索,能防止漏检,并能降低检索噪声。本专利技术第1专利技术的信息检索方法,对文本数据进行全文检索,该方法将检索对象文本划分为词单元,根据划分为词单元的文本,生成具有表示词界的单词信息且字符数为N的带单词信息字符串索引后,根据带单词信息字符串索引,用字符串检索或单词检索或这两种检索对检索词进行检索。能用一个带单词信息的字符串索引进行单词检索和字符串检索,因而可防止漏检并降低检索噪声。本专利技术第2专利技术的信息检索方法,利用在检索对象文本中包含的单词前添加单词始端标记,在单词后添加单词终端标记,将检索对象文本划分为词单元后,根据划分为词单元的文本,生成具有表示单词始端标记和单词终端标记的单词信息且字符数为N的的带单词信息字符串索引。能利用区别单词的始端和终端降低检索噪声。本专利技术第3专利技术的信息检索方法,在带单词信息字符串索引中,第1字符在该字符前存在单词始端标记时,具有表示该情况的单词信息,在该字符后存在单词终端标记时,具有表示该情况的单词信息,第2字符以后则仅在该字符后存在单词终端标记时,具有表示该情况的单词信息。利用减少第2字符后的始端信息,可不影响检索速度且减小检测规模,而且借助使第1字符具有始端信息和终端信息也能适应一个学符的检索词的检索。本专利技术第4专利技术的信息检索方法,根据带单词信息字符串索引,一起执行发现检索词的单词的单词检索和发现检索词的字符串的字符串检索。对各检索词,可同时执行发现该单词用的单词检索和将单词视为字符串的字符串检索。本专利技术第5专利技术的信息检索方法,将检索词的字符串划分为字符数N的部分检索字符串,根据带单词信息字符串索引,检索与各部分检索字符串一致的字符串,所检索的各字符串在检索对象文本上具有连续性时,判断为检索词的文字串是检索到的文字串,在检索与包含检索词的第1字符的部分检索字符串或包含检索词的最后字符的部分检索字符串一致的字符串时,增加第1字符前或最后字符后的单词信息作为判断材料,进行一致性判断,从而对检索词的单词进行检索。本专利技术第6专利技术的信息检索方法,利用单词检索,根据带单词信息字符串索引,检索与检索词的单词完全一致的单词、与检索词的单词完全一致和与前方一致的单词、与检索词的单词完全一致和与后方一致的单词、仅与检索词的单词前方一本文档来自技高网...
【技术保护点】
一种信息检索方法,所述信息检索方法对文本数据进行全文检索,其特征在于,将检索对象文本划分为词单元,根据划分为词单元的所述文本,生成具有表示词界的单词信息且字符数为N的带单词信息字符串索引后,根据所述带单词信息字符串索引,用字符串检索或单 词检索或这两种检索对检索词进行检索。
【技术特征摘要】
...
【专利技术属性】
技术研发人员:饭塚泰树,田邉智子,菊池忠一,
申请(专利权)人:松下电器产业株式会社,
类型:发明
国别省市:JP[日本]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。