【技术实现步骤摘要】
本专利技术涉及,并且更具体地涉及通过使用预先准备的索引有效地搜索关键词的系统及其方法。
技术介绍
随着最近通信网络和信息处理设备的发展,许多文本被存储为数字数据。因此,文本挖掘作为从这些文本中获得有用信息的技术已经引起注意。在文本挖掘中,存在一个实际的问题,即“从在任何搜索条件下已经被限制的文本的集合中,以出现频率的降序检测属于任何范畴的N个关键词(参见非专利文献1)”。以上问题的一个解决方案可以通过以文本的标识符和关键词的标识符作为主要的关键构造RDB(关系数据库)获得。该RDB是,例如,以关键词对应文本的方式记录包含在特定文本中的关键词的数据库。然而,在使用这种RDB的情况下,如果文本数量变得巨大,则搜索时间也变得极长。因此,迄今为止,已经提出通过使用多个信息处理设备并行地计算以上问题的技术(参见非专利文献1)。稍后描述非专利文献2和3。Yu C,Philip G,Meng WY.Distributed top-nquery processing with possibly uncooperative local system(以可能不合作的本地系统处理的分布式的前n个查询),Proc.Of the 29thInt’1Conf.on Very Large Data Bases. BerlinMorgan KaufmannPublishers,2003.117-128。Wei Wang,Jiong Yang,Richard MuntzSTINGA Statistical Information Grid Approach to Spatial Dat ...
【技术保护点】
一种用于搜索文本中的关键词的系统,该系统包括:第一索引存储单元,用于存储从各个文本的标识符指明包含在文本中的关键词的列表的第一索引;第二索引存储单元,用于以第二索引对应于包含各个关键词的文本的数量的方式,存储从各个关键词的标 识符指明包含关键词的文本的列表的第二索引;输入单元,用于接收作为关键词的搜索目标的文本条件的文本搜索条件的输入;确定单元,基于在作为搜索目标的多个文本中满足文本搜索条件的文本数量,并且基于以该数量对应于第二索引的方式存储的文 本的数量,计算通过第一索引的搜索时间的估计和通过第二索引的搜索时间的估计,并确定第一和第二索引哪一个使得搜索更快;和搜索单元,通过使用被确定为使得搜索更快的索引,搜索并输出以高于预定标准的频率出现在满足文本搜索条件的文本中的关键词。
【技术特征摘要】
JP 2005-12-2 2005-3497171.一种用于搜索文本中的关键词的系统,该系统包括第一索引存储单元,用于存储从各个文本的标识符指明包含在文本中的关键词的列表的第一索引;第二索引存储单元,用于以第二索引对应于包含各个关键词的文本的数量的方式,存储从各个关键词的标识符指明包含关键词的文本的列表的第二索引;输入单元,用于接收作为关键词的搜索目标的文本条件的文本搜索条件的输入;确定单元,基于在作为搜索目标的多个文本中满足文本搜索条件的文本数量,并且基于以该数量对应于第二索引的方式存储的文本的数量,计算通过第一索引的搜索时间的估计和通过第二索引的搜索时间的估计,并确定第一和第二索引哪一个使得搜索更快;和搜索单元,通过使用被确定为使得搜索更快的索引,搜索并输出以高于预定标准的频率出现在满足文本搜索条件的文本中的关键词。2.按照权利要求1的系统,其中系统通过以文本数量的降序选择关键词的预定标准数量搜索高频词,该文本包含多个关键词中的关键词并且满足文本搜索条件,其中在通过第二索引搜索的情况中,该搜索单元包括候选词存储单元,用于存储候选词出现的数量,以该数量对应于候选为高频词的候选词的方式存储,该数量是包含候选词并且满足文本搜索条件的文本的数量;选择单元,用于以包含关键词的文本数量的降序顺序地选择多个关键词,多个关键词中的每个被选作目标词以作为被确定是否是高频词之一的目标;比较单元,用于从第二索引存储单元读取包含目标词的文本的数量,并且将所读取的文本数量与候选词出现的数量相比较;计算单元,倘若所读取的文本的数量大于任何一个候选词出现的数量,则从第二索引存储单元读取包含目标词的文本的列表,并且计算所读取的文本列表中满足文本搜索条件的文本的数量;和更新单元,倘若所计算的文本的数量大于任何一个候选词出现的数量,则以新候选词的数量限制在标准数量以内的方式,从目标词和候选词中以包含各个关键词的文本数量的降序选择新的候选词,并且更新候选词存储单元,其中倘若包含由选择单元顺序地选择的目标词的文本的数量小于任何一个候选词出现的数量,则搜索单元输出存储在候选词存储单元中的关键词作为高频词。3.按照权利要求2的系统,其中确定单元包括比率计算单元,用于计算指示作为搜索目标的所有文本中满足文本搜索条件的文本的占有率的条件满足率;函数计算单元,用于基于该条件满足率近似地计算指示包含各个关键词并且满足文本搜索条件的文本的数量的随机变量的概率分布,并且基于所计算的概率分布,计算阈值的函数以获取各个关键词的随机变量不小于该阈值的概率和;阈值计算单元,用于计算算出的函数基本上等于标准数量处的阈值;第二搜索时间计算单元,基于存储在第二索引存储单元中的文本的数量,计算包含各个关键词的文本的数量,其中关键词包含在其数量大于所计算的阈值的文本中,并且计算算出的文本数量与预定访问时间的乘积,作为通过第二索引的搜索时间的估计;和第一搜索时间计算单元,用于计算作为搜索目标的多个文本中满足文本搜索条件的文本数量与预定访问时间的乘积,作为通过第一索引的搜索时间的估计,其中倘若由第二搜索时间计算单元计算的搜索时间的估计小于由第一搜索时间计算单元计算的搜索时间的估计,则预定单元确定由第二索引搜索更快。4.按照权利要求3的系统,其中函数计算单元通过使用条件满足率估计包含关键词的各个文本满足文本搜索条件的概率,计算作为二项式分布的随机变量的概率分布,并且基于算出的概率分布计算阈值的函数。5.按照权利要求1的系统,其中第一索引存储单元为关键词的每个种类存储从各个文本的标识符指明包含在文本中的种类的关键词的列表的第一索引;第二索引存储单元为关键词的每个种类存储包含在该种类中的关键词的第二索引、和包含该种类中包含的各个关键词的文本的数量;输入单元进一步接收作为搜索目标的关键词的种类的输入;和确定单元基于包含对应于该种类的各个关键词的文本的数量确定第一和第二索引的哪一个使得搜索更快,两个索引都对应于输入的种类。6.一种用于搜索文本中关键词的系统,该系统包括第二索引存储单元,用于存储从各个关键词的标识符指明包含关键词的文本的列表的第二索引;输入单元,用于接收是作为关键词的搜索目标的文本条件的文本搜索条件的输入;和搜索单元,通过以文本数量的降序选择关键词的预定标准数量来搜索高频词,该文本包含多个关键词中的关键词并且满足文本搜索条件,该搜索单元进一步包括候选词存储单元,用于存储候选词出现的数量,以该数量对应于候选为高频词的候选词的方式存储,该数量是包含候选词并且满足文本搜索条件的文本的数量;选择单元,用于以包含关键词的文本数量的降序顺序地选择多个关键词,多个关键词中的每个被选作目标词以作为被确定是否是高频词之一的目标;比较单元,用于从第二索引存储单元读取包含目标词的文本的数量,并且将所读取的文本数量与候选词出现的数量相比较;计算单元,倘若所读取的文本的数量大于任何一个候选词出现的数量,则从第二索引存储单元读取包含目标词的文本的列表,并且计算所读取的文本列表中满足文本搜索条件的文本的数量;和更新单元,倘若所计算的文本的数量大于任何一个候选词出现的数量,则以新候选词的数量限制在标准数量以内的方式,从目标词和候选词中以包含各个关键词的文本数量的降序选择新候选词,并且更新候选词存储单元,其中倘若包含由选择单元顺序地选择的目标词的文本的数量小于任何一个候选词出现的数量,则搜索单元输出存储在候选词存储单元中的关键词作为高频词。7.按照权利要求6的系统,其中第二索引存储单元以文本数量对...
【专利技术属性】
技术研发人员:宅间大介,坪井裕太,吉田一星,
申请(专利权)人:国际商业机器公司,
类型:发明
国别省市:US[美国]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。