当前位置: 首页 > 专利查询>辽宁医学院专利>正文

一种英文文献的检索方法技术

技术编号:15397439 阅读:95 留言:0更新日期:2017-05-19 15:48
本发明专利技术公开了一种英文文献的检索方法,包括:在服务器上创建缓存表、存储表和多个检索单位;首次检索,客户端上传要检索的英文关键词群到服务器;将关键词群与服务器上所有第一检索条匹配,将匹配度高的位于前十位的第一检索条所属的检索单位关联的英文文献存储到缓存表中;将关键词群与服务器上所有第二检索条匹配,将匹配度高的位于前十位的第二检索条所属的检索单位关联的英文文献存储到缓存表中;将缓存表中所有英文文献关联的检索单位的ID和当前时间与关键词群关联,并存储到存储表中,将缓存表中的所有英文文献发送到客户端,清空缓存区。本发明专利技术设计的英文文献检索方法,不仅与待测关键词相关度高,且检索速度快。

A retrieval method of English Literature

The invention discloses a retrieval method, a English literature includes: creating a cache table, storage table and a plurality of retrieval units on the server; the first retrieval server to the client to upload to retrieve keywords English group; keywords group and the server all the first retrieval match, the high degree of one of the top ten the first section is the retrieval retrieval unit associated English document storage, cache table; keywords group and server all second retrieval matches will match, high in the top ten of the second search bar belongs to search associated English documents stored in the cache table; all English Literature Association in the cache table retrieval unit ID and the current time and group related keywords, and stored into the storage table, the cache table in all English documents sent to the client, empty slowly Storage area. The English document retrieval method designed by the invention not only has high correlation with the key to be tested, but also has fast retrieval speed.

【技术实现步骤摘要】
一种英文文献的检索方法
本专利技术涉及一种英文文献的检索方法。
技术介绍
计算机和网络不断的发展,全球进入了信息大融合的时代。科学工作这几乎每天都要查找英文文章,以了解最新的科学发展动向,我们要想快速的了解到国外科学研究的动态,就要的不断的阅读国外最新的文献,但是目前的英文检索系统往往检索出的文章数量太多且相关度不高,给阅读者造成了很大的困扰。在中国专利申请号为201110112548.1中提到了一种检索的方法,其主要利用N-Gram语言模型,虽然提高了检索的相关度,但是,这种检索方法数据量庞大,需要很大的服务器支持,而且检索出的相关文献的数量也十分巨大,需要检索人员在人工挑选,且这种检索方法并非针对英语检索,所以对英文检索的相关度也不是很高。
技术实现思路
本专利技术针对目前英文检索中存在的问题,提供一种英文文献的检索方法。本专利技术提供的技术方案为:一种英文文献的检索方法,包括:步骤1、在服务器上创建缓存表、存储表和多个检索单位,每篇英文文献关联一个检索单位,对于任意一个检索单位均包括ID、英文文献录入时间、第一检索条和第二检索条,所述第一检索条为由所述检索单位关联的英文文献的题目中的所有名词和实意动词组成,所述第二检索条包括所述检索单位关联的英文文献正文中所有名词和实意动词,在第二检索条中的每个名词与其在所述检索单位关联的英文文献中出现的频率数关联;步骤2、首次检索,客户端上传要检索的英文关键词群到服务器上,利用分词器删除关键词群中的非名词和非实意动词,任意一个关键词群至少包括一个名词和一个实意动词;将关键词群与服务器上所有第一检索条匹配,将匹配度高的位于前十位的第一检索条所属的检索单位关联的英文文献存储到缓存表中;将关键词群与服务器上所有第二检索条匹配,将匹配度高的位于前十位的第二检索条所属的检索单位关联的英文文献存储到缓存表中;将缓存表中所有英文文献关联的检索单位的ID和当前时间与关键词群关联,并存储到存储表中,将缓存表中的所有英文文献发送到客户端,清空缓存区;步骤3、当进行非首次检索时,客户端上传要检索的英文关键词群到服务器上;将关键词群与服务器上存储表中的关键词群进行匹配,判断是否存在与要检索的关键词群相同的已存储在存储表中的关键词群,如不存在,则进行步骤2,若存在,则查找是否存在在该关键词群关联的当前时间之后的英文文献录入时间,若不存在,则将与该关键词群关联的ID所属的检索单位关联的英文文献发送到客户端,若存在,则将该关键词群关联的当前时间之后的英文文献录入时间所属的检索单位关联的英文文献与该关键词群关联ID所属的检索单位关联的英文文献合并为合并集,删除存储表中该关键词群以及和该关键词群关联的ID和当前时间,在合并集中进行步骤2。优选的是,所述的英文文献的检索方法中,所述步骤2中,将关键词群与服务器上所有第一检索条匹配的具体过程为:a、统计关键词群中的名词与每一第一检索条中包括的所有名词的匹配度,滤除与关键词中的名词匹配度为零的第一检索条,将匹配度相同且不为零的第一检索条放置在同一个第一匹配组中,若匹配度高的前三个第一匹配组中第一检索条的个数小于等于十个,则将这些第一检索条所属的检索单元关联的英文文献存储到缓存表中,若匹配度高的前三个第一匹配组中的第一检索条的个数大于十个,则进行b;b、统计关键词群中的实意动词与a检索结果中匹配度位于前三位的三个第一匹配组中每一第一检索条中包括的所有实意动词的匹配度,将匹配度高的前十个第一检索条所属的检索单位关联的英文文献存储到缓存表中;其中,每个第一匹配组中至少有一个第一检索条;与关键词群中的名词匹配度为零为第一检索为该第一检索条中没有与关键词群中的名词相同的名词。优选的是,所述的英文文献的检索方法中,所述步骤2中,将关键词群与服务器上所有第二检索条匹配的具体过程为:一次检索:将关键词群中的名词与服务器上所有第二检索条匹配,统计所述关键词群中的名词与每一第二检索条中包括的所有名词的匹配度,滤除与关键词群中的名词匹配度为零的第二检索条,将匹配度相同且不为零的第二检索条放在同一个第二匹配组中,若匹配度高的前三个第二匹配组中的第二检索条个数小于等于十个,则将这些第二检索条所属的检索单元关联的英文文献存储到缓存表中,若匹配度高的前三个第二匹配组中的第二检索条的个数大于十个,则进行二次检索,二次检索具体为:将关键词群中的实意动词与一次检索结果中匹配度位于前三位的三个第二匹配组中的所有第二检索条中的实意动词匹配,将匹配度相同的第二检索条放置在同一个第三匹配组中,若匹配度高的前三个第三匹配组中的第二检索条个数小于等于十个,则将这些第二检索条所属的检索单元关联的英文文献存储到缓存表中,若匹配度高的前十个第三匹配组中的第二检索条的个数大于十个,则在二次检索的基础上进行三次检索,三次检索具体为:根据第二检索条中每个名词关联的频率数,将二次检索结果中匹配度位于前三位的三个的第三匹配组中的每条第二检索条中的与关键词群中名词相同的名词所关联的频率数相加,频率数之和由大到小排列,将频率数之和位于前十的十个第二检索条所属的检索单元关联的英文文献存储到缓存表中,每个第二匹配组和第三匹配组中至少有一个第二检索条;其中,与关键词群中的名词匹配度为零为第二检索条为该第二检索条中没有与关键词群中的名词相同的名词。优选的是,所述的英文文献的检索方法中,服务器与客户端之间通过网络通信。优选的是,所述的英文文献的检索方法中,当前时间和英文文献录入时间的格式为:年/月/日/时/分/秒。针对目前英文文献检索中的问题,本专利技术设计了一种英文文献的检索方法。第一、本专利技术将关键词的检索限定在名词和实意动词上,消除了介词、连词以及其他无实意的词对检索结果造成的干扰,减小了服务器的检索负担,不仅提高了检索的速度,而且提高了检索结果的相关度;第二、本专利技术通过对存储英文文献题目和正文的双重搜索,最终确定小于后小于等于20篇相关度最高的英文文献发送给客户,减少了客户的阅读量,提高了阅读效率;第三、本专利技术同时采用了先名称后动词检索顺序,进一步提供了检索结果的相关度和准确度;第四、本专利技术还每次的检索结果存储的存储表中,当无新文献录入时,直接发送到客户端,避免了重复搜索,缩短了检索的时间,当有新文献录入时,只在上次检索和新录入文献之间匹配,大大减小了检索量,减轻了服务器的负载,在保证了相关度的前提下,进一步的缩短了检索时间。本专利技术设计的英文文献检索方法,不仅与待测关键词相关度高,且检索速度快。附图说明图1为本专利技术首次检索流程图。图2为本专利技术非首次检索流程图。具体实施方式下面结合附图对本专利技术做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。实施例1、如图1所示,首次检索步骤1、在服务器上创建缓存表、存储表和多个检索单位,每篇英文文献关联一个检索单位,对于任意一个检索单位均包括ID、英文文献录入时间(格式为:年/月/日/时/分/秒)、第一检索条和第二检索条,所述第一检索条为由所述检索单位关联的英文文献的题目中的所有名词和实意动词组成,所述第二检索条包括所述检索单位关联的英文文献正文中所有名词和实意动词,在第二检索条中的每个名词与其在所述检索单位关联的英文文献中出现的频率数关联;步骤2、客户端上传要检索的英文关键词本文档来自技高网...
一种英文文献的检索方法

【技术保护点】
一种英文文献的检索方法,其特征在于,包括:步骤1、在服务器上创建缓存表、存储表和多个检索单位,每篇英文文献关联一个检索单位,对于任意一个检索单位均包括ID、英文文献录入时间、第一检索条和第二检索条,所述第一检索条为由所述检索单位关联的英文文献的题目中的所有名词和实意动词组成,所述第二检索条包括所述检索单位关联的英文文献正文中所有名词和实意动词,在第二检索条中的每个名词与其在所述检索单位关联的英文文献中出现的频率数关联;步骤2、首次检索,客户端上传要检索的英文关键词群到服务器上,利用分词器删除关键词群中的非名词和非实意动词,任意一个关键词群至少包括一个名词和一个实意动词;将关键词群与服务器上所有第一检索条匹配,将匹配度高的位于前十位的第一检索条所属的检索单位关联的英文文献存储到缓存表中;将关键词群与服务器上所有第二检索条匹配,将匹配度高的位于前十位的第二检索条所属的检索单位关联的英文文献存储到缓存表中;将缓存表中所有英文文献关联的检索单位的ID和当前时间与关键词群关联,并存储到存储表中,将缓存表中的所有英文文献发送到客户端,清空缓存区;步骤3、当进行非首次检索时,客户端上传要检索的英文关键词群到服务器上;将关键词群与服务器上存储表中的关键词群进行匹配,判断是否存在与要检索的关键词群相同的已存储在存储表中的关键词群,如不存在,则进行步骤2,若存在,则查找是否存在在该关键词群关联的当前时间之后的英文文献录入时间,若不存在,则将与该关键词群关联的ID所属的检索单位关联的英文文献发送到客户端,若存在,则将该关键词群关联的当前时间之后的英文文献录入时间所属的检索单位关联的英文文献与该关键词群关联ID所属的检索单位关联的英文文献合并为合并集,删除存储表中该关键词群以及和该关键词群关联的ID和当前时间,在合并集中进行步骤2。...

【技术特征摘要】
1.一种英文文献的检索方法,其特征在于,包括:步骤1、在服务器上创建缓存表、存储表和多个检索单位,每篇英文文献关联一个检索单位,对于任意一个检索单位均包括ID、英文文献录入时间、第一检索条和第二检索条,所述第一检索条为由所述检索单位关联的英文文献的题目中的所有名词和实意动词组成,所述第二检索条包括所述检索单位关联的英文文献正文中所有名词和实意动词,在第二检索条中的每个名词与其在所述检索单位关联的英文文献中出现的频率数关联;步骤2、首次检索,客户端上传要检索的英文关键词群到服务器上,利用分词器删除关键词群中的非名词和非实意动词,任意一个关键词群至少包括一个名词和一个实意动词;将关键词群与服务器上所有第一检索条匹配,将匹配度高的位于前十位的第一检索条所属的检索单位关联的英文文献存储到缓存表中;将关键词群与服务器上所有第二检索条匹配,将匹配度高的位于前十位的第二检索条所属的检索单位关联的英文文献存储到缓存表中;将缓存表中所有英文文献关联的检索单位的ID和当前时间与关键词群关联,并存储到存储表中,将缓存表中的所有英文文献发送到客户端,清空缓存区;步骤3、当进行非首次检索时,客户端上传要检索的英文关键词群到服务器上;将关键词群与服务器上存储表中的关键词群进行匹配,判断是否存在与要检索的关键词群相同的已存储在存储表中的关键词群,如不存在,则进行步骤2,若存在,则查找是否存在在该关键词群关联的当前时间之后的英文文献录入时间,若不存在,则将与该关键词群关联的ID所属的检索单位关联的英文文献发送到客户端,若存在,则将该关键词群关联的当前时间之后的英文文献录入时间所属的检索单位关联的英文文献与该关键词群关联ID所属的检索单位关联的英文文献合并为合并集,删除存储表中该关键词群以及和该关键词群关联的ID和当前时间,在合并集中进行步骤2。2.如权利要求1所述的英文文献的检索方法,其特征在于,所述步骤2中,将关键词群与服务器上所有第一检索条匹配的具体过程为:a、统计关键词群中的名词与每一第一检索条中包括的所有名词的匹配度,滤除与关键词中的名词匹配度为零的第一检索条,将匹配度相同且不为零的第一检索条放置在同一个第一匹配组中,若匹配度高的前三个第一匹配组中第一检索条的个数小于等于十个,则将这些第一检索条所属的检索单元关联的英文文献存储到缓存表中,...

【专利技术属性】
技术研发人员:杨天地刘曲付姗姗
申请(专利权)人:辽宁医学院
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1