数字档案分词检索系统技术方案

技术编号:35151224 阅读:13 留言:0更新日期:2022-10-05 10:29
本发明专利技术提供一种数字档案分词检索系统,其特征在于,包括:数据导入单元:利用Logstash工具将MySQL数据库中的标准化数据导入ElasticSearch;数据索引单元:通过ElasticSearch对标准化数据建立索引,并将索引信息存放到索引库;数据检索单元:获取用户发送的检索请求,SpringBoot服务器通过JavaAPI接口调用ElasticSearch实现检索,结果通过VUE框架在用户端进行展示。本发明专利技术检索系统的实现了分词查询、档案数据毫秒级查询,能较好地满足不断增长的数字档案分词检索的需求,提高检索效率和检索质量。提高检索效率和检索质量。提高检索效率和检索质量。

【技术实现步骤摘要】
数字档案分词检索系统


[0001]本专利技术涉及数字档案
,特别涉及一种基于ElasticSearch中间件的数字档案分词检索系统。

技术介绍

[0002]电子档案管理系统通常存储有庞大数量级的数字化信息数据,然而,目前大部分电子档案管理系统对数据的检索存在用户搜索体验差、检索效率不高、结果质量差的问题。
[0003]目前常用的搜索引擎的主要有Lucene、Solr、ES等。1)Lucene搜索引擎是由Apache软件提供,一套用于全文检索和搜寻的开源程序库,可以实现站内搜索。其需要大量的开发工作。索引库的维护及查询的优化等问题都需要用户自己来解决。一般通过API来对抽取的索引进行增、删、改、搜等各类操作。包含一般查询,词条查询,通配符查询等。2)Solr搜索引擎是以Lucene为内核,优化后的全文搜索引擎。Solr搜索引擎是企业级的,快速的和高度可扩展的。使用Solr构建的应用程序非常复杂,可提供高性能。Solr是一个可扩展的,可部署搜索存储引擎,优化搜索大量以文本为中心的数据。虽然Lucene搜索引擎功能强大,但是接入复杂。3)ES(ElasticSearch)搜索引擎虽然同Solr搜索引擎一样也是基于Lucene的搜索引擎,但是两者相比,ES搜索引擎具有如下优势:Solr建立索引时候,Solr会产生IO阻塞,查询性能较差,搜索效率下降,实时搜索效率不高,ES实时搜索效率高;随着数据量的增加,Solr的搜索效率会变得更低,而ES却没有明显的变化;Solr利用Zookeeper进行分布式管理,而ES自身带有分布式协调管理功能;Solr官方提供的功能更多,而ES本身更注重于核心功能,高级功能多有第三方插件提供;Solr在传统的搜索应用中表现好于ES,但在处理实时搜索应用时效率明显低于ES;Solr是传统搜索应用的有力解决方案,但ES更适用于新兴的实时搜索应用。
[0004]鉴于上述档案室数字化数据检索的问题,本专利技术旨在从ES搜索引擎着手,提供一种新的检索系统以解决上述检索难题。

技术实现思路

[0005]本专利技术的目的在于提供一种基于ElasticSearch中间件的数字档案分词检索系统,以解决档案室数字化数据检索存在的用户搜索体验差、检索效率不高、结果质量差的难题。
[0006]为实现达到上述目的,本专利技术采用如下技术方案:
[0007]本专利技术提供一种数字档案分词检索系统,其特征在于,包括:数据导入单元,利用Logstash工具将MySQL数据库中的标准化数据导入ElasticSearch;数据索引单元,通过ElasticSearch对标准化数据建立索引,并将索引信息存放到索引库;数据检索单元,获取用户发送的检索请求,SpringBoot服务器通过JavaAPI接口调用ElasticSearch实现检索,结果通过VUE框架在用户端进行展示。
[0008]进一步,在本专利技术提供的数字档案分词检索系统中,其特征在于,还包括:数据缓
存单元,用于将用户信息、用户热搜资源、平台热搜资源存放至缓存数据库。
[0009]进一步,在本专利技术提供的数字档案分词检索系统中,还可以具有这样的特征:其中,缓存数据库为Redis数据库。
[0010]进一步,在本专利技术提供的数字档案分词检索系统中,还可以具有这样的特征:其中,MySQL数据库中的标准化数据是数字档案数据依次经过汇聚、清洗、筛选、标准化之后得到的数据。
[0011]进一步,在本专利技术提供的数字档案分词检索系统中,还可以具有这样的特征:其中,数据索引单元按照如下流程运行:步骤A1,从MySQL数据库获取标准化数据;步骤A2,通过分词器将步骤A1获取的数据解析生成若干field对象;步骤A3,将field对象构建为Document对象;步骤A4,利用IndexWrite工具建立索引并将得到索引数据放入索引库。
[0012]进一步,在本专利技术提供的数字档案分词检索系统中,还可以具有这样的特征:其中,分词器包括IK

Analyzer中文分词器,该IK

Analyzer中文分词器通过如下步骤配置到ElasticSearch中:步骤B1,下载IK

Analyzer源码,接着执行命令mvncleanpackage,打包得到jar包文件;步骤B2,将IK

Analyzer依赖包复制到elasticsear

ch/plugin/analysis

ik目录下;步骤B3,在ElasticSearch的config目录下对IK

Analyzer进行配置。
[0013]进一步,在本专利技术提供的数字档案分词检索系统中,还可以具有这样的特征:其中,数据检索单元运行查询关键词流程以及搜索联想流程,
[0014]查询关键词流程具体如下:
[0015]步骤C1,获取用户通过用户端发送的查询关键词请求,通过分词器对关键字进行分词,生成若干个field对象;
[0016]步骤C2,通过MultiFiledQueryParse工具生成Query对象,然后在索引库的不同索引列上进行多个关键词的搜索;
[0017]步骤C3,创建IndexSearcher对象实例,对ElasticSearch的集群各节点进行索引检索,将符合条件的查询结果合并,然后经过相关性排序之后得到结果集,即将结果集返回给用户端;
[0018]搜索联想流程具体如下:
[0019]步骤D1,实时获取用户通过用户端在检索框中输入的内容,利用Ajax请求数据接口异步地向SpringBoot服务器发送搜索联想的请求;
[0020]步骤D2,SpringBoot服务器将请求到的数据在ElasticSearch中进行前缀匹配,利用ElasticSearch搜索对应前缀的索引,然后通过ElasticSearch的bool quer工具将多个前缀查询结果组合起来,最终所有前缀查询结果返回到用户端;
[0021]步骤D3,用户端利用Ajax组件库中的jQuery完成提示词展示。
[0022]本专利技术的作用与效果:
[0023]本专利技术提供的数字档案分词检索系统中,对E1asticSearch进行了大量开发,不仅具有全文搜索功能,还可以对所有字段都进行了编辑,所有字段都可进行搜索,提升了用户数字档案搜索体验,提高了检索质量。
[0024]本专利技术的系统中,在E1asticSearch中配置IK

Analyzer中文分词器,提供实时分析功能,使得资源不但能部署在单台服务器上,还能横向扩展到上千台设备上,处理大数据级别的数据非常快,大大提升了检索效率,非常适合数字档案资源的存储和搜索。
[0025]此外,本专利技术的系统中引入了Redis数据库,把经常被访问的用户信息、用户热搜资源和平台热搜资源数据通过SpringBoot缓存在Redis数据库,从而不用每次都访问MySQL数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数字档案分词检索系统,其特征在于,包括:数据导入单元,利用Logstash工具将MySQL数据库中的标准化数据导入ElasticSearch;数据索引单元,通过ElasticSearch对标准化数据建立索引,并将索引信息存放到索引库;数据检索单元,获取用户发送的检索请求,SpringBoot服务器通过JavaAPI接口调用ElasticSearch实现检索,结果通过VUE框架在用户端进行展示。2.如权利要求1所述的数字档案分词检索系统,其特征在于,还包括:数据缓存单元,用于将用户信息、用户热搜资源、平台热搜资源存放至缓存数据库。3.如权利要求2所述的数字档案分词检索系统,其特征在于:其中,所述缓存数据库为Redis数据库。4.如权利要求1所述的数字档案分词检索系统,其特征在于:其中,所述MySQL数据库中的标准化数据是数字档案数据依次经过汇聚、清洗、筛选、标准化之后得到的数据。5.如权利要求1所述的数字档案分词检索系统,其特征在于:其中,所述数据索引单元按照如下流程运行:步骤A1,从所述MySQL数据库获取所述标准化数据;步骤A2,通过分词器将步骤A1获取的数据解析生成若干field对象;步骤A3,将field对象构建为Document对象;步骤A4,利用IndexWrite工具建立索引并将得到索引数据放入索引库。6.如权利要求5所述的数字档案分词检索系统,其特征在于:其中,所述分词器包括IK

Analyzer中文分词器,该IK

Analyzer中文分词器通过如下步骤配置到ElasticSearch中:步骤B1,下载IK

Analyzer源码,接着...

【专利技术属性】
技术研发人员:黄道友康健方登洲王坤刘锋罗沙吕孝平刘芹朱宁吴小林韩少卫彭涛任寅平夏宗杰苏建民肖向虎刘兴倪超吴征赵尚娜
申请(专利权)人:上海京德电气有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1