数字档案分词检索系统技术方案

技术编号：35151224 阅读：13 留言：0更新日期：2022-10-05 10:29

本发明专利技术提供一种数字档案分词检索系统，其特征在于，包括：数据导入单元：利用Logstash工具将MySQL数据库中的标准化数据导入ElasticSearch；数据索引单元：通过ElasticSearch对标准化数据建立索引，并将索引信息存放到索引库；数据检索单元：获取用户发送的检索请求，SpringBoot服务器通过JavaAPI接口调用ElasticSearch实现检索，结果通过VUE框架在用户端进行展示。本发明专利技术检索系统的实现了分词查询、档案数据毫秒级查询，能较好地满足不断增长的数字档案分词检索的需求，提高检索效率和检索质量。提高检索效率和检索质量。提高检索效率和检索质量。

全部详细技术资料下载

【技术实现步骤摘要】
数字档案分词检索系统

[0001]本专利技术涉及数字档案
，特别涉及一种基于ElasticSearch中间件的数字档案分词检索系统。

技术介绍

[0002]电子档案管理系统通常存储有庞大数量级的数字化信息数据，然而，目前大部分电子档案管理系统对数据的检索存在用户搜索体验差、检索效率不高、结果质量差的问题。
[0003]目前常用的搜索引擎的主要有Lucene、Solr、ES等。1)Lucene搜索引擎是由Apache软件提供，一套用于全文检索和搜寻的开源程序库，可以实现站内搜索。其需要大量的开发工作。索引库的维护及查询的优化等问题都需要用户自己来解决。一般通过API来对抽取的索引进行增、删、改、搜等各类操作。包含一般查询，词条查询，通配符查询等。2)Solr搜索引擎是以Lucene为内核，优化后的全文搜索引擎。Solr搜索引擎是企业级的，快速的和高度可扩展的。使用Solr构建的应用程序非常复杂，可提供高性能。Solr是一个可扩展的，可部署搜索存储引擎，优化搜索大量以文本为中心的数据。虽然Lucene搜索引擎功能强大，但是接入复杂。3)ES(ElasticSearch)搜索引擎虽然同Solr搜索引擎一样也是基于Lucene的搜索引擎，但是两者相比，ES搜索引擎具有如下优势：Solr建立索引时候，Solr会产生IO阻塞，查询性能较差,搜索效率下降，实时搜索效率不高，ES实时搜索效率高；随着数据量的增加，Solr的搜索效率会变得更低，而ES却没有明显的变化；Solr利用Zookeeper进行分布式管理，而ES自...

【技术保护点】

【技术特征摘要】
1.一种数字档案分词检索系统，其特征在于，包括：数据导入单元，利用Logstash工具将MySQL数据库中的标准化数据导入ElasticSearch；数据索引单元，通过ElasticSearch对标准化数据建立索引，并将索引信息存放到索引库；数据检索单元，获取用户发送的检索请求，SpringBoot服务器通过JavaAPI接口调用ElasticSearch实现检索，结果通过VUE框架在用户端进行展示。2.如权利要求1所述的数字档案分词检索系统，其特征在于，还包括：数据缓存单元，用于将用户信息、用户热搜资源、平台热搜资源存放至缓存数据库。3.如权利要求2所述的数字档案分词检索系统，其特征在于：其中，所述缓存数据库为Redis数据库。4.如权利要求1所述的数字档案分词检索系统，其特征在于：其中，所述MySQL数据库中的标准化数据是数字档案数据依次经过汇聚、清洗、筛选、标准化之后得到的数据。5.如权利要求1所述的数字档案分词检索系统，其特征在于：其中，所述数据索引单元按照如下流程运行：步骤A1，从所述MySQL数据库获取所述标准化数据；步骤A2，通过分词器将步骤A1获取的数据解析生成若干field对象；步骤A3，将field对象构建为Document对象；步骤A4，利用IndexWrite工具建立索引并将得到索引数据放入索引库。6.如权利要求5所述的数字档案分词检索系统，其特征在于：其中，所述分词器包括IK
‑
Analyzer中文分词器，该IK
‑
Analyzer中文分词器通过如下步骤配置到ElasticSearch中：步骤B1，下载IK
‑
Analyzer源码，接着...

【专利技术属性】
技术研发人员：黄道友，康健，方登洲，王坤，刘锋，罗沙，吕孝平，刘芹，朱宁，吴小林，韩少卫，彭涛，任寅平，夏宗杰，苏建民，肖向虎，刘兴，倪超，吴征，赵尚娜，
申请(专利权)人：上海京德电气有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人