本发明专利技术属于资料管理软件技术领域,具体的说是一种基于大数据的资料搜索管理软件管理系统,包括SSO模块、多用户终端模块、商城模块、用户行为处理模块、前端模块、搜索模块、负载均衡模块、缓存模块、数据获取模块、数据处理模块和大数据分析模块;所述SSO模块与多用户终端模块通过信号连接;其中多用户终端模块可采用小程序、PC端、APP端,同时根据需求可接入其他平台以使用软件发展;所述多用户终端模块与前端模块通过信号连接;本发明专利技术充分利用了大数据智能分析,对搜索过程层层优化,提高搜索速度,对商城产品结构调整优化,大大提高用户体验。大大提高用户体验。大大提高用户体验。
【技术实现步骤摘要】
一种基于大数据的资料搜索管理软件管理系统
[0001]本专利技术属于资料管理软件
,具体的说是一种基于大数据的资料搜索管理软件管理系统。
技术介绍
[0002]基于大数据的资料搜索管理软件管理系统是可根据用户的需求、基本信息和使用习惯,来对应搜索需要的文件,实现用户的快速资料检索和便利。
[0003]现有的用户在搜索文件时,是将所需的文件和需求输入到系统内,然后系统通过全文检索将对应的和相近的文件依次展示,用户得到所需的文件和产品速度较慢。
[0004]为此,本专利技术提供一种基于大数据的资料搜索管理软件管理系统。
技术实现思路
[0005]为了弥补现有技术的不足,解决
技术介绍
中所提出的至少一个技术问题。
[0006]本专利技术解决其技术问题所采用的技术方案是:本专利技术所述的一种基于大数据的资料搜索管理软件管理系统,包括SSO模块、多用户终端模块、商城模块、用户行为处理模块、前端模块、搜索模块、负载均衡模块、缓存模块、数据获取模块、数据处理模块和大数据分析模块;所述SSO模块与多用户终端模块通过信号连接;其中多用户终端模块可采用小程序、PC端、APP端,同时根据需求可接入其他平台以使用软件发展;所述多用户终端模块与前端模块通过信号连接;
[0007]所述前端模块与搜索模块通过信号连接;其中搜索模块负责把用户输入内容进行过滤,分词,加密后发送到服务器进行处理;所述搜索模块与负载均衡模块通过信号连接;所述搜索模块通过信号连接有业务处理模块;所述业务处理模块与用户行为处理模块通过信号连接;所述用户处理模块与大数据分析模块通过信号连接;
[0008]所述负载均衡模块与缓存模块通过信号连接;所述缓存模块与业务处理模块通过信号连接;所述大数据分析模块与业务处理模块通过信号连接;所述数据获取模块与数据处理模块通过信号连接;所述数据处理模块与大数据分析模块通过信号连接。
[0009]所述用户注册登录后有专门的SSO服务器维护登录状态,用户只需登录一端即可通过扫码或者短信的方式,通过SSO服务器发送令牌到其他端,快捷登录;用户在使用时,直接将用户名或是专用代号输入到登录框内,然后电机获取验证码来实现对应的短信发送,当短信发送到位后,将对应的验证码输入至登录框内,即可实现用户的正常登录;为用户一致性系统体验提供便利。
[0010]所述负载均衡模块通过Nginx实现负载均衡,在高并发的情况下将请求平均分发到各个服务器,实现数据分流处理;通过使用Nginx实现均衡负载,将数据平均发送到各个服务器内,可减少单台服务器压力,提高运行效率;通过降低单台服务器的压力,来实现服务器的运行稳定。
[0011]所述缓存模块通过Redis集群搭建分布式缓存,redis集群是一个由多个主从节点
群组成的分布式服务器群,即多master多slave模式,它具有复制、高可用和分片特性,由于没有中心节点,可以水平扩展,满足存储海量缓存数据的需求。通过大数据分析模块得到热门的数据,通过序列化后上载至缓存模块,redis集群通过tcp连接实现缓存实时同步。缓存命中则当即返回数据,达到毫秒级别的检索体验。当缓存没有命中时候继续请求数据库返回,通过后续的大数据分析可以增减高热度数据,提高命中率;该设置可将用户所需的数据快速显示出来,减少用户的观察时间,提升用户体验。
[0012]所述数据获取模块通过第三方接口定时增量获取专利数据。通过爬虫技术收集站内专利数据,整合发送到数据处理模块。第三方网站可从专利局网站和个体的专利检索网站上进行检索,通过从多个专利网对所需信息进行检索,可提升检索稳定性,在单个网站宕机时,其他的网站信息也可提供相应的检索要求。
[0013]所述数据处理模块将获取到的数据进行校验,智能筛选、去重,按既定规则分词重组,重新组合后通过内部接口发送到大数据分析模块,进入数据接收队列后等待下一步的处理;将重复的文件筛选、去重,可减少用户的重复信息获取量,提升用户体验的同时,可在同一界面显示更多的信息,提升信息检索效率。
[0014]所述大数据分析模块按功能划分为6个子模块;包括日志分析模块、评价与留言分析模块、热度分析模块、用户行为分析模块、索引调优模块和冗余清理模块。
[0015]其中日志分析模块通过Logstash收集运营时候产出的日志,结构化数据后,push到Elasticsearch中,通过Kibana方便的查询和监控分析日志数据。通过本模块可以可视化日志数据,方便查找问题,优化服务。
[0016]其中评价与留言分析模块:用户使用搜索服务或者在商城购买服务后可以对服务进行评价,也可以在用户端提交留言,这些数据汇总到本模块后,通过HanLP工具包分词去噪,通过分类算法对各个服务进行数字化的打分,通过评分来判定各个服务的用户满意度情况,方便可持续的优化服务。
[0017]其中热度分析模块:显示搜索内容的实时热度情况。
[0018]基本算法:热度=初始热度+检索热度
–
随时间衰减热度;
[0019]由于热度衰减是非线性的,经过大数据分析计算得到;
[0020]随时间热度衰减公式:P(T)=e(k(T1
–
T0))。
[0021]T0是上次被检索到的时间,T1是当前时间,k为推导出的常量。
[0022]初试热度为后台设置,也可通过入库时候通过分析分类热门度设置。
[0023]检索热度为单位时间内该数据被查询次数,公式为:(总点击数*0.7+总评论数*0.3)*1000/(上载时间距离当前时间的小时差+2)^1.2。
[0024]通过大数据和热度算法,不断优化和调整权重,以达到最真实热度的体现。
[0025]每过一段时间将热度高的数据序列化后存入redis缓存中,大大提升了搜索速度。通过热度算法对搜索结果排序,可以罗列出更加符合条件的结果项。
[0026]其中用户行为分析模块:分类整理记录用户的行为记录。
[0027]包括每日获客分析,各时段行为分析,商品页面停留时长,引导页面使用情况,时间段访问量,通过大数据漏斗分析(转化率计算),通过点击率和时间轴建立用户行为时间模型,留存率模型。通过消费行为分析,各周期内消费次数统计,建立各行为转化模型,统计复购率,建立用户价值分析,为优化产品结构提供理论依据。
[0028]计算用户价值模型算法:
[0029][0030]V表示用户的价值,n表示计算周期,t表示活跃达标次数,t的值由当月平均活跃度和用户活跃度共同决定,k表示价值加权率,k随着时间推移逐渐变小,比如n为12个月,则最近的一个月k值最大的,开始的第一个月k值最小,k的值通过优化动态调整,算法可以反映出随着时间推移用户的价值波动。
[0031]留存率模型公式:
[0032]p(t)=N
t
+N
t
‑1*R1+N
t
‑2*R2+N
t
‑3*R3…
本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于大数据的资料搜索管理软件管理系统,其特征在于:包括SSO模块、多用户终端模块、商城模块、用户行为处理模块、前端模块、搜索模块、负载均衡模块、缓存模块、数据获取模块、数据处理模块和大数据分析模块;所述SSO模块与多用户终端模块通过信号连接;其中多用户终端模块可采用小程序、PC端、APP端,同时根据需求可接入其他平台以使用软件发展;其中所述多用户终端模块与前端模块通过信号连接;所述前端模块与搜索模块通过信号连接;其中搜索模块负责把用户输入内容进行过滤,分词,加密后发送到服务器进行处理;所述搜索模块与负载均衡模块通过信号连接;所述搜索模块通过信号连接有业务处理模块;所述业务处理模块与用户行为处理模块通过信号连接;所述用户处理模块与大数据分析模块通过信号连接;所述负载均衡模块与缓存模块通过信号连接;所述缓存模块与业务处理模块通过信号连接;所述大数据分析模块与业务处理模块通过信号连接;所述数据获取模块与数据处理模块通过信号连接;所述数据处理模块与大数据分析模块通过信号连接。2.根据权利要求1所述的一种基于大数据的资料搜索管理软件管理系统,其特征在于:所述用户注册登录后有专门的SSO服务器维护登录状态,用户只需登录一端即可通过扫码或者短信的方式,通过SSO服务器发送令牌到其他端,快捷登录。3.根据权利要求1所述的一种基于大数据的资料搜索管理软件管理系统,其特征在于:所述负载均衡模块通过Nginx实现负载均衡,在高并发的情况下将请求平均分发到各个服务器,实现数据分流处理。4.根据权利要求1所述的一种基于大数据的资料搜索管理软件管理系统,其特征在于:所述缓存模块通过Redis集群搭建分布式缓存,redis集群是一个由多个主从节点群组成的分布式服务器群,即多master多sl...
【专利技术属性】
技术研发人员:袁小琼,
申请(专利权)人:江苏才标信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。