全网搜索系统技术方案

技术编号:13835169 阅读:73 留言:0更新日期:2016-10-15 15:04
本发明专利技术公开了一种全网搜索系统,其包括数据索引模块、爬虫框架模块、Elasticsearch集群模块、检索服务模块,数据索引模块、爬虫框架模块、Elasticsearch集群模块两两连接,检索服务模块与数据索引模块连接。本发明专利技术能够更好的控制坏账基数,给公司的发展带来一个巨大的飞跃,作为可靠的服务从互联网上不断去抓取用户数据,一方面可以帮助公司识别一些网络骗子,一方面也可以获取更多的坏账用户的资料,加大催收力度。

【技术实现步骤摘要】

本专利技术涉及一种搜索系统,特别是涉及一种全网搜索系统
技术介绍
随着公司业务的发展,知名度越来越高,常常会有一些惯例的网络骗子来公司撸钱,也有一些用户逾期很久后没有还款意愿,使用我们系统中录入的该用户的数据去催收,效果不是太大。同时随着公司的发展,业务量成倍的增长,虽然坏账的比率在不断减小,但是坏账的基数再慢慢变大,如果有办法更好的控制这个基数,将会给公司的发展带来一个巨大的飞跃,所以迫切的需要一个可靠的服务从互联网上不断去抓取用户数据,解决两大问题:一、公司对一些网络骗子的识别问题,二、缺乏坏账用户的资料,催收力度较低。
技术实现思路
本专利技术所要解决的技术问题是提供一种全网搜索系统,其能够更好的控制坏账基数,给公司的发展带来一个巨大的飞跃,作为可靠的服务从互联网上不断去抓取用户数据,一方面可以帮助公司识别一些网络骗子,一方面也可以获取更多的坏账用户的资料,加大催收力度。本专利技术是通过下述技术方案来解决上述技术问题的:一种全网搜索系统,其包括数据索引模块、爬虫框架模块、Elasticsearch集群模块、检索服务模块,数据索引模块、爬虫框架模块、Elasticsearch集群模块两两连接,检索服务模块与数据索引模块连接。优选地,所述数据索引模块中每台机器上都有一个线程在提供存储数据的服务,多线程在不断的抓取数据后,会打包给数据存储服务;数据存储服务拿到数据后,缓存下来,达到一定的数量后,批量的将这些数据来源的url去elasticsearch中查重,对于没有重复的数据,在批量的索引到elasticsearch中,同时更新这个小任务片的执行状态,以便断点恢复。优选地,所述爬虫框架模块禁掉了httpclient的cookie自动维护功能,实现了一套更符合我们业务逻辑的维护cookie的服务;框架内部会帮我们统计本次的成功失败率,反馈给我们,以用来优化程序;如果请求失败,状态码异常,框架内部帮我们做重试操作;支持随机模拟任意浏览器去请求;支持代理的切换功能。优选地,所述Elasticsearch集群模块中的ElasticSearch是一个基于Lucene的搜索服务器,它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口,Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎,设计用于云计算中,达到实时搜索,稳定,可靠,快速,安装使用方便。优选地,所述检索服务模块维护自己的敏感词库,例如骗子、欠钱等敏感词汇;线上环境有人提交申请后,实时来我们的大数据集中搜索该用户的数据,检查是否有敏感词汇,如果命中,将其打入人工审核;审核人员具体看下命中的场景是什么,进行人工核实判断该用户是否有信用问题,避免网络诈骗行为。本专利技术的积极进步效果在于:本专利技术能够:一、利用现有的硬件资源,不断的在互联网上抓取用户的一些网络痕迹,不断丰富用户的数据,以供系统和业务部门使用;二、利用空闲的硬件资源,无目的的全网抓取网络用户的数据,以供以后检索使用;三、精确快速的全网寻找某些用户网络痕迹,快速抓取到,提供给分控系统、审核人员、催收人员使用;四、创建自动化任务,在一段时间内,有目的的去全网搜寻一些既定用户的网络痕迹以寻求更多获取更多的用户数据,通过用户的这些数据,了解用户;五、不断更新既有数据,定期自动去抓取网络上最新的数据,更新和丰富我们的大数据系统;六、快速检索,一般三秒内必须返回结果;七、分布式存储,数据量会越来越大;八、分布式提供服务,高可用;九、尽可能自动化,在现有资源基础上,抓取速度做到最快。附图说明图1为本专利技术的模块图。具体实施方式下面结合具体实施例对本专利技术进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本专利技术,但不以任何形式限制本专利技术。应当指出的是,对本领域的普通技术人员来说,在不脱离本专利技术构思的前提下,还可以做出若干变形和改进。这些都属于本专利技术的保护范围。如图1所示,本专利技术全网搜索系统包括数据索引模块1、爬虫框架模块2、Elasticsearch(ElasticSearch是一个基于Lucene的搜索服务器)集群模块3、检索服务模块4,数据索引模块1、爬虫框架模块2、Elasticsearch集群模块3两两连接,检索服务模块4与数据索引模块1连接。数据索引模块1中每台机器上都有一个线程在提供存储数据的服务,多线程在不断的抓取数据后,会打包给数据存储服务;数据存储服务拿到数据后,会缓存下来,达到一定的数量后,会批量的将这些数据来源的url去elasticsearch中查重,对于没有重复的数据,在批量的索引到elasticsearch中,同时更新这个小任务片的执行状态,以便断点恢复。爬虫框架模块2禁掉了httpclient的cookie自动维护功能,实现了一套更符合我们业务逻辑的维护cookie的服务;框架内部会帮我们统计本次的成功失败率,反馈给我们,以用来优化程序;如果请求失败,状态码异常,框架内部会帮我们做重试操作;支持随机模拟任意浏览器去请求;支持代理的切换功能。Elasticsearch集群模块3中的ElasticSearch是一个基于Lucene的搜索服务器,它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口,Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎,设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。检索服务模块4维护自己的敏感词库,例如骗子、欠钱等敏感词汇;线上环境有人提交申请后,实时来我们的大数据集中搜索该用户的数据,检查是否有敏感词汇,如果命中,将其打入人工审核;审核人员具体看下命中的场景是什么,进行人工核实判断该用户是否有信用问题,避免网络诈骗行为。全网搜索这个项目是多台机器组成一个集群来提供一个完整的服务,需要合理的总体架构去协调整个系统的交互,主要是下面几点:一、某台机器宕机,自动下线其服务,不影响整个集群的服务;二、创建的自动化任务,需要主节点去分配给从属节点做,分布式工作,加快速度;三、任务调度的优先级策略,对于一些线上实时的任务,系统应该调度所有可用的机器优先去完成这些要求实时的任务。业务场景:如要快速的全网抓取某一个论坛的所有数据,如何多机器多线程的方式无冗余的在最短时间内完成任务。要满足上述业务的场景需要几个任务调度策略,如下:抢占式的,能者多劳;不能有重复劳动;CPU和带宽要充分利用。那么如何做到这几点,分布式和多线程是必须的,所以需要两个调度者的角色,一种用来决策分布式调度,一种用来决策多线程调度,这样才可以合理分配,避免重复工作,同时每台机器的消费能力是不一样,如何同时能做到能者多劳,我们通过如下解决方案,优化其整体速度:分布式节点中,有一个别选为master节点,负责任务的分配调度;一个任务的到来,主节点需要合理的将其分片,无状态的拆分成多个小任务片,以便给分布式集群共同处理;每台机器都去分布式调度者那里注册自己的身份,并获得一个小分片的任务,master节点将该分片用这台机器的ip锁住,标识已分配;某台机器做完了当前的小分片中的任务,继续去master节点中请求自本文档来自技高网...

【技术保护点】
一种全网搜索系统,其特征在于,其包括数据索引模块、爬虫框架模块、Elasticsearch集群模块、检索服务模块,数据索引模块、爬虫框架模块、Elasticsearch集群模块两两连接,检索服务模块与数据索引模块连接。

【技术特征摘要】
1.一种全网搜索系统,其特征在于,其包括数据索引模块、爬虫框架模块、Elasticsearch集群模块、检索服务模块,数据索引模块、爬虫框架模块、Elasticsearch集群模块两两连接,检索服务模块与数据索引模块连接。2.如权利要求1所述的全网搜索系统,其特征在于,所述数据索引模块中每台机器上都有一个线程在提供存储数据的服务,多线程在不断的抓取数据后,会打包给数据存储服务;数据存储服务拿到数据后,缓存下来,达到一定的数量后,批量的将这些数据来源的url去elasticsearch中查重,对于没有重复的数据,在批量的索引到elasticsearch中,同时更新这个小任务片的执行状态,以便断点恢复。3.如权利要求1所述的全网搜索系统,其特征在于,所述爬虫框架模块禁掉了httpclient的cookie自动维护功能,实现了一套更符合我们业务逻辑的维护cookie的服务;框架内部会帮我们统计本次的成功失败率,反馈给我们,以用来...

【专利技术属性】
技术研发人员:郭田森唐阳
申请(专利权)人:微额速达上海金融信息服务有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1