本发明专利技术公开了一种发现互联网金融舆情监管目标的方法,涉及互联网金融大数据领域。所述方法包括:实时获取备选互联网金融企业的网站地址,并将所述网站地址存储在网页待解析库中;对网页待解析库中新增的网站地址所对应的网页解析,得到备选互联网金融企业的名称,将验证成功后的名称作为互联网金融企业监测目标,完成发现互联网金融舆情监管目标。本发明专利技术所述方法自动发现互联网金融企业目标,找到其对应的网站地址,通过初期配置后自循环发现,不需要长期人工干预,通过长期运行有效地发现新增互联网金融企业目标。
【技术实现步骤摘要】
一种发现互联网金融舆情监管目标的方法
本专利技术涉及互联网金融大数据领域,尤其涉及一种发现互联网金融舆情监管目标的方法。
技术介绍
近年来随着互联网技术的发展和普及,传统金融机构与互联网企业结合,利用互联网技术提供金融类相关服务,以互联网为平台开展各类金融活动,传统金融机构与互联网企业结合的模式为广大网民带来方便的同时产生诸多弊端。由于信息不透明,行业准入门槛低,相关服务以及资金缺乏监管等原因,造成部分企业资金断裂、无法按约定履行金融合同乃至毁约,给相关参与者造成巨大经济损失,给社会造成巨大不良影响。舆情监测是现有互联网监测中的一种重要解决方案,舆情监测众多方式中,关键词监测是一种行之有效的手段,通过配置关键词能够对目标在互联网的信息进行监测,及时有效进行预警,但互联网金融企业众多,需要一种能够及时发现互联网金融的监管目标并形成监测关键词的方法。
技术实现思路
本专利技术的目的在于提供一种发现互联网金融舆情监管目标的方法,从而解决现有技术中存在的前述问题。为了实现上述目的,本专利技术所述发现互联网金融舆情监管目标的方法,所述方法包括:S1,实时获取备选互联网金融企业的网站地址,并将所述网站地址存储在网页待解析库中;S2,对网页待解析库中新增的网站地址所对应的网页解析,得到备选互联网金融企业的名称,将验证成功后的名称作为互联网金融企业监测目标,完成发现互联网金融舆情监管目标。优选地,S1中,通过搜索和/或门户网站扫描,实时获取备选互联网金融企业的网站地址。更优选地,通过搜索,实时获取备选互联网金融企业的网站地址,具体为:设置互联网金融行业搜索目标关键词集合,通过自动化采集搜索方式在搜索引擎检索,将搜索引擎返回结果中前三页的每个搜索结果对应的网站地址作为备选互联网金融企业的网站地址。更优选地,通过门户网站扫描,实时获取备选互联网金融企业的网站地址,具体为:通过扫描互联网金融企业门户网站的网贷平台推荐、查询功能,获取新出现的互联网金融企业的网站页面所对应的网站地址,并将该网站地址作为备选互联网金融企业的网站地址。优选地,在实时获取备选互联网金融企业的网站地址与将网站地址存储在网页待解析库之间还包括:判断获取的任意一个备选互联网金融企业的网站地址a是否被采集过,如果是,则忽略该网站地址a;如果否,则将该网站地址a存储到网页待解析库中。优选地,S2具体按照下述实现:S21,获取网页待解析库中任意一个新增网站地址b对应的网页,判断所述网页是否为互联网金融企业的网站首页,如果是,则进入S22;如果否,则忽略新增网站地址b,继续判断下一个新增网站地址;S22,从所述互联网金融企业的网站首页上获取页面标题信息;解析页面标题信息,通过页面标题信息中的分隔符将页面标题信息划分为多段,对每一段进行分词,将分词结果作为新产生的关键词存入标题分词结果库;所述分隔符包括下划线、横杠;S23,在预先建立的金融语料库的基础上,通过加权方式计算新产生关键词的出现率,得出现率排序低的词,将排序低的词组合为备选互联网金融企业的名称集合;S24,在ICP备案网站验证得到的备选互联网金融企业的名称集合中的名称是否合法,如果是,则记录备选互联网金融企业的名称及企业信息,并将备选互联网金融企业的名称作为该企业的监测关键词。更优选地,S21中,判断所述网页为互联网金融企业的网站首页的依据:所述网页中存在注册入口标识、ICP备案信息标识和特定的首页栏目标识;所述特定的首页栏目包括联系我们标识、关于团队标识和免责声明标识。更优选地,S23中,通过加权方式计算新产生关键词的出现率,按出现率从低到高排序,将排序靠前的三个词作为出现率排序低的词。更优选地,S22中还包括:从所述互联网金融企业的网站首页上获取锚文本外链;判断锚文本外链对应的网站地址是否被采集过,如果未被采集,则将锚文本外链对应的网站地址作为新增网站地址存储于网页待解析库;如果已经被采集过,忽略该锚文本外链对应的网站地址,判断下一个锚文本外链对应的网站地址。本专利技术的有益效果是:本专利技术所述方法自动发现互联网金融企业目标,找到其对应的网站地址,通过初期配置后自循环发现,不需要长期人工干预,通过长期运行有效地发现新增互联网金融企业目标。本专利技术所述方法发现互联网金融企业的简称,形成互联网金融企业舆情监测的关键词目标列表。附图说明图1是所述发现互联网金融舆情监管目标的方法S1的流程示意图;图2是所述发现互联网金融舆情监管目标的方法S2的流程示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本专利技术,并不用于限定本专利技术。本专利技术所述方法通过对互联网内容进行搜集,结合各类通道的信息,不发现新互联网金融类企业,形成互联网金融企业监测关键词,并将其作为监测目标给其他舆情监测类业务提供支持。实施例参照图1,本实施例所述发现互联网金融舆情监管目标的方法,所述方法包括:S1,实时获取备选互联网金融企业的网站地址,并将网站地址存储在网页待解析库中;S2,对网页待解析库中新增的网站地址所对应的网页解析,得到备选互联网金融企业的名称,将验证成功后的名称作为互联网金融企业监测目标,完成发现互联网金融舆情监管目标,同时不断丰富搜索关键词库和网页待解析库。更详细的说明:(一)S1中,通过搜索和/或门户网站扫描,实时获取备选互联网金融企业的网站地址。1.1通过搜索,实时获取备选互联网金融企业的网站地址,具体为:设置互联网金融行业搜索目标关键词集合,通过自动化采集搜索方式在搜索引擎检索,将搜索引擎返回结果中前三页的每个搜索结果对应的网站地址作为备选互联网金融企业的网站地址。搜索引擎包括但不限于百度商业搜索、搜狗商业搜索。一般来说新的互联网金融企业的网站上线后需要在商业搜索引擎进行推广,其相关检索排名比较靠前,因此本申请只解析搜索引擎返回结果中前三页的网页地址。1.2通过门户网站扫描,实时获取备选互联网金融企业的网站地址,具体为:通过扫描互联网金融企业门户网站的网贷平台推荐、查询功能,获取新出现的互联网金融企业的网站页面所对应的网站地址,并将该网站地址作为备选互联网金融企业的网站地址。(二)在实时获取备选互联网金融企业的网站地址与将网站地址存储在网页待解析库之间还包括:判断获取的任意一个备选互联网金融企业的网站地址a是否被采集过,如果是,则忽略该网站地址a;如果否,则将该网站地址a存储到网页待解析库中。(三)S2具体按照下述实现:S21,获取网页待解析库中任意一个新增网站地址b对应的网页,判断所述网页是否为互联网金融企业的网站首页,如果是,则进入S22;如果否,则忽略新增网站地址b,继续判断下一个新增网站地址;;S22,从所述互联网金融企业的网站首页上获取页面标题信息;解析页面标题信息,通过页面标题信息中的分隔符将页面标题信息划分为多段,对每一段进行分词,将分词结果作为新产生的关键词存入标题分词结果库;所述分隔符包括下划线、横杠;S23,在预先建立的金融语料库的基础上,通过加权方式计算新产生关键词的出现率,得出现率排序低的词,将排序低的词组合成备选互联网金融企业的名称集合;除出现率最低的词外的其余新产生的关键词加入互联网金融行业搜索目标关键本文档来自技高网...

【技术保护点】
一种发现互联网金融舆情监管目标的方法,其特征在于,所述方法包括:S1,实时获取备选互联网金融企业的网站地址,并将所述网站地址存储在网页待解析库中;S2,对网页待解析库中新增的网站地址所对应的网页解析,得到备选互联网金融企业的名称,将验证成功后的名称作为互联网金融企业监测目标,完成发现互联网金融舆情监管目标。
【技术特征摘要】
1.一种发现互联网金融舆情监管目标的方法,其特征在于,所述方法包括:S1,实时获取备选互联网金融企业的网站地址,并将所述网站地址存储在网页待解析库中;S2,对网页待解析库中新增的网站地址所对应的网页解析,得到备选互联网金融企业的名称,将验证成功后的名称作为互联网金融企业监测目标,完成发现互联网金融舆情监管目标。2.根据权利要求1所述发现互联网金融舆情监管目标的方法,其特征在于,S1中,通过搜索和/或门户网站扫描,实时获取备选互联网金融企业的网站地址。3.根据权利要求2所述发现互联网金融舆情监管目标的方法,其特征在于,通过搜索,实时获取备选互联网金融企业的网站地址,具体为:设置互联网金融行业搜索目标关键词集合,通过自动化采集搜索方式在搜索引擎检索,将搜索引擎返回结果中前三页的每个搜索结果对应的网站地址作为备选互联网金融企业的网站地址。4.根据权利要求2所述发现互联网金融舆情监管目标的方法,其特征在于,通过门户网站扫描,实时获取备选互联网金融企业的网站地址,具体为:通过扫描互联网金融企业门户网站的网贷平台推荐、查询功能,获取新出现的互联网金融企业的网站页面所对应的网站地址,并将该网站地址作为备选互联网金融企业的网站地址。5.根据权利要求1所述发现互联网金融舆情监管目标的方法,其特征在于,在实时获取备选互联网金融企业的网站地址与将网站地址存储在网页待解析库之间还包括:判断获取的任意一个备选互联网金融企业的网站地址a是否被采集过,如果是,则忽略该网站地址a;如果否,则将该网站地址a存储到网页待解析库中。6.根据权利要求1所述发现互联网金融舆情监管目标的方法,其特征在于,S2具体按照下述实现:S21,获取网页待解析库中任意一个新增网站地址b对...
【专利技术属性】
技术研发人员:吴震,王秀文,唐兆涵,苏沐冉,冯凯,李秀旺,牛广方,
申请(专利权)人:国家计算机网络与信息安全管理中心,中科天玑数据科技股份有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。