互联网金融产品宣传收益率和承诺提取方法及系统技术方案

技术编号:25397000 阅读:17 留言:0更新日期:2020-08-25 23:02
本发明专利技术公开了一种互联网金融产品宣传收益率和承诺提取方法,其包括:从公开互联网中获取金融类文本数据;基于所述收益率表述的规则库,通过文本匹配算法从所述金融类文本数据中提取得到收益率表述文本数据;基于预设的承诺关键词组,通过文本匹配算法从所述金融类文本数据中提取得到各类承诺表述文本数据;基于预设的收益率映射关系规则表,将所述收益率表述文本数据转换成可识别的收益率数值。本发明专利技术在提取和折算收益率的基础上进一步识别互联网金融平台的高利贷和非法集资行为,可以对其进行更好的监管。

【技术实现步骤摘要】
互联网金融产品宣传收益率和承诺提取方法及系统
本专利技术涉及商务智能领域。更具体地说,本专利技术涉及一种互联网金融产品宣传收益率和承诺提取方法及系统。
技术介绍
近年来,随着资本市场数据量的增加,金融监管面临着越来越大的难题。而当前互联网金融平台的P2P存在较大的问题,因此要对互联网金融平台进行严格的监管,此时就需要有效指标辅助监管,比如收益率。但互联网金融平台对收益率的表述隐晦,公众不能从非结构化文本中提取收益率,难以获得准确的收益率数据。此外,由于互联网金融平台受到严格的监管,因此平台发布的广告也会被监管。当前,金融类广告的重要投放渠道为开放的互联网平台,部分广告打着“低风险,高收益,承诺担保”的旗号进行夸大、虚假宣传,欺骗和误导消费者。并且央行下发了《中国人民银行办公厅关于开展金融广告治理工作的通知》,有效治理金融产品违法违规广告行为,坚决整治严重干扰金融市场秩序的广告行为,并将互联网金融广告监测作为首要的工作试点。由于互联网金融平台广告中的承诺是违规的,但平台并不会上报这些信息,所以无法得知广告中承诺的具体情况,监管面临挑战。
技术实现思路
本专利技术的一个目的是解决至少上述问题,并提供至少后面将说明的优点。本专利技术还有一个目的是提供一种互联网金融产品宣传收益率和承诺提取方法及系统,其可从互联网金融平台上的非结构化文本数据中提取收益率、承诺表述的相关文本数据,进而可准确获取金融产品的收益率数据和广告中承诺的具体情况。为了实现根据本专利技术的这些目的和其它优点,提供了一种互联网金融产品宣传收益率和承诺提取方法,其包括:从公开互联网中获取金融类文本数据;基于所述金融类文本数据中挖掘收益率表述的基础规则,对所述收益率表述的基础规则进行泛化,得到收益率表述的规则库;基于所述收益率表述的规则库,通过文本匹配算法从所述金融类文本数据中提取得到收益率表述文本数据;基于预设的承诺关键词组,通过文本匹配算法从所述金融类文本数据中提取得到各类承诺表述文本数据;基于预设的收益率映射关系规则表,将所述收益率表述文本数据转换成可识别的收益率数值。优选的是,所述的互联网金融产品宣传收益率和承诺提取方法,所述从公开互联网中获取金融类文本数据具体为:从公开的互联网中利用爬虫技术爬取产品宣传的文本数据,记为原始文本数据;对原始文本数据经过三次垃圾过滤处理,分别去除原始文本数据中的无意义信息、非金融类的文本数据和非相关互联网金融平台的文本数据,最终获得金融类文本数据。优选的是,所述的互联网金融产品宣传收益率和承诺提取方法,所述预设的收益率映射关系规则表中,每条收益率映射关系规则对应一种收益率转换方式;所述收益率表述文本数据转换成可识别的收益率数值后,剔除收益率小于0或大于1的收益率数值。优选的是,所述的互联网金融产品宣传收益率和承诺提取方法,所述承诺关键词组包括多个人为定义的承诺关键词,且每个关键词对应一种承诺类型,承诺类型包括保本承诺、收益承诺和担保承诺。优选的是,所述的互联网金融产品宣传收益率和承诺提取方法,原始文本数据的第一次垃圾过滤具体为:通过文本匹配方法去除原始文本数据中的特殊标点符号;通过正则表达式方法去除原始文本数据中的以“http://”开头的url网址信息;通过正则表达式方法去除原始文本数据中标志信息,其中标志信息包括提醒好友标志、转发标志信息;通过文本匹配和正则表达式方法去除原始文本数据中的表情符和特殊字符信息,得到去除无意义信息的一次过滤的文本数据。优选的是,所述的互联网金融产品宣传收益率和承诺提取方法,原始文本数据的第二次垃圾过滤具体为:在一次过滤的文本数据中随机抽取样本数据,并对样本数据进行标注,并利用分词结果训练线性支持向量机分类模型,将一次过滤的文本数据作为输入值,金融类文本数据作为输出值,得到去除非金融类文本数据的二次过滤后的文本数据;其中,原始文本数据在进行第二次垃圾过滤之前,还包括利用中文分词工具对一次过滤后的文本数据进行分词,然后基于自定义的用户词典,对一次过滤后的文本数据进行词频删选,删除一次过滤后的文本数据中的低频词和高频词。优选的是,所述的互联网金融产品宣传收益率和承诺提取方法,原始文本数据的第三次垃圾过滤具体为:预设互联网金融平台名称组,基于预设的互联网金融平台名称组在二次过滤后的文本数据中匹配获取去除非相关互联网金融平台的文本数据的金融类文本数据。本专利技术还提供一种互联网金融产品宣传收益率和承诺提取系统,其包括:获取模块,从公开的互联网中利用爬虫技术爬取产品宣传的文本数据,记为原始文本数据;过滤处理模块,对原始文本数据经过三次垃圾过滤处理,分别去除原始文本数据中的无意义信息、非金融类的文本数据和非相关互联网金融平台的文本数据,最终获得金融类文本数据;收益率表述文本数据提取模块,基于所述金融类文本数据中挖掘收益率表述的基础规则,对所述收益率表述的基础规则进行泛化,得到收益率表述的规则库;基于所述收益率表述的规则库,通过文本匹配算法从所述金融类文本数据中提取得到收益率表述文本数据;承诺表述文本数据提取模块,基于预设的承诺关键词组,通过文本匹配算法从所述金融类文本数据中提取得到各类承诺表述文本数据;收益率映射转换模块,基于预设的收益率映射关系规则表,将所述收益率表述文本数据转换成可识别的收益率数值。本专利技术还提供一种电子设备,包括:至少一个处理器;与所述至少一个处理器通信连接的存储器,其存储有指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行上述方法。本专利技术还提供一种存储介质,其上存储有计算机程序,该程序被处理器执行时,实现上述方法。本专利技术至少包括以下有益效果:本专利技术可扩展为适用于各种行业背景下的互联网平台收益率提取、折算和承诺提取方法,对传统的收益率和承诺提取方法做出补充;本专利技术在提取和折算收益率的基础上进一步识别互联网金融平台的高利贷和非法集资行为,可以对其进行更好的监管。本专利技术的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本专利技术的研究和实践而为本领域的技术人员所理解。附图说明图1为本专利技术所述的互联网金融产品宣传收益率和承诺提取方法的流程示意图。具体实施方式下面结合附图及实施例对本专利技术做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。应当理解,本文所使用的诸如“具有”、“包含”以及“包括”术语并不排除一个或多个其它元件或其组合的存在或添加。需要说明的是,下述实施方案中所述实验方法,如无特殊说明,均为常规方法,所述试剂和材料,如无特殊说明,均可从商业途径获得。如图1所示,本专利技术提供一种互联网金融产品宣传收益率和承诺提取方法,其包括以下步骤:步骤100、获取原始文本数据:从公开的互联网中利用爬虫技术爬取产品宣传相关的公开文本数据本文档来自技高网...

【技术保护点】
1.互联网金融产品宣传收益率和承诺提取方法,其特征在于,其包括:/n从公开互联网中获取金融类文本数据;/n基于所述金融类文本数据中挖掘收益率表述的基础规则,对所述收益率表述的基础规则进行泛化,得到收益率表述的规则库;基于所述收益率表述的规则库,通过文本匹配算法从所述金融类文本数据中提取得到收益率表述文本数据;/n基于预设的承诺关键词组,通过文本匹配算法从所述金融类文本数据中提取得到各类承诺表述文本数据;/n基于预设的收益率映射关系规则表,将所述收益率表述文本数据转换成可识别的收益率数值。/n

【技术特征摘要】
1.互联网金融产品宣传收益率和承诺提取方法,其特征在于,其包括:
从公开互联网中获取金融类文本数据;
基于所述金融类文本数据中挖掘收益率表述的基础规则,对所述收益率表述的基础规则进行泛化,得到收益率表述的规则库;基于所述收益率表述的规则库,通过文本匹配算法从所述金融类文本数据中提取得到收益率表述文本数据;
基于预设的承诺关键词组,通过文本匹配算法从所述金融类文本数据中提取得到各类承诺表述文本数据;
基于预设的收益率映射关系规则表,将所述收益率表述文本数据转换成可识别的收益率数值。


2.如权利要求1所述的互联网金融产品宣传收益率和承诺提取方法,其特征在于,所述从公开互联网中获取金融类文本数据具体为:
从公开的互联网中利用爬虫技术爬取产品宣传的文本数据,记为原始文本数据;
对原始文本数据经过三次垃圾过滤处理,分别去除原始文本数据中的无意义信息、非金融类的文本数据和非相关互联网金融平台的文本数据,最终获得金融类文本数据。


3.如权利要求1所述的互联网金融产品宣传收益率和承诺提取方法,其特征在于,所述预设的收益率映射关系规则表中,每条收益率映射关系规则对应一种收益率转换方式;
所述收益率表述文本数据转换成可识别的收益率数值后,剔除收益率小于0或大于1的收益率数值。


4.如权利要求1所述的互联网金融产品宣传收益率和承诺提取方法,其特征在于,所述承诺关键词组包括多个人为定义的承诺关键词,且每个关键词对应一种承诺类型,承诺类型包括保本承诺、收益承诺和担保承诺。


5.如权利要求1所述的互联网金融产品宣传收益率和承诺提取方法,其特征在于,原始文本数据的第一次垃圾过滤具体为:
通过文本匹配方法去除原始文本数据中的特殊标点符号;
通过正则表达式方法去除原始文本数据中的以“http://”开头的url网址信息;
通过正则表达式方法去除原始文本数据中标志信息,其中标志信息包括提醒好友标志、转发标志信息;
通过文本匹配和正则表达式方法去除原始文本数据中的表情符和特殊字符信息,得到去除无意义信息的一次过滤的文本数据。


6.如权利要求5所述的互联网金融产品宣传收益率和承诺提取方...

【专利技术属性】
技术研发人员:部慧吴俊杰李晔林张珏陈禹舟张俊杰
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1