【技术实现步骤摘要】
互联网金融产品宣传收益率和承诺提取方法及系统
本专利技术涉及商务智能领域。更具体地说,本专利技术涉及一种互联网金融产品宣传收益率和承诺提取方法及系统。
技术介绍
近年来,随着资本市场数据量的增加,金融监管面临着越来越大的难题。而当前互联网金融平台的P2P存在较大的问题,因此要对互联网金融平台进行严格的监管,此时就需要有效指标辅助监管,比如收益率。但互联网金融平台对收益率的表述隐晦,公众不能从非结构化文本中提取收益率,难以获得准确的收益率数据。此外,由于互联网金融平台受到严格的监管,因此平台发布的广告也会被监管。当前,金融类广告的重要投放渠道为开放的互联网平台,部分广告打着“低风险,高收益,承诺担保”的旗号进行夸大、虚假宣传,欺骗和误导消费者。并且央行下发了《中国人民银行办公厅关于开展金融广告治理工作的通知》,有效治理金融产品违法违规广告行为,坚决整治严重干扰金融市场秩序的广告行为,并将互联网金融广告监测作为首要的工作试点。由于互联网金融平台广告中的承诺是违规的,但平台并不会上报这些信息,所以无法得知广告中承诺的具体情况,监管面临挑战。
技术实现思路
本专利技术的一个目的是解决至少上述问题,并提供至少后面将说明的优点。本专利技术还有一个目的是提供一种互联网金融产品宣传收益率和承诺提取方法及系统,其可从互联网金融平台上的非结构化文本数据中提取收益率、承诺表述的相关文本数据,进而可准确获取金融产品的收益率数据和广告中承诺的具体情况。为了实现根据本专利技术的这些目的和其它优点,提供 ...
【技术保护点】
1.互联网金融产品宣传收益率和承诺提取方法,其特征在于,其包括:/n从公开互联网中获取金融类文本数据;/n基于所述金融类文本数据中挖掘收益率表述的基础规则,对所述收益率表述的基础规则进行泛化,得到收益率表述的规则库;基于所述收益率表述的规则库,通过文本匹配算法从所述金融类文本数据中提取得到收益率表述文本数据;/n基于预设的承诺关键词组,通过文本匹配算法从所述金融类文本数据中提取得到各类承诺表述文本数据;/n基于预设的收益率映射关系规则表,将所述收益率表述文本数据转换成可识别的收益率数值。/n
【技术特征摘要】
1.互联网金融产品宣传收益率和承诺提取方法,其特征在于,其包括:
从公开互联网中获取金融类文本数据;
基于所述金融类文本数据中挖掘收益率表述的基础规则,对所述收益率表述的基础规则进行泛化,得到收益率表述的规则库;基于所述收益率表述的规则库,通过文本匹配算法从所述金融类文本数据中提取得到收益率表述文本数据;
基于预设的承诺关键词组,通过文本匹配算法从所述金融类文本数据中提取得到各类承诺表述文本数据;
基于预设的收益率映射关系规则表,将所述收益率表述文本数据转换成可识别的收益率数值。
2.如权利要求1所述的互联网金融产品宣传收益率和承诺提取方法,其特征在于,所述从公开互联网中获取金融类文本数据具体为:
从公开的互联网中利用爬虫技术爬取产品宣传的文本数据,记为原始文本数据;
对原始文本数据经过三次垃圾过滤处理,分别去除原始文本数据中的无意义信息、非金融类的文本数据和非相关互联网金融平台的文本数据,最终获得金融类文本数据。
3.如权利要求1所述的互联网金融产品宣传收益率和承诺提取方法,其特征在于,所述预设的收益率映射关系规则表中,每条收益率映射关系规则对应一种收益率转换方式;
所述收益率表述文本数据转换成可识别的收益率数值后,剔除收益率小于0或大于1的收益率数值。
4.如权利要求1所述的互联网金融产品宣传收益率和承诺提取方法,其特征在于,所述承诺关键词组包括多个人为定义的承诺关键词,且每个关键词对应一种承诺类型,承诺类型包括保本承诺、收益承诺和担保承诺。
5.如权利要求1所述的互联网金融产品宣传收益率和承诺提取方法,其特征在于,原始文本数据的第一次垃圾过滤具体为:
通过文本匹配方法去除原始文本数据中的特殊标点符号;
通过正则表达式方法去除原始文本数据中的以“http://”开头的url网址信息;
通过正则表达式方法去除原始文本数据中标志信息,其中标志信息包括提醒好友标志、转发标志信息;
通过文本匹配和正则表达式方法去除原始文本数据中的表情符和特殊字符信息,得到去除无意义信息的一次过滤的文本数据。
6.如权利要求5所述的互联网金融产品宣传收益率和承诺提取方...
【专利技术属性】
技术研发人员:部慧,吴俊杰,李晔林,张珏,陈禹舟,张俊杰,
申请(专利权)人:北京航空航天大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。