【技术实现步骤摘要】
一种基于复合相似度的金融关联账户识别方法和设备
[0001]本专利技术属于金融科技
,涉及一种基于复合相似度的金融关联账户识别方法和设备。
技术介绍
[0002]近些年,信息技术的快速发展给金融市场带来了发展与变革,但是由此也引发了诸多危机。在市场日趋复杂的情况下,金融监管变得越来越困难,监管部门有提升自身监察能力和监管手段的迫切需求。其中,关联账户筛查作为监管部门的重点工作,能否精准地识别出隐藏在市场中的关联账户组,挖掘账户深层关联关系,以及关联账户间隐蔽的违规交易、市场操纵行为,是监管及防范潜在市场风险的关键环节。
[0003]为预防金融风险,专利CN107527144A公开了一种金融领域关联交易的检测方法,该专利技术采用带符号的委托量作为投资者交易活动的特征变量,利用带符号委托量序列构建投资者交易的统一聚集的带符号委托量序列;计算两个投资者交易行为相似性,构建多个投资者相关系数矩阵;根据交易日的相关系数矩阵构建单日权重图并将多个单日权重图合并为一个综合权重图,综合权重图中的一个连通子图对应的投资者集合就是一个潜在的关联账户组。
[0004]目前已有关联账户识别方法主要是利用账户的交易行为数据,通过监督及无监督机器学习方法构建关联账户识别系统。主要存在的缺陷有以下两个方面:
[0005]1.现有关联账户识别方法大多未考虑市场舆情影响,但在某些典型案例中市场舆情对揭示关联账户异常交易起到了关键作用,如“叶飞案”的微博爆料信息等。
[0006]2.现有关联账户识别方法通常是将面板 ...
【技术保护点】
【技术特征摘要】
1.一种基于复合相似度的金融关联账户识别方法,其特征在于包括如下步骤:(1)典型案例爬取与特征提取;所述典型案例是指中国证券监督管理委员会发布的涉嫌“账户组”的中国证监会行政处罚决定书中的典型案例;所述典型案例中疑似关联账户的可识别、可衡量的特征指标的获取方式如下:首先,利用网络爬虫技术获取涉及关联账户的典型案例;其次,将典型案例中可识别的特征进行提取;最后,对提取的信息进行量化得到典型案例中疑似关联账户的可衡量的特征指标;(2)指标体系设计;所述指标体系包括账户基本信息指标、账户交易信息指标和市场基本信息指标三类;构成所述指标体系的指标是从典型案例中挖掘出的疑似关联账户的可识别、可衡量的特征指标;从短期、中期和长期三种不同的时间周期将基础性、单元性的指标要素组合设计成为可识别、可衡量且能反映关联账户识别特征的多维度、全周期实时监控指标体系;(3)账户基本信息指标和账户交易信息指标筛选;首先,利用相关系数法剔除账户基本信息指标和账户交易信息指标中具有高度相关关系的指标;其次,利用XGboost、随机森林和遗传算法分别对剔除高度相关指标后的账户基本信息指标和账户交易信息指标进行筛选,获得三个最优指标集合;最后,取三个最优指标集合的并集作为筛选出的账户基本信息指标和账户交易信息指标;所述具有高度相关关系是指皮尔逊相关系数大于阈值,阈值默认为0.8;(4)市场复合信息指标构建;基于步骤(2)中所述市场基本信息指标构建市场复合信息指标,包括:T周期内申报买入和卖出股票的笔数;T周期内申报买入和卖出股票的股数;T周期内申报买入和卖出股票的平均股价;T周期内成交买入和卖出股票的笔数;T周期内成交买入和卖出股票的股数;T周期内成交买入和卖出股票的平均股价;T周期内股价上穿或下穿T周期内平均股价正负K%的次数,K默认为2;T周期内股价涨跌幅;T周期内股票集中度,即T周期内账户持有该股票前N名账户的持有量占总量的比重,N默认为100;T周期内股票曝光度,即该股票的舆情分析结果,正面为1,中性为0,负面为
‑
1;T周期内涨幅或跌幅限制的价格申报买入和卖出股票的笔数;T周期内涨幅或跌幅限制的价格申报买入和卖出股票的股数;T周期内涨幅或跌幅限制的价格成交买入和卖出股票的笔数;T周期内涨幅或跌幅限制的价格成交买入和卖出股票的股数;T周期内股票报撤单比;T周期包括:短期时间周期T1,默认1分钟、5分钟、15分钟、30分钟、60分钟和120分钟;中
期时间周期T2,默认1日、1周、1月、1季度和半年;长期时间周期T3,默认1年、2年和3年;特殊时间周期T4,默认每日集合竞价和每日收盘前15分钟;(5)基于模糊层次综合评价的疑似异常账户识别;(5.1)根据步骤(4)中构建的市场复合信息指标判断是否存在异常股票,如存在,则进入步骤(5.2);否则,终止;(5.2)利用模糊层次综合评价模型,由评语集V、权重分配向量w和模糊综合评价矩阵R计算持有疑似异常股票的账户综合评价得分C,综合平均得分超过阈值的账户即为疑似异常账户;所述阈值默认为0.75;(6)基于复合相似度的疑似异常账户聚类分析;(6.1)获取步骤(5)中识别的疑似异常账户筛选后的账户基本信息指标和账户交易信息指标的数据,并对其进行Z
‑
Score标准化预处理;(6.2)对于类别为面板数据的指标,计算不同疑似异常账户之间的希尔伯特相似度;(6.3)对于类别为截面数据的指标,计算不同疑似异常账户之间的欧氏距离;(6.4)利用步骤(5.2)中计算的权重分配向量w对步骤(6.2)中计算得到的希尔伯特相似度与步骤(6.3)中计算得到的欧氏距离进行加权平均,得到基于希尔伯特相似度和欧氏距离的复合相似度;(6.5)基于复合相似度,利用系统聚类方法对疑似异常账户进行聚类分析,得到疑似关联账户。2.根据权利要求1所述的一种基于复合相似度的金融关联账户识别方法,其特征在于,还包括:(7)基于知识图谱的疑似关联账户可视化。3.根据权利要求1所述的一种基于复合相似度的金融关联账户识别方法,其特征在于,步骤(5.2)具体包括如下步骤:(5.2.1)确定评价的对象集、因素集和评语集;对象集为P={P1,P2,...,P
k
},因素集为U={u1,u2,...,u
m
},评语集为V={v1,v2,...,v
n
};其中,对象集为待评价的账户,因素集为步骤(3)中筛选出的...
【专利技术属性】
技术研发人员:王国强,袁欣,施兴森,
申请(专利权)人:上海金仕达软件科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。