一种基于层次密度聚类和参照系的报关单分析方法和系统技术方案

技术编号:38468008 阅读:24 留言:0更新日期:2023-08-11 14:45
本发明专利技术提出了一种基于层次密度聚类和参照系的报关单分析方法,利用智能化非监督聚类算法,将历史黑名单数据集进行聚类分析,获取聚类后的各聚类中心点坐标序列;获取参照系数据集,计算参照系数据集中每个样本到各聚类中心点坐标的最小欧式距离,并根据排序算法构建参照模型;实时接收报关单样本,计算到各聚类中心点坐标的最小欧式距离,得到报关单样本的最小欧式距离序列;将最小欧式距离序列输入到参照模型中,得到排序分值;根据排序分值和报关单样本对应的贡献度以及业务命中阈值,确定报关单样本中需分析的报关单比例;本发明专利技术提出的方法,能够准确地分析出成批量的报关单中需要分析查验的报关单数量,且快速有效,降低布控率,提升查获率。提升查获率。提升查获率。

【技术实现步骤摘要】
一种基于层次密度聚类和参照系的报关单分析方法和系统


[0001]本专利技术涉及报关单分析领域,特别是指一种基于层次密度聚类和参照系的报关单分析方法和系统。

技术介绍

[0002]根据《中华人民共和国海关法》和《保税区海关监管办法》的规定,必须对从进出保税区的货物进行监管,无论货物是来自境外,还是来自境内的非保税区货物。同时《海关法》还规定,对于进出口货物,由海关准予注册的报关企业或者有权经营进出口业务的企业负责办理报关纳税手续。
[0003]近年束,随着我国进出口贸易的持续迅猛增长,如何能够对成批量的报关单进行有效快速的分析查验是亟需解决的问题。

技术实现思路

[0004]本专利技术的主要目的在于克服现有技术中的上述缺陷,提出一种基于层次密度聚类和参照系的报关单分析方法,结合层次密度聚类和参照模型的构建,能够准确地分析出成批量的报关单中需要分析查验的报关单数量,且快速有效。
[0005]本专利技术采用如下技术方案:
[0006]一种基于层次密度聚类和参照系的报关单分析方法,包括:
[0007]利用智能化非监督聚类算法,将历史黑名单数据集进行聚类分析,获取聚类后的各聚类中心点坐标序列;
[0008]获取参照系数据集,计算参照系数据集中每个样本到各聚类中心点坐标的最小欧式距离,并根据排序算法构建参照模型;
[0009]实时接收报关单样本,计算到各聚类中心点坐标的最小欧式距离,得到报关单样本的最小欧式距离序列;
[0010]将最小欧式距离序列输入到参照模型中,得到排序分值;
[0011]根据排序分值和报关单样本对应的贡献度以及业务命中阈值,确定接收的报关单样本中需分析的报关单比例。
[0012]具体地,所述利用智能化非监督聚类算法,具体为:
[0013]采用HDBSCAN即分层聚类算法将历史黑名单数据集进行聚类分析,包括:
[0014]输出中心节点序号;
[0015]去除掉噪音点;
[0016]对中心节点分组并统计落在每一个中心节点的数据个数,当中心点数据均匀时,则选择出样本数据各集群质心点,并可确定HDBSCAN构造类的各超参值,所述各集群质心点即为各聚类中心点。
[0017]具体地,获取参照系数据集,计算参照系数据集中每个样本到各聚类中心点坐标的最小欧式距离,其中,每个样本到各聚类中心点坐标的欧式距离计算为:
[0018][0019]其中,n=256,为各聚类中心点坐标序列维度,x1x2…
x
n
为参照系报关单各维度的特征值,y1y2…
y
n
为各聚类中心点维度特征值。
[0020]具体地,将最小欧式距离序列输入到参照模型中,得到排序分值,具体为:
[0021][0022]其中,f(r)为排序分值,M为参照模型中总排名数,r为接收报关单样本的平均排名。
[0023]具体地,根据排序分值和报关单样本对应的贡献度以及业务命中阈值,确定接收的报关单样本中需分析的报关单比例,具体为:
[0024]s=f(r)*α*K
[0025]其中,α为报关单样本对应的贡献度,含义是报关单样本的申报公司自身风险贡献度/所有申报公司风险的中值贡献度;K为业务命中阈值,为千分之五。
[0026]本专利技术实施例另一方面提供一种基于层次密度聚类和参照系的报关单分析系统,包括:
[0027]历史黑名单聚类单元:利用智能化非监督聚类算法,将历史黑名单数据集进行聚类分析,获取聚类后的各聚类中心点坐标序列;
[0028]参照模型构建单元:获取参照系数据集,计算参照系数据集中每个样本到各聚类中心点坐标的最小欧式距离,并根据排序算法构建参照模型;
[0029]报关单欧式距离计算单元:实时接收报关单样本,计算到各聚类中心点坐标的最小欧式距离,得到报关单样本的最小欧式距离序列;
[0030]排序分值计算单元:将最小欧式距离序列输入到参照模型中,得到排序分值;
[0031]分析报关单比例计算单元:根据排序分值和报关单样本对应的贡献度以及业务命中阈值,确定接收的报关单样本中需分析的报关单比例。
[0032]具体地,所述历史黑名单聚类单元中,利用智能化非监督聚类算法,具体为:
[0033]采用HDBSCAN即分层聚类算法将历史黑名单数据集进行聚类分析,包括:
[0034]输出中心节点序号;
[0035]去除掉噪音点;
[0036]对中心节点分组并统计落在每一个中心节点的数据个数,当中心点数据均匀时,则选择出样本数据各集群质心点,并可确定HDBSCAN构造类的各超参值,所述各集群质心点即为各聚类中心点。
[0037]具体地,所述参照模型构建单元中,获取参照系数据集,计算参照系数据集中每个样本到各聚类中心点坐标的最小欧式距离,其中,每个样本到各聚类中心点坐标的欧式距离计算为:
[0038][0039]其中,n=256,为各聚类中心点坐标序列维度,x1x2…
x
n
为参照系报关单各维度的特征值,y1y2…
y
n
为各聚类中心点维度特征值。
[0040]具体地,所述排序分值计算单元中,将最小欧式距离序列输入到参照模型中,得到排序分值,具体为:
[0041][0042]其中,f(r)为排序分值,M为参照模型中总排名数,r为接收报关单样本的平均排名。
[0043]具体地,所述分析报关单比例计算单元中,根据排序分值和报关单样本对应的贡献度以及业务命中阈值,确定接收的报关单样本中需分析的报关单比例,具体为:
[0044]s=f(r)*α*K
[0045]其中,α为报关单样本对应的贡献度,含义是报关单样本的申报公司自身风险贡献度/所有申报公司风险的中值贡献度,K为业务命中阈值,为千分之五。
[0046]由上述对本专利技术的描述可知,与现有技术相比,本专利技术具有如下有益效果:
[0047](1)本专利技术提出了一种基于层次密度聚类和参照系的报关单分析方法,利用智能化非监督聚类算法,将历史黑名单数据集进行聚类分析,获取聚类后的各聚类中心点坐标序列;获取参照系数据集,计算参照系数据集中每个样本到各聚类中心点坐标的最小欧式距离,并根据排序算法构建参照模型;实时接收报关单样本,计算到各聚类中心点坐标的最小欧式距离,得到报关单样本的最小欧式距离序列;将最小欧式距离序列输入到参照模型中,得到排序分值;根据排序分值和报关单样本对应的贡献度以及业务命中阈值,确定接收的报关单样本中需分析的报关单比例;本专利技术提出的方法,能够准确地分析出成批量的报关单中需要分析查验的报关单数量,且快速有效,实际应用表明,利用本专利技术方法同比历史布控率降低了50%,查获率提升了200%

300%。
附图说明
[0048]图1为本专利技术提供的一种基于层次密度聚类和参照系的报关单分析方法流程图;
[0049]图2为本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于层次密度聚类和参照系的报关单分析方法,其特征在于,包括:利用智能化非监督聚类算法,将历史黑名单数据集进行聚类分析,获取聚类后的各聚类中心点坐标序列;获取参照系数据集,计算参照系数据集中每个样本到各聚类中心点坐标的最小欧式距离,并根据排序算法构建参照模型;实时接收报关单样本,计算到各聚类中心点坐标的最小欧式距离,得到报关单样本的最小欧式距离序列;将最小欧式距离序列输入到参照模型中,得到排序分值;根据排序分值和报关单样本对应的贡献度以及业务命中阈值,确定接收的报关单样本中需分析的报关单比例。2.根据权利要求1所述的一种基于层次密度聚类和参照系的报关单分析方法,其特征在于,所述利用智能化非监督聚类算法,具体为:采用HDBSCAN即分层聚类算法将历史黑名单数据集进行聚类分析,包括:输出中心节点序号;去除掉噪音点;对中心节点分组并统计落在每一个中心节点的数据个数,当中心点数据均匀时,则选择出样本数据各集群质心点,并可确定HDBSCAN构造类的各超参值,所述各集群质心点即为各聚类中心点。3.根据权利要求1所述的一种基于层次密度聚类和参照系的报关单分析方法,其特征在于,获取参照系数据集,计算参照系数据集中每个样本到各聚类中心点坐标的最小欧式距离,其中,每个样本到各聚类中心点坐标的欧式距离计算为:其中,n=256,为各聚类中心点坐标序列维度,x1x2…
x
n
为参照系报关单各维度的特征值,y1y2…
y
n
为各聚类中心点维度特征值。4.根据权利要求1所述的一种基于层次密度聚类和参照系的报关单分析方法,其特征在于,将最小欧式距离序列输入到参照模型中,得到排序分值,具体为:其中,f(r)为排序分值,M为参照模型中总排名数,r为接收报关单样本的平均排名。5.根据权利要求4所述的一种基于层次密度聚类和参照系的报关单分析方法,其特征在于,根据排序分值和报关单样本对应的贡献度以及业务命中阈值,确定接收的报关单样本中需分析的报关单比例,具体为:s=f(r)*α*K其中,α为报关单样本对应的贡献度,含义是报关单样本的申报公司自身风险贡献度/所有申报公司风险的中值贡献度;K为业务命中阈值,为千分之五。
6.一种基于层次密度聚类和参照系的报关单分析系统,其特征在于,包括:历史黑名单聚类单元:利用智能化...

【专利技术属性】
技术研发人员:王良林铠欣张荣杰刘键涛魏秋新
申请(专利权)人:福建电子口岸股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1