一种基于聚类算法的外贸商品价格核验方法及系统技术方案

技术编号:33200546 阅读:14 留言:0更新日期:2022-04-24 00:36
本发明专利技术公开了一种基于聚类算法的外贸商品价格核验方法及系统,包括获取外贸业务数据,将所述外贸业务数据抽取、清洗、转换形成校验数据池;通过实时请求参数加载所述校验数据池并压缩形成数据集,根据算法得到所述数据集的邻域最少点数和初始领域半径;基于密度算法和所述数据集得到顺序的聚类结构,所述顺序的聚类结构包含了每个层级的聚类信息;并根据所述聚类信息得出最新给定的半径,输出当前请求参数的可信价格区间。本发明专利技术通过融合数据抽取技术、聚类算法技术、商品价格核验技术,将不同技术形态的方法进行有效融合,形成具备对外提供稳定技术服务的系统化产品。供稳定技术服务的系统化产品。供稳定技术服务的系统化产品。

【技术实现步骤摘要】
一种基于聚类算法的外贸商品价格核验方法及系统


[0001]本专利技术涉及计算机软件领域,尤其涉及一种基于聚类算法的外贸商品价格核验方法及系统。

技术介绍

[0002]近年来,随着互联网大数据和电子商务的不断发展,对于商品的价格定价也日趋透明化。商品价格是其价值的直接体现,目前了解同类商品的价格趋势主要是通过不同渠道商品价格比对分析的方式实现的,这往往需要很丰富的行业相关知识。
[0003]现有技术中,如电商场景通过分析行业价格来给商品进行定价,电商中的数据维度有很多,各方各面都会有数据存在,通过对这些数据进行分析,我们就可以知道一些我们需要的信息。商品的定价对于电商销售来说有着关键的影响,比如定价多少会直接影响所获得的利益。定价太低也许销量有了却没有利润,定价太高有利润可惜卖不出去。只有合适的价格,才能获得市场中的一席之地。传统的价格核验方法容易受到初始簇质心的情况而影响,有可能陷入局部最优解,在大规模数据上收敛较慢。这就带来几个弊端,一是,由于局部最优解,会造成商品价格最终核验结果的偏高、偏低。二是,在大规模的数据上,对资源的消耗程度高,价格核验的成本较高,难以大规模推广。三是,现有方法对簇个数和质心的选择具有随机性,也降低了价格核验的效率和准确度。此外,处理噪声数据的能力较弱,少量的该类数据会对质点的计算会产生极大的影响。
[0004]另有,从各数据平台获取待识别商品种类的各类数据;利用主成因分析法分析待识别商品,得到影响价格最大的要素;计算出待识别商品的申报单价;利用k均值算法对申报单价分类,得到各价格区间;将获得影响价格最大的要素作为分析维度,申报单价为分析对象,构建决策树模型;输入待识别商品的属性数据以及待查询价格数据,利用决策树模型分析商品的正常价格属于哪个价格区间,并判断商品价格是否在合理区间内,若不在,则提示该商品存在价格风险。虽然能够减少人工对行业知识的理解,能快速的对大量商品进行价格风险排查,但是对样本数据内商品的总价、数量、单价、币种、单位等字段分析较少,对价格的范围区间核验准确度不高。

技术实现思路

[0005]本申请提供了一种基于聚类算法的外贸商品价格核验方法及系统,旨在用于提高海关的审核人员的外贸商品报价核验能力,解决现有技术中基于海量的样本数据,不能训练出可精准核验商品价格的算法模型,形成成熟、完备的价格核验能力。
[0006]为了实现上述目的,本申请采用以下技术方案:
[0007]获取外贸业务数据,将所述外贸业务数据抽取、清洗、转换形成校验数据池;
[0008]通过实时请求参数加载所述校验数据池并压缩形成数据集,根据算法得到所述数据集的邻域最少点数和初始领域半径;
[0009]基于密度算法和所述数据集得到顺序的聚类结构,所述顺序的聚类结构包含了每
个层级的聚类信息;并根据所述聚类信息得出最新给定的半径,输出当前请求参数的可信价格区间。
[0010]作为优选,所述转换步骤包括:
[0011]对所述外贸业务数据中的外贸订单单价ρ进行如下转换加工:
[0012][0013]其中,format(0.00)表示保留两位小数,format(0.0)表示保留一位小数,format(0)表示取整。
[0014]作为优选,所述通过实时请求参数加载所述校验数据池并压缩形成数据集,根据算法得到所述数据集的邻域最少点数和初始领域半径,包括:
[0015]S31、定义核心距离:设数据点x
i
∈D={x1,x2,

,x
N
},对于给定的参数ε和称使得x
i
成为核心点的最小邻域半径为点x
i
的核心距离,记为
[0016][0017]其中表示集合N
ε
(x
i
)中与节点x
i
第i最近邻的节点,i和N均为大于1的整数;
[0018]S32、定义可达距离:设x
i
,x
j
∈D,对于给定的参数ε和x
j
关于x
i
的可达距离定义为:
[0019][0020]特别地,当x
i
为核心点时,则:
[0021][0022]即rd(x
j
,x
i
)表示使得“x
i
为核心点”且“x
j
从x
i
直接密度可达”同时成立的最小邻域半径,其中j为大于1的整数;
[0023]S33、定义两个队列,有序队列和结果队列有序队列用于存储核心节点及其密度直达节点,并按照可达距离升序排列;结果队列用于存储样本点的输出次序;有序队列中的节点为待处理样本,结果队列中的节点为处理之后的样本;
[0024]S34、如果所有样本集D中所有点都处理完毕,则算法结束。否则选取一个未处理的核心节点,将其放入结果队列同时计算邻域内样本点的可达距离,按照可达距离升序将邻域内样本点依次放入有序队列
[0025]S35、如果有序队列为空,重复步骤S33,否则从有序队列中提取第一个样本放入结果队列如果为核心点,则计算的邻域对象点将所有点加入并按可
达距离升序,如果不是核心点,重复步骤S34;
[0026]S36、不断迭代步骤S34和步骤S35,直到所有样本点都处理完毕,然后输出结果队列中的样本点及其可达距离。
[0027]作为优选,所述基于密度算法和所述数据集得到顺序的聚类结构,所述顺序的聚类结构包含了每个层级的聚类信息;并根据所述聚类信息得出最新给定的半径,输出当前请求参数的可信价格区间,包括以下步骤:
[0028]S41、基于算法模型模块进行分析得出外贸价格数量阈值由获得当前的rd即最新给定半径ε,其中count为外贸价格的总数量;
[0029]S42、从所述结果队列中按顺序取出所有点,如果第一点的可达距离不大于所述给定半径ε,则所述第一点属于第一聚类,否则舍弃,然后第二点进入步骤S43;
[0030]S43、如果所述第二点的核心距离大于所述给定半径ε,则所述第二点为噪音点,则舍弃,否则属于所述第一聚类,然后若第二点为所述噪音点,判断第三点是否不大于所述给定半径ε,若是则所述第三点属于第二聚类,否则舍弃,依次循环;
[0031]S44、所述结果队列遍历结束,则算法结束,输出对应类目商品的报价的可信价格区间。
[0032]一种基于聚类算法的外贸商品价格核验系统,包括:
[0033]数据抽取模块,用于获取外贸业务数据,将所述外贸业务数据抽取、清洗、转换形成校验数据池;
[0034]参数输入和数据加载模块,用于通过实时请求参数加载所述校验数据池并压缩形成数据集,根据算法得到所述数据集的邻域最少点数和初始领域半径;
[0035]算法模型模块:用于基于密度算法和所述数据集得到顺序的聚类结构,所述顺序的聚类结构包含了每个层级的聚类信息;并根据所述聚类信息本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于聚类算法的外贸商品价格核验方法,其特征在于,包括以下步骤:获取外贸业务数据,将所述外贸业务数据抽取、清洗、转换形成校验数据池;通过实时请求参数加载所述校验数据池并压缩形成数据集,根据算法得到所述数据集的邻域最少点数和初始领域半径;基于密度算法和所述数据集得到顺序的聚类结构,所述顺序的聚类结构包含了每个层级的聚类信息;并根据所述聚类信息得出最新给定的半径,输出当前请求参数的可信价格区间。2.根据权利要求1所述的一种基于聚类算法的外贸商品价格核验方法,其特征在于,所述转换步骤包括:对所述外贸业务数据中的外贸订单单价ρ进行如下转换加工:其中,format(0.00)表示保留两位小数,format(0.0)表示保留一位小数,format(0)表示取整。3.根据权利要求1所述的一种基于聚类算法的外贸商品价格核验方法,其特征在于,所述通过实时请求参数加载所述校验数据池并压缩形成数据集,根据算法得到所述数据集的邻域最少点数和初始领域半径,包括:S31、定义核心距离:设数据点x
i
∈D={x1,x2,

,x
N
},对于给定的参数ε和称使得x
i
成为核心点的最小邻域半径为点x
i
的核心距离,记为其中表示集合N
ε
(x
i
)中与节点x
i
第i最近邻的节点,i和N均为大于1的整数;S32、定义可达距离:设x
i
,x
j
∈D,对于给定的参数ε和x
j
关于x
i
的可达距离定义为:特别地,当x
i
为核心点时,则:即rd(x
j
,x
i
)表示使得“x
i
为核心点”且“x
j
从x
i
直接密度可达”同时成立的最小邻域半径,其中j为大于1的整数;S33、定义两个队列,有序队列Q和结果队列有序队列Q用于存储核心节点及其密度直达节点,并按照可达距离升序排列;结果队列用于存储样本点的输出次序;有序队列Q中的节点为待处理样本,结果队列中的节点为处理之后的样本;S34、如果所有样本集D中所有点都处理完毕,则算法结束;否则选取一个未处理的核心节点,将其放入结果队列同时计算邻域内样本点的可达距离,按照可达距离升序将邻域内样本点依次放入有序队列Q;
S35、如果有序队列Q为空,重复步骤S33,否则从有序队列Q中提取第一个样本放入结果队列如果为核心点,则计算的邻域对象点将所有点加入Q并按可达距离升序,如果不是核心点,重复步骤S34;S36、不断迭代步骤S34和步骤S35,直到所有样本点都处理完毕,然后输出结果队列中的样本点及其可达距离。4.根据权利要求1或3所述的一种基于聚类算法的外贸商品价格核验方法,其特征在于,所述基于密度算法和所述数据集得到顺序的聚类结构,所述顺序的聚类结构包含了每个层级的聚类信息;并根据所述聚类信息得出最新给定的半径,输出当前请求参数的可信价格区间,包括以下步骤:S41、基于算法模型模块进行分析得出外贸价格数量阈值由获得当前的rd即最新给定半径ε,其中count为外贸价格的总数量;S42、从所述结果队列Q中按顺序取出所有点,如果第一点的可达距离不大于所述给定半径ε,则所述第一点属于第一聚类,否则舍弃,然后第二点进入步骤S43;S43、如果所述第二点的核心距离大于所述给定半径ε,则所述第二点为噪音点,则舍弃,否则属于所述第一聚类,然后若第二点为所述噪音点,判断第三点是否不大于所述给定半径ε,若是则所述第三点属于第二聚类,否则舍弃,依次循环;S44、所述结果队列Q遍历结束,则算法结束,输出对应类目商品的报价的可信价格区间。5.一种基于聚类算法的外贸商品价格核验系统,用于实现权利要求1所述的一种基于聚类算法的外贸商品价格核验方法,其特征在于,包括:数据抽取模块,用于获取...

【专利技术属性】
技术研发人员:徐小兵陆纬赵晓兵
申请(专利权)人:浙江电子口岸有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1