本发明专利技术公开了一种基于图像特征的暗网站点用户关联方法,包括以下步骤:S1、对暗网数据进行采集并对图像特征进行计算,基于图像特征对商品id进行关联;S2、根据图像特征与商品id的关联关系,得到基于图像特征的暗网用户关联关系。本发明专利技术构建一种基于相似图像的暗网用户关联策略,可实现暗网用户关联,且关联准确率较高,可有效利用暗网中的图像模态信息。通过暗网数据采集、图像特征计算、贴文关联、用户关联,可有效发现暗网中的关联信息,为暗网数据追踪溯源、暗网数据监控、暗网数据治理提供有力的技术支撑。力的技术支撑。力的技术支撑。
【技术实现步骤摘要】
一种基于图像特征的暗网站点用户关联方法
[0001]本专利技术属于互联网
,具体涉及一种基于图像特征的暗网站点用户关联方法。
技术介绍
[0002]暗网市场(或“暗网”)是专门从事非法商品交易的商业网站,此类网站中的交易商品包含武器、假身份证、被盗信用卡、泄露数据等内容。目前用户画像的方法多基于人物属性信息收集、机器学习、人物社交关系分析等策略,主要针对普通用户,实现对明网人物的刻画。暗网交易市场中的用户画像维度和明网有所不同,无法直接利用明网的用户画像构建方案。
[0003]明网主要通过用户的社交网络特征和用户属性信息进行关联,而暗网由于数据稀疏,暗网站点中用户社交网络特征和用户属性信息比较少,直接通过用户画像、社交网络特征对齐等方式实现用户关联效果较差,无法直接沿用明网中的关联方法,目前没有通用的暗网用户关联方式。
技术实现思路
[0004]本专利技术的目的在于,为克服现有技术缺陷,提供了一种基于图像特征的暗网站点用户关联方法。
[0005]本专利技术目的通过下述技术方案来实现:一种基于图像特征的暗网站点用户关联方法,包括以下步骤:S1、对暗网数据进行采集并对图像特征进行计算,基于图像特征对商品id进行关联;S2、根据图像特征与商品id的关联关系,得到基于图像特征的暗网用户关联关系。
[0006]进一步地:所述步骤S1的具体步骤为:S11、对暗网数据进行采集;S12、判断暗网数据贴文是否包含图像,是则进入步骤S13,否则结束该步骤;S13、根据暗网数据计算图像特征md5值;S14、将图像特征md5值作为图像唯一标识,获取商品和图像特征md5的关联关系。
[0007]进一步地:所述步骤S11具体为:针对暗网目标站点的数据排版格式和反爬机制,构建定制化采集策略,实现暗网站点的数据采集。
[0008]进一步地:所述数据采集包括结构化的商品信息和商品详情页的图片数据,所述结构化的商品信息存储在结构化数据库中,所述图片数据存储在分布式文件存储系统中,同时将图片位置存储在结构化数据库中。
[0009]进一步地:所述步骤S14具体为:基于数据采集阶段和图像特征md5计算阶段获取的对应关系,推断出商品id和图像md5值的对应关系。
[0010]进一步地:所述步骤S2的具体步骤为:
S21、根据图像特征对用户进行聚类,针对每个图像特征,聚类出发布贴文中包含该图像的所有用户,得到聚类结果;S22、遍历聚类结果,若图像特征对应多个用户,则构建多个用户间的关联关系;S23、若关联关系已存在,则将关联关系存入结构化数据库中。
[0011]前述本专利技术主方案及其各进一步选择方案可以自由组合以形成多个方案,均为本专利技术可采用并要求保护的方案。本领域技术人员在了解本专利技术方案后根据现有技术和公知常识可明了有多种组合,均为本专利技术所要保护的技术方案,在此不做穷举。
[0012]本专利技术的有益效果:(1)本专利技术构建一种基于相似图像的暗网用户关联策略,可实现暗网用户关联,且关联准确率较高,可有效利用暗网中的图像模态信息。
[0013](2)本专利技术通过暗网数据采集、图像特征计算、贴文关联、用户关联,可有效发现暗网中的关联信息,为暗网数据追踪溯源、暗网数据监控、暗网数据治理提供有力的技术支撑。
附图说明
[0014]图1是本专利技术架构图;图2是本专利技术中图像特征生成流程图;图3是本专利技术中关系数据样例图;图4是本专利技术中基于图像特征的暗网用户关联流程图。
具体实施方式
[0015]以下通过特定的具体实例说明本专利技术的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本专利技术的其他优点与功效。本专利技术还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本专利技术的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
[0016]需要说明的是,为使本专利技术实施例的目的、技术方案和优点更加清楚,下面对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。
[0017]在本专利技术的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为该专利技术产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利技术的限制。此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
[0018]此外,术语“水平”、“竖直”、“悬垂”等术语并不表示要求部件绝对水平或悬垂,而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平,并不是表示该结构一定要完全水平,而是可以稍微倾斜。
[0019]在本专利技术的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一
体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本专利技术中的具体含义。
[0020]另外,本专利技术要指出的是,本专利技术中,如未特别写出具体涉及的结构、连接关系、位置关系、动力来源关系等,则本专利技术涉及的结构、连接关系、位置关系、动力来源关系等均为本领域技术人员在现有技术的基础上,可以不经过创造性劳动可以得知的。
[0021]实施例1:参考图1所示,本专利技术公开了一种基于图像特征的暗网站点用户关联方法,包括以下步骤:S1、对暗网数据进行采集并对图像特征进行计算,基于图像特征对商品id进行关联;如图2所示。
[0022]S11、对暗网数据进行采集;针对暗网目标站点的数据排版格式和反爬机制,构建定制化采集策略,实现暗网站点的数据采集。采集内容包含结构化的商品信息和商品详情页面的图片数据,其中结构化的商品信息(字段包含商品名、商品发布者、商品描述等)存储在结构化数据库中;商品图像数据存储分布式文件存储系统中,同时将图像位置存储在结构化数据中,以便于商品和商品图像之间的关联。
[0023]S12、判断暗网数据贴文是否包含图像,是则进入步骤S13,否则结束该步骤;S13、根据暗网数据计算图像特征md5值;使用通用的md5计算方式,获取图像的md5值。除md5值之外,也可用其他图像特征来唯一标识图像。md5的方式可降低后续通过图像特征进行商品关联所需的计算资源。
[0024]S14、将图像特征md5值作为图像唯一标识,获取商品和图像特征md5的关联关系。
[0025]数据采集阶段获取商品id和商品图像位置的对应关系,图像md5计算阶段获取图像商品位置和图像md5值的对应关系,基于数据采集阶段和图像md5计算阶段获取的本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于图像特征的暗网站点用户关联方法,其特征在于,包括以下步骤:S1、对暗网数据进行采集并对图像特征进行计算,基于图像特征对商品id进行关联;S2、根据图像特征与商品id的关联关系,得到基于图像特征的暗网用户关联关系。2.根据权利要求1所述的基于图像特征的暗网站点用户关联方法,其特征在于,所述步骤S1的具体步骤为:S11、对暗网数据进行采集;S12、判断暗网数据贴文是否包含图像,是则进入步骤S13,否则结束该步骤;S13、根据暗网数据计算图像特征md5值;S14、将图像特征md5值作为图像唯一标识,获取商品和图像特征md5的关联关系。3.根据权利要求2所述的基于图像特征的暗网站点用户关联方法,其特征在于,所述步骤S11具体为:针对暗网目标站点的数据排版格式和反爬机制,构建定制化采集策略,实现暗网站点的数据采集。4.根据权利要求3所述的基于图...
【专利技术属性】
技术研发人员:丁建伟,刘志洁,陈周国,王鑫,
申请(专利权)人:中国电子科技集团公司第三十研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。