本发明专利技术提出一种获取目标对象人物关系及关系亲密度的算法模型。它包括若干前端采集设备、服务器、磁盘阵列、大数据组件等。其中前端采集设备主要用于辅助采集各类互联网app个人使用数据,服务器结合大数据组件对获取的数据进行清洗、入库和算法模型计算,磁盘阵列用于存储入库的各类app个人使用数据,大数据组件包括:Hadoop、Flume、Kafka、ElasticSearch等。本发明专利技术的算法模型多维度考虑现实因素计算目标对象与其关系人的亲密度,并根据数据特征判断各关系人的关系类别,适应现实场景和环境,能较准确的锁定关系人并提供相关辅助信息,为案件侦查提供重要支撑。
【技术实现步骤摘要】
一种获取目标对象人物关系及关系亲密度的算法模型
本专利技术涉及终端辅助采集设备领域,尤其涉及一种获取目标对象人物关系及关系亲密度的算法模型。技术背景人物关系对案件侦办提供重要的技术支持。本专利技术中采集的数据是互联网各类app的个人使用信息,人物关系可以提取其中的个人信息、联系人信息(关系人)、各类消费订单信息(给关系人下单)、通讯记录、寄递往来信息等,对这些社交足迹数据进行分析挖掘可以较准确的得到人物关系及关系亲密度。计算关系人的亲密度需要多维度考虑设计计算模型,判断关系类别需要提取关系数据的特征,设定关系人类别特征规则并进行匹配。针对关系人亲密度,考虑的维度主要有:(1)关系数据发生时间与当前时间差。关系数据发生的时间越久远,则其在计算亲密度是权重越小。(2)关系数据提取次数。关系数据提取次数越大,则其亲密度会越大。(3)关系数据源个数。关系数据源越多,则其亲密度会越大。(4)关系数据源权重。不同数据源的权重有所区别,比如记录名片的app中的联系人很多都是工作关系产生的,关系基本都不怎么亲密,这类数据源的权重就会低一些,而某些数据中存在紧急联系人,那该联系人基本就是比较亲密的关系人。(5)关系数据中存在明确关系类别。对于能够提取明确关系类别的关系人其亲密度会被明显增大。针对数据中未能提取到关系人类别的,通过相关数据特征对关系类别进行匹配判断,考虑的相关特征有:关系人亲密度、关系人标签(年龄、籍贯等)、关系行为类型(如订单类型)、关系发生时间(如订单消费时间)等。
技术实现思路
为了实现上述目的,本申请提供的技术方案如下:前端辅助数据采集设备配合相关数据获取程序完成数据的采集工作。服务器及大数据组件对采集的数据进行清洗、入库和算法模型计算。磁盘阵列用于存储入库的互联网各类app个人使用数据。与现有技术相比,本专利技术主要具有如下有益效果:通过多源数据关系人信息聚合算法对同一个人的信息进行汇聚,通过多维度量化构造量化模型衡量关系亲密度,并依据数据特征判断可能的关系类别,能较准确的锁定关系人并提供相关辅助信息,为案件侦查提供重要支撑。附图说明图1为根据本专利技术的系统图;图2为本专利技术的算法模型流程图。具体实施方式下面结合附图和具体实施方式,对本专利技术的技术方案做详细描述。本专利技术的技术方案主要由两部分组成:数据采集与数据预处理、算法模型,具体参见图1系统图。数据采集是通过前端辅助设备和数据获取程序抓取目标手机号注册的各类app的个人使用数据。数据信息包括个人信息、联系人信息、出行信息、寄递信息、社交信息、其他消费订单信息等。数据流向:数据采集程序-->Flume-->Kafka-->ElasticSearch。数据采集之后针对人物关系分析需要对数据进行预处理。数据预处理以手机号为中心提取关系人及关系人其他标签;其次在没有手机号的情况下如果有身份证则以身份证为中心提取关系人及关系人其他标签;如果手机号和身份证都没有只有姓名则以姓名为中心提取关系人及关系人其他标签。一条原始数据中必须包含除对象本人之外的至少一个关系人才会被提取,有几个关系人则提取几条关系数据。提取所需的关系相关信息后统一数据结构(统一字段名,字段个数可以有差异,主要看原始数据中能提取哪些信息)方便后续计算模型处理。提取关系信息之后的数据结构示例如下:{duixiangbenren:13512345678,shijian:1583033798,guanxileibie:配偶,guanxiren-shoujihao:13612345678,guanxiren-xingming:李四,...,app:taobao,shujuleixing:lianxiren,crc:65488566426}以guanxiren-为前缀的字段为关系人的各类标签。还有标识提取数据的数据源标识字段(数据源标识用于设置不同的数据源权重,应用于亲密度计算模型),如由什么app的哪类数据提取而来。此外对数据全字段拼接求crc值(相当于该条数据的“身份证号”)进行去重处理,防止从原始数据重复提取影响模型计算的准确度。将提取的关系数据存入ElasticSearch中作为模型计算的数据源。该专利技术的重点在算法模型,下面结合图2介绍详细算法模型流程。(1)对于某个指定目标对象,在ElasticSearch中查询该目标对象(duixiangbenren)的所有关系人信息,保留guanxiren-为前缀的字段和crc字段。因为提取的关系数据中会存在数据字段个数不同以及相同字段值不同数据源存在的形态不同(如手机号有些是完整的,有些是隐藏其中几位),简单的依据某个字段进行关系人聚合会不准确,因此需要一个关系人聚合算法对关系数据进行关系人聚类,并给每一条关系数据(crc)赋予一个关系人id。关系人聚合算法设计如下:1)对于上文中的guanxiren-为前缀的字段和crc字段的记录集合C,两层循环遍历C,计算两两记录之间(无方向性)的关系人相似度,计算相似度只需要用到guanxiren-为前缀的字段,对于记录A和记录B的相似度计算原则有:a、如果A和B中有相同字段的值完全相同,出现一个相同则A和B的相似度+1,有n个字段值完全相同则整个相似度为n。b、如果A和B中有相同字段的值部分相同。如A中有手机号13512345678,B中有手机号135*****678,则该字段对相似度的贡献值为6/11,即除去*号之后对应位相同的数字个数据与手机号完整数字个数的占比,如果有其中一位不相同或者数值的长度不相同则该字段的贡献值为0,其他字段(如身份证、姓名、QQ号...)参照手机号处理,还可根据不同字段值的特点进行差异调整,最终相似度为各字段贡献度之和。c、如果A和B中没有相同字段,或者有相同字段,但是对应相同字段值都不相同,则A和B得相似度为0。2)得到两两记录之间的相似度之后依据相似度进行聚类,设定一个相似度阈值(如0.8),则将相似度大于0.8的数据记录聚为一类(一个关系人),如果某条记录可归为两个不同的类(即该记录与这两个类中的某条记录的相似度都大于0.8),则选择相似度大的那一类。实际操作中可以多次调整相似度阈值进行聚类,找出合适的聚类结果对应的相似度阈值。3)给上一步中的聚类结果,每一个类赋予一个唯一标识id,则该类中的每条记录的crc值就对应该id,并crc与id的对应关系入库待下一步使用。(2)将(1)中的crc字段替换为关系人聚类之后得到的关系人id,然后对关系人id字段进行所有关系数据的分组统计,得到每一个关系人的关系数据集合。(3)针对每一个关系人的关系数据集合,首先计算这个集合中每一条数据的权重,这里需要考虑的因素有关系发生时间与当前时间差以及该条数据的数据源权重。对于关系发生时间,设置根据时间差的权重衰减,衰减因子facter本文档来自技高网...
【技术保护点】
1.一种获取目标对象人物关系及关系亲密度的算法模型,其特征在于,包括:若干前端数据采集设备、服务器、磁盘阵列、大数据组件;其中前端采集设备主要用于辅助采集各类互联网app个人使用数据;服务器结合大数据组件对获取的数据进行清洗、入库和算法模型计算;磁盘阵列用于存储入库的各类app个人使用数据。/n
【技术特征摘要】
1.一种获取目标对象人物关系及关系亲密度的算法模型,其特征在于,包括:若干前端数据采集设备、服务器、磁盘阵列、大数据组件;其中前端采集设备主要用于辅助采集各类互联网app个人使用数据;服务器结合大数据组件对获取的数据进行清洗、入库和算法模型计算;磁盘阵列用于存储入库的各类app个人使用数据。
2.一种获取目标对象人物关系及关系亲密度的算法模型,其中包括基于关系人信息的关系人聚合算法,对于待聚类关系数据记录集,计算两两记录之间(无方向性)的关系人相似度,两条记录中相同字段值的相似性贡献值为相同字符占比(除特殊隐藏字符外有不相同的字符或值长度不相同则该字段相似性贡献值为0),得到两两记录之间的相似度之后依据相似度进行聚类,设定一个相似度阈值(如0.8),将相似度大于0.8的数据记录聚为一类(一个关系人),如果某条记录可归为两个不同的类(即该记录与这两个类中的某条记录的相似度都大于0.8),则选择相似度大的那一类,每一个类赋予一个唯一标识id,则该类中的每条记录就对应该类标识id。
3.一种获取目标对象人物关系及关系亲密度的算法模型,其中包括关系亲密度的算法模型,其特征在于,多维度考虑现实因素计算目标对象与其关系人的亲密度。
针对每一个关系人的关系数据集合,首先计算这个集合中每一条数据的权重,这里需要考虑的因素有关系发生时间与当前时间差以及该条数...
【专利技术属性】
技术研发人员:严俊,
申请(专利权)人:武汉白虹软件科技有限公司,
类型:发明
国别省市:湖北;42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。