本发明专利技术的实施例提供一种基于社交网络的转行用户的挖掘方法及装置,该方法包括:构建用户能力标签映射集;根据所述用户能力标签映射集和用户的被分组信息分析出第一维度的用户能力标签信息;根据所述用户能力标签映射集和用户的自填信息分析出第二维度的用户能力标签信息;根据所述用户能力标签映射集和用户的内容信息分析出第三维度的用户能力标签信息;根据所述第一、第二、第三维度的用户能力标签信息中的至少其一,确定出转行用户。该方法有利于提升挖掘转行用户的准确率。
【技术实现步骤摘要】
本专利技术涉及互联网技术,具体地涉及一种基于社交网络的转行用户的挖掘方法及 装置。
技术介绍
转行用户是指:在微博等社交网络中,有些账号在运营过程中由于商业利益或其 他方面的原因,近期发表的博文内容同之前相比呈现出比较大的领域或行业差异性。比如, 某一账号之前一直在发表关于星座相关的内容,近期发表的内容转向了汽车相关,则该账 号属于转行用户。 图1为现有的转行用户挖掘方案的流程图。如图1所示,现有技术是采用基于内容 识别的方案,即主要是通过对近期发表的内容和之前发表的内容分别进行分类计算,如果 所属领域不同,则判别为转行用户。 专利技术人在实现本专利技术的过程中发现上述技术的不足之处在于: 1、严重依赖于内容分类的准确率,误判率较高; 2、对于区分不明显的两个标签间的转行用户识别率低。
技术实现思路
本专利技术实施例的目的是,提供一种基于社交网络的转行用户的挖掘方法及装置, 从三个维度来挖掘转行用户,以提高挖掘转行用户的准确率。 为达上述目的,一方面,提供一种基于社交网络的转行用户的挖掘方法,包括:构 建用户能力标签映射集,所述用户能力标签映射集是指与用户能力标签相关的标签集合; 根据所述用户能力标签映射集和用户的被分组信息分析出第一维度的用户能力标签信息; 其中,所述用户能力标签信息包括用户能力标签及其对应的权重;根据所述用户能力标签 映射集和用户的自填信息分析出第二维度的用户能力标签信息;根据所述用户能力标签映 射集和用户的内容信息分析出第三维度的用户能力标签信息;根据所述第一、第二、第三维 度的用户能力标签信息中的至少其一,确定出转行用户。 为达上述目的,另一方面,提供一种基于社交网络的转行用户的挖掘装置,包括: 构建单元,用于构建用户能力标签映射集,所述用户能力标签映射集是指与用户能力标签 相关的标签集合;第一分析单元,用于根据所述用户能力标签映射集和用户的被分组信息 分析出第一维度的用户能力标签信息;其中,所述用户能力标签信息包括用户能力标签及 其对应的权重;第二分析单元,用于根据所述用户能力标签映射集和用户的自填信息分析 出第二维度的用户能力标签信息;第三分析单元,用于根据所述用户能力标签映射集和用 户的内容信息分析出第三维度的用户能力标签信息;确定单元,用于根据所述第一、第二、 第三维度的用户能力标签信息中的至少其一,确定出转行用户。 上述技术方案具有如下有益效果:上述技术方案通过构建用户能力标签映射集, 结合该用户能力标签映射集从被分组信息、自填信息、内容信息三个维度分析用户能力标 签信息,并基于该三个维度的用户能力标签信息中的至少其一来确定转行用户进行输出, 从而相比于现有技术中的单独采用内容来识别转行用户的技术方案,降低了误判率,有利 于提升挖掘转行用户的准确率和覆盖率。【附图说明】 为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以 根据这些附图获得其他的附图。 图1为现有的转行用户挖掘方案的流程图; 图2为本专利技术实施例一的转行用户挖掘方法的流程图; 图3为本实施例三的转行用户的挖掘装置的整体功能框图; 图4为本实施例三的转行用户的挖掘装置的具体功能框图。【具体实施方式】 下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于 本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例,都属于本专利技术保护的范围。 本专利技术的实施例在对用户能力标签、自填信息和博文等相关数据信息进行深入分 析的基础之上,确定了从下述三个维度来挖掘转行用户:一是将近期的用户被分组信息映 射到用户能力标签,并与之前的用户能力标签进行对比;二是将用户的昵称、简介、自标签 等自填信息映射到用户能力标签,并与之前的用户能力标签进行对比;三是将用户发表的 原创博文打上标签,并同用户的能力标签进行对比;最终将上述结果进行融合,达到阈值条 件的用户将被确定为转行用户。 实施例一 图2为本专利技术实施例一的转行用户挖掘方法的流程图。如图1所示,该基于社交网 络的转行用户的挖掘方法包括如下步骤: 步骤210:构建用户能力标签映射集; 其中,用户能力标签是指:描述用户在社交网络中通过自填信息、发表的博文等信 息所呈现出的能力特征的标签。能力标签映射集是和选定的用户能力标签具有关联关系的 标签集合。具体地,用户能力标签映射集是指与用户的能力标签相关的标签集合。比如用户 的能力标签是互联网,则该能力标签的映射集包含互联网技术,互联网大牛,互联网1,电子 商务等。构建用户能力标签映射集的方式多种,包括但不限于如下方式:以用户的被分组信 息为语料,利用编辑距离+共现频次等算法,构建出用户能力标签的映射集。 步骤220:根据用户能力标签映射集和用户的被分组信息分析出第一维度的用户 能力标签信息;其中,该用户能力标签信息包括用户能力标签及其对应的权重; 其中,第一维度是指用户被分组维度或粉丝维度。用户被分组信息反映的是粉丝 对该用户近期的分组情况。具体实施时,本步骤可以将用户近期的被分组信息映射到能力 标签:例如分析用户最近三个月的被分组信息,依据上一步骤构建的用户能力标签映射表, 从粉丝维度分析出用户近期的能力标签。 步骤230:根据用户能力标签映射集和用户的自填信息分析出第二维度的用户能 力标签信息; 其中,第二维度是指用户自填信息维度或用户自身维度。用户的自填信息包括但 不限于用户的昵称、简介和自标签等信息。具体实施时,本步骤可分析用户的昵称、简介和 自标签,并将其映射到用户能力标签,从用户自身维度分析出用户近期的能力标签。步骤240:根据用户能力标签映射集和用户的内容信息分析出第三维度的用户能 力标签信息;其中,第三维度是指内容维度或用户原创博文维度。用户的内容信息反映用户发 表的原创博文的内容、类别或主题,主要包括用户发表的原创博文对应的博文标签及其次 数。具体实施时,本步骤可以分析用户近半年的原创博文,给博文打上标签,同时引入时间 衰减因子,增大用户近期的原创博文的权重,从内容维度分析出用户近期的能力标签。 步骤250:根据第一、第二、第三维度的用户能力标签信息中的至少其一,确定出转 行用户。 其中,本步骤可结合上述3个维度中至少一个维度的特征,将达到预设条件的用户 作为转行用户对外输出。 具体地,本步骤可采用如下方式中确定出转行用户:如果第一维度的用户能力标 签所对应的权重大于第一预设分值,则确定为转行用户;或者,如果第二维度的用户能力标 签所对应的权重大于第二预设分值,则确定为转行用户;或者,如果第三维度的用户能力标 签所对应的权重大于第三预设分值,则确定为转行用户;或者,如果第一、第二、第三维度的 用户能力标签均具有权重,则确定为转行用户;或者,如果两个维度的用户能力标签具有权 重,且该两个维度中的一个维度为第三维度,则确定为转行用户。 本专利技术的实施例通过构建用户能力标签映射集,结合该用户能力标签映射集从被本文档来自技高网...
【技术保护点】
一种基于社交网络的转行用户的挖掘方法,其特征在于,包括:构建用户能力标签映射集,所述用户能力标签映射集是指与用户能力标签相关的标签集合;根据所述用户能力标签映射集和用户的被分组信息分析出第一维度的用户能力标签信息;其中,所述用户能力标签信息包括用户能力标签及其对应的权重;根据所述用户能力标签映射集和用户的自填信息分析出第二维度的用户能力标签信息;根据所述用户能力标签映射集和用户的内容信息分析出第三维度的用户能力标签信息;根据所述第一、第二、第三维度的用户能力标签信息中的至少其一,确定出转行用户。
【技术特征摘要】
【专利技术属性】
技术研发人员:李金奎,
申请(专利权)人:微梦创科网络科技中国有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。