本发明专利技术提供了一种社交群组识别方法,该方法包括:统计用户节点间的会话内容和关系,基于上述统计结果来识别特定社交群组。本发明专利技术提出了一种社交群组识别方法,有效提高互联网社交组群的识别准确率和时效性。
【技术实现步骤摘要】
本专利技术涉及大数据,特别涉及一种社交群组识别方法。
技术介绍
随着移动互联网的发展,将生活中的社交关系迁移到了互联网上,带来了信息交换方式的变革,而且改变了传统的人际沟通方式,对社会生活的各个领域具有深远的意义。用户之间可以广泛地沟通、互动,通过撰写、中转、收藏等手段对文本数据进行操作。在社交网络中,总存在部分节点连接比较紧密,而这些节点同其他节点之间的联系则相对稀疏,由此可将这部分连接紧密的节点归为同一个群组。群组作为一种重要的社交关系属性,无形中给舆情控制以及网络监管带来了巨大的挑战。如果没有对群组关系进行充分识别识别,则无法识别群组兴趣,推荐感兴趣内容,更无法及时发现危害信息,维护良好的网络环境。
技术实现思路
为解决上述现有技术所存在的问题,本专利技术提出了一种社交群组识别方法,包括:统计用户节点间的会话内容和关系,基于上述统计结果来识别特定社交群组。优选地,所述统计用户节点间的会话内容和关系,进一步包括:利用数据结构对会话过程进行描述;将参与会话的用户以关系连接在一起,构建成基于单个事件的群组;最后在社交关系拓扑中采用节点衡量指标识别强关系群组中的节点,最后以树形的层级结构将该事件存储至文件;其中所述强关系群组具体定义为,如果已知群组α满足:对于群组α内的每个用户节点i,均满足i与群组α内节点构成的节点数量大于该节点与群组α外节点构成的节点数量,则群组α被称为强关系群组;获取每个会话拓扑中包含的指向上级节点的备注信息,找到某个特定节点的父节点,获取每条会话所维护的中转列表,记录所有中转该信息的用户以及评论,由此发现该信息节点的子节点集;在会话树的基础上,通过用户之间的关系,将参与会话的节点构建成关系网络;在获取社交关系时,获取共同关注列表,利用每个节点L完成对参与事件会话用户u的关注,如果ui关注了uj,则节点L与ui具有共同关注,即uj节点;通过这种方式得到ui是否关注了群组内的其他节点;提取候选用户的语义信息,在此基础上将语义信息与会话标题匹配的用户筛选出来作为相同语义用户,再对相同语义用户进行社交关系分析,对于符合分析结果的用户筛选出来作为新的候选用户;候选用户又分为文本相关用户和关系相关用户;在每一次的迭代过程中关系相关用户通过语义分析产生文本相关用户,再计算文本相关用户的会话标题关联度阈值,从而得到目标群组;初始候选用户集合利用搜索引擎获取,具体步骤如下:获得群组特征词,在搜索引擎中进行检索,对检索的结果进行抓取,获得发表文本内容的用户的链接信息,通过分析上述用户的链接信息,对每个用户的社交内容进行抓取,作为初始化候选用户;对用户的会话文本进行分析,通过计算用户会话标题关联度来比较每个用户与特定会话标题之间的相关程度,若存在第i次模型迭代后的关系用户集合,为了得到第i+1次的文本相关用户集合,对关系用户集合中的每一个元素即每一个文本相关用户,给定语义关键词,计算每个文本相关用户的会话标题关联度;用户i的会话标题关联度等于该用户出现关键词的次数除以用户的文本总数;在得到了文本相关用户集合之后,计算文本相关用户的不重复的会话标题关联度值的个数,进而得到群组节点的阈值;若计算第i次迭代后的文本相关用户有M个,其中非重复的用户有MU个;则群组节点的前N个用户表达为:对M个文本相关用户按照会话标题关联度值降序排列,排序后的前N个用户是有效的,即这前N个用户是群组中的一员;得到N个用户之后就可以将他们作为群组节点加入群组节点集合。本专利技术相比现有技术,具有以下优点:本专利技术提出了一种社交群组识别方法,有效提高互联网社交组群的识别准确率和时效性。附图说明图1是根据本专利技术实施例的社交群组识别方法的流程图。具体实施方式下文与图示本专利技术原理的附图一起提供对本专利技术一个或者多个实施例的详细描述。结合这样的实施例描述本专利技术,但是本专利技术不限于任何实施例。本发明的范围仅由权利要求书限定,并且本专利技术涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本专利技术的透彻理解。出于示例的目的而提供这些细节,并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本专利技术。本专利技术的一方面提供了一种社交群组识别方法。图1是根据本专利技术实施例的社交群组识别方法流程图。为了完成对社交网络的群组分析,首先建立数据采集系统对社交网站服务器上的数据进行采集,其中数据类型包括:用户信息如用户ID、用户名、文本数据如会话ID、会话文本,以及关系数据如关注列表与关注者列表。该系统包含以下模块:用户信息获取、文本数据获取、社交关系生成、去冗余、多线程、数据存储、优先级选择、令牌批量获取。数据采集系统中的主控线程进行权限认证、程序初始化、种子节点读取、过滤、数据库操作;数据获取线程借助API开放接口进行数据采集,采集过程包括接口请求、json数据解析、指针更新,最终返回给主控线程总数据列表。在去冗余计算的选择上,本专利技术采用二进制向量和一系列随机映射函数。为抓取种子ID列表、用户ID列表、关系列表、会话ID分别添加了去冗余函数,种子列表,抓取用户列表、社交列表均以其唯一标识ID进行,而关系的格式则将两个用户的ID组合到一起,并区分两者的先后顺序,前者为被关注,后者为前者的关注者。系统在多个模块添加了相应操作:提取种子ID时,多线程对数据库的操作添加互斥锁;为每个线程分配抓取任务,如线程1只负责文本的获取;线程2获取用户个人信息;为每个线程令牌资源库进行区分式排列组合。并为每个线程单独设置一个断点文件,记录抓取的位置。数据库模块将数据库连接、关闭、查询、增加、删除操作进行统一管理,抓取对象的ID首先由人工方式输入至文件,每次开始抓取任务之前都加载一遍优先级文件。在分任务处理中在抓取对象上,为每个线程制定一套特定的抓取任务,从用户信息获取、文本获取、关系获取中选取的一个或多个处理目标。从速度的控制上系统共提出了两种调节方式,一是控制线程的数量,二是调整API请求后获取的数据量。用户个人属性可以反映出用户的特性,而这种特性恰好提供了识别群组所需的强特征。本专利技术首先通过人工方式对待识别的群组进行描述,并按照这些群组特性抽象出一组关键词列表,即群组特征词。其次,利用用户信息过滤模块对检测到的用户进行识别,发现属于该群组的用户节点。在过滤过程中采用字符串正则匹配将用户个人属性与群组特征词进行匹配,如果在用本文档来自技高网...
【技术保护点】
一种社交群组识别方法,其特征在于,包括:统计用户节点间的会话内容和关系,基于上述统计结果来识别特定社交群组。
【技术特征摘要】
1.一种社交群组识别方法,其特征在于,包括:
统计用户节点间的会话内容和关系,基于上述统计结果来识别特定社交群
组。
2.根据权利要求1所述的方法,其特征在于,所述统计用户节点间的会话
内容和关系,进一步包括:
利用数据结构对会话过程进行描述;将参与会话的用户以关系连接在一
起,构建成基于单个事件的群组;最后在社交关系拓扑中采用节点衡量指标识
别强关系群组中的节点,最后以树形的层级结构将该事件存储至文件;其中所
述强关系群组具体定义为,如果已知群组α满足:对于群组α内的每个用户节点i,
均满足i与群组α内节点构成的节点数量大于该节点与群组α外节点构成的节点
数量,则群组α被称为强关系群组;
获取每个会话拓扑中包含的指向上级节点的备注信息,找到某个特定节点
的父节点,获取每条会话所维护的中转列表,记录所有中转该信息的用户以及
评论,由此发现该信息节点的子节点集;在会话树的基础上,通过用户之间的
关系,将参与会话的节点构建成关系网络;在获取社交关系时,获取共同关注
列表,利用每个节点L完成对参与事件会话用户u的关注,如果ui关注了uj,
则节点L与ui具有共同关注,即uj节点;通过这种方式得到ui是否关注了群组
内的其他节点;
提取候选用户的语义信息,在此基础上将语义信息与会话标题匹配的用户
筛选出来作为相同语义用户,再对相同语义用户进行社交关系分析,对于...
【专利技术属性】
技术研发人员:董政,吴文杰,陈露,李学生,
申请(专利权)人:成都陌云科技有限公司,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。