本发明专利技术公开一种互联网虚拟身份特征信息的获取方法及装置,其方法包括:利用网络采集工具采集互联网虚拟身份的网络数据源;对采集的网络数据源进行分析识别,并针对不同的互联网虚拟身份标注相应的主题信息,获取互联网虚拟身份的特征信息。本发明专利技术通过网络采集工具采集互联网虚拟身份的网络数据源,能全面收集互联网虚拟身份的网络原始数据,并根据该网络数据源对互联网虚拟身份标注相应的主题信息,由此,可获取基于互联网虚拟身份的兴趣爱好标注主题信息的特征信息,更加准确的反映了不同互联网虚拟身份的网络需求、行为等特征,为研究互联网虚拟身份的网络行为打下良好的基础。
【技术实现步骤摘要】
【专利摘要】本专利技术公开一种互联网虚拟身份特征信息的获取方法及装置,其方法包括:利用网络采集工具采集互联网虚拟身份的网络数据源;对采集的网络数据源进行分析识别,并针对不同的互联网虚拟身份标注相应的主题信息,获取互联网虚拟身份的特征信息。本专利技术通过网络采集工具采集互联网虚拟身份的网络数据源,能全面收集互联网虚拟身份的网络原始数据,并根据该网络数据源对互联网虚拟身份标注相应的主题信息,由此,可获取基于互联网虚拟身份的兴趣爱好标注主题信息的特征信息,更加准确的反映了不同互联网虚拟身份的网络需求、行为等特征,为研究互联网虚拟身份的网络行为打下良好的基础。【专利说明】互联网虚拟身份特征信息的获取方法及装置
本专利技术涉及互联网
,尤其涉及一种互联网虚拟身份特征信息的获取方法及装置。
技术介绍
随着网络技术的飞速发展,互联网已经成为人们日常工作和生活的重要平台,我国网民数量也已经达到数亿的规模。面对日益庞大的互联网虚拟身份数量,需对其进行有效监管。而监管的基础则在于准确全面的获取互联网虚拟身份的各种特征信息,包括个体特征和社会网络关系特征等信息,从而能采取针对性的应对措施,这对国家安全和社会稳定都有着重大意义,如通过分析不同互联网虚拟身份的社会网络关系,可以发现某些不利于社会稳定的谣言的传播模式,并根据互联网虚拟身份之间的关系进行追踪和阻断。 面对海量分布的网上行为数据和网络内容信息,现有技术中获取互联网虚拟身份特征信息的方法主要是通过网络流量探针来获取原始数据,再根据获取的原始数据进行简单的查询和匹配,但由于网络流量探针所能获取的网络流量数据有限,其分析计算能力也有局限性,尤其是对Web访问数据的获取能力比较弱,因此网络流量探针无法全面的收集反映互联网虚拟身份特征信息的数据,获取的原始数据来源单一,致使获取的原始数据不完整且存在大量噪音数据,也使得后续的查询和匹配缺乏深度的内容挖掘和关系挖掘。
技术实现思路
本专利技术的主要目的在于提供一种互联网虚拟身份特征信息的获取方法及装置,旨在全面准确的获取互联网虚拟身份的特征信息。 为了达到上述目的,本专利技术提出一种互联网虚拟身份特征信息的获取方法,包括: 利用网络采集工具采集互联网虚拟身份的网络数据源; 对采集的网络数据源进行分析识别,并针对不同的互联网虚拟身份标注相应的主题信息,获取互联网虚拟身份的特征信息。 优选地,所述利用网络采集工具采集互联网虚拟身份的网络数据源的步骤包括: 通过网络采集工具获取互联网虚拟身份的上网行为数据、内容数据及虚拟身份数据,其中,所述网络采集工具为基于增量学习的主题爬虫,其每次爬行过程均基于以往爬行的知识库,依次进行不断的增量学习; 根据所述上网行为数据、内容数据及虚拟身份数据,形成互联网虚拟身份的网络数据源。 优选地,所述对采集的网络数据源进行分析识别,并针对不同的互联网虚拟身份标注相应的主题信息的步骤包括: 基于多分类器集成技术对所述网络数据源进行分析,挖掘获取所述网络数据源的多侧面数据; 根据所述多侧面数据进行主题分类并针对不同的互联网虚拟身份标注相应的主题息。 优选地,所述对采集的网络数据源进行分析识别,并针对不同的互联网虚拟身份标注相应的主题信息,获取互联网虚拟身份的特征信息的步骤之后还包括: 根据标注的主题信息提取不同互联网虚拟身份之间的关系特征; 根据提取的关系特征识别不同互联网虚拟身份组成的虚拟社区; 根据所述虚拟社区提取互联网虚拟身份的社会网络关系特征信息。 优选地,所述根据提取的关系特征识别不同互联网虚拟身份组成的虚拟社区的步骤包括: 根据提取的关系特征计算互联网虚拟身份之间的双向意识关系值; 基于双向意识关系值,采用网页排名算法对互联网虚拟身份进行排序,找出网页排名达到预设值的互联网虚拟身份,并形成一互联网虚拟身份种子集合; 根据该互联网虚拟身份种子集合及关联聚类算法识别发现不同互联网虚拟身份组成的虚拟社区。 本专利技术还提出一种获取互联网虚拟身份特征信息的装置,包括: 采集模块,用于利用网络采集工具采集互联网虚拟身份的网络数据源; 标注获取模块,用于对采集的网络数据源进行分析识别,并针对不同的互联网虚拟身份标注相应的主题信息,获取互联网虚拟身份的特征信息。 优选地,所述采集模块用于: 通过网络采集工具获取互联网虚拟身份的上网行为数据、内容数据及虚拟身份数据,其中,所述网络采集工具为基于增量学习的主题爬虫,其每次爬行过程均基于以往爬行的知识库,依次进行不断的增量学习;根据所述上网行为数据、内容数据及虚拟身份数据,形成互联网虚拟身份的网络数据源。 优选地,所述标注获取模块包括: 挖掘单元,用于基于多分类器集成技术对所述网络数据源进行分析,挖掘获取所述网络数据源的多侧面数据; 标注单元,用于根据所述多侧面数据进行主题分类并针对不同的互联网虚拟身份标注相应的主题信息。 优选地,该获取互联网虚拟身份特征信息的装置还包括: 虚拟社区识别模块,用于根据标注的主题信息提取不同互联网虚拟身份之间的关系特征,根据提取的关系特征识别不同互联网虚拟身份组成的虚拟社区,并根据所述虚拟社区提取互联网虚拟身份的社会网络关系特征信息。 优选地,所述虚拟社区识别模块用于: 根据提取的关系特征计算互联网虚拟身份之间的双向意识关系值;基于双向意识关系值,采用网页排名算法对互联网虚拟身份进行排序,找出网页排名达到预设值的互联网虚拟身份,并形成一互联网虚拟身份种子集合;根据该互联网虚拟身份种子集合及关联聚类算法识别发现不同互联网虚拟身份组成的虚拟社区。 本专利技术提出的一种互联网虚拟身份特征信息的获取方法及装置,通过网络采集工具采集互联网虚拟身份的网络数据源,能全面收集互联网虚拟身份的网络原始数据,并根据该网络数据源对互联网虚拟身份标注相应的主题信息,由此,可获取基于互联网虚拟身份的兴趣爱好标注主题信息的特征信息,更加准确的反映了不同互联网虚拟身份的网络需求、行为等特征,为研究互联网虚拟身份的网络行为打下良好的基础。 【专利附图】【附图说明】 图1是本专利技术互联网虚拟身份特征信息的获取方法第一实施例的流程示意图; 图2是本专利技术互联网虚拟身份特征信息的获取方法第一实施例中利用网络采集工具采集互联网虚拟身份的网络数据源的示意图; 图3是本专利技术互联网虚拟身份特征信息的获取方法第一实施例中主题爬虫的爬行过程示意图; 图4是图1中步骤S102的细化流程图; 图5是本专利技术互联网虚拟身份特征信息的获取方法第二实施例的流程示意图; 图6是本专利技术获取互联网虚拟身份特征信息的装置第一实施例的结构示意图; 图7是本专利技术获取互联网虚拟身份特征信息的装置第一实施例中标注获取模块的结构不意图; 图8是本专利技术获取互联网虚拟身份特征信息的装置第二实施例的结构示意图。 为了使本专利技术的技术方案更加清楚、明了,下面将结合附图作进一步详述。 【具体实施方式】 本专利技术较佳实施例的解决方案主要是:通过网络采集工具采集互联网虚拟身份的网络数据源,能收集互联网虚拟身份的网络虚拟身份数据,并根据该网络数据源对互联网虚拟身份标注相应的主题信息,由此,可获取基于互联网虚拟身份的兴趣爱好标注本文档来自技高网...
【技术保护点】
一种互联网虚拟身份特征信息的获取方法,其特征在于,包括:利用网络采集工具采集互联网虚拟身份的网络数据源;对采集的网络数据源进行分析识别,并针对不同的互联网虚拟身份标注相应的主题信息,获取互联网虚拟身份的特征信息。
【技术特征摘要】
【专利技术属性】
技术研发人员:刘广建,李小宜,
申请(专利权)人:李小宜,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。