基于信息熵的社交网络用户分析方法和装置制造方法及图纸

技术编号:15504121 阅读:60 留言:0更新日期:2017-06-04 00:15
本发明专利技术公开了一种社交网络用户分析方法,获取信息A,以及发布时期T;获取在所述时期T所选定的社交网络上的全部用户所发布的信息全集B,以及嫌疑用户Z所发布的信息全集D;计算单词W

Method and device for analyzing social network user based on information entropy

The invention discloses an analysis method for social network users to obtain information, A, and T to get all the release period; the user selected in the period of T on the social network of the information released by the complete B, and released a suspected Z users complete D information; calculating the word W

【技术实现步骤摘要】
基于信息熵的社交网络用户分析方法和装置
本专利技术涉及社交网络
,特别涉及一种基于信息熵的社交网络用户分析方法和装置。
技术介绍
随着互联网在人们日常生活中广泛地应用,社交网络服务(SocialNetworkService,简称社交网络)也便应运而生了。今年随着移动互联网的爆发式增长,借助性能日益强劲的智能手机以及各种手持终端设备,社交网络为人们在信息时代的非常方便与高效的信息交流与分享方式,并且使用社交网络已经成为了人们每天生活的习惯。由于不同的社交网络是由不同的服务商来进行运维和管理的,因此需要用户分别在各个社交网络平台上进行注册。因此,对存在两个问题点:一、有些社交网络允许用户不用注册就可以匿名发布信息;二、有些社交网站上会存在冒名顶替发布的信息的行为。人们总是希望在社交网络中的信息是可以被相信的,管理者以及用户可以凭借信息发布者的真实身份来判断是否相信被发布的信息。因此在社交网路之中需要一种判断真实用户身份的方法。特别是当真实用户本人已经不在人世或很难联系上,则无法由用户真实用户本人进行确认,这时候就特别需要一种真实身份判断方法解决这个难题。而现有技术主要是靠人工方式来判断某时期某匿名用户在社交网络上发布的信息是否为某嫌疑用户,或是哪一个用户在社交网络上发布的信息。这种人工方式的主要缺点为:对社交网络管理人员的综合素养要求非常高,并且其人工判断的结果客观性不足,不同的人可能有不同的判断;需要耗费社交网络服务商花费非常高的人工和时间成本。因此需要有一种采用人工智能的自动判断方法,依据客观的因素来进行自动的、无需人工干预的判别。
技术实现思路
本专利技术的主要目的在于提供一种社交网络用户分析方法和装置,旨在解决现有的人工判别方式对社交网络管理人员的综合素养要求非常高,并且其人工判断的结果客观性不足,不同的人可能有不同的判断,以及需要耗费社交网络服务商花费非常高的人工和时间成本的这一技术问题。为实现上述目的,本专利技术提供的一种社交网络用户分析方法,包括:获取需要判别用户身份是否为嫌疑用户Z的信息A及信息A的发布时期T;获取在所述时期T之内所选定的社交网络上的全部用户所发布的信息全集B,以及在所述时期T之内所选定的社交网络上的所述嫌疑用户Z所发布的信息全集D;通过预选单词集合中每一预选单词Wi在所述信息全集B之内的出现频率Pi来计算所述预选单词Wi在所述信息全集B中的信息量Ii,其中,所述信息量Ii的计算公式为Ii=-logb(Pi),b可设置为2、10、e或其他常量,i为所述预选单词Wi的序号,i从1至N,N为所述预选单词集合中的所述预选单词Wi的总数;通过所述预选单词集合中每一预选单词Wi在所述信息A之内的出现频率Ri,并结合所述单词Wi的所述信息量Ii,计算所述信息A之内单词信息熵Ha,其中,所述单词信息熵Ha的计算公式为Ha=I1×R1+I2×R2+…+IN×RN;根据所述单词Wi在所述信息全集D之内的信息Dj之内的出现频率Qji,并结合所述单词Wi的所述信息量Ii,计算所述信息Dj之内单词信息熵Hdj,其中,j为所述信息Dj的序号,j从1至M,M为所述信息全集D的信息总数,所述单词信息熵Hdj的计算公式为Hdj=I1×Qj1+I2×Qj2+…+IN×QjN;根据所述信息全集D之内的每一信息Dj的单词信息熵Hdj的大小,确定所述信息全集D的单词信息熵的大小范围;如果所述信息A之内单词信息熵Ha在所述信息全集D的单词信息熵的大小范围之内,则判定所述信息A为所述嫌疑用户Z所发布的;如果所述信息A之内单词信息熵Ha不在所述信息全集D之内的单词信息熵的大小范围之内,则不能判定所述信息A为所述嫌疑用户Z所发布的。优选的,所述根据所述信息全集D之内的每一信息Dj的单词信息熵Hdj的大小,确定所述信息全集D的单词信息熵的大小范围的步骤包括:计算所述单词信息熵Hdj的平均值U以及变化量V,其中U=(Hd1+Hd2+…+HdM)/M,V=(|Hd1-U|+|Hd2-U|+…+|HdM-U|)/M;设定区间[U-V,U+V]作为所述信息全集D的单词信息熵的大小范围。优选的,所述如果所述信息A之内单词信息熵Ha不在所述信息全集D之内的单词信息熵的大小范围之内,则不能判定所述信息A为所述嫌疑用户Z所发布的步骤包括:若所述单词信息熵Ha的值不在所述区间[U-V,U+V]内,不能判定所述信息A为所述嫌疑用户Z所发布。优选的,所述若所述单词信息熵Ha的值不在所述区间[U-V,U+V]内,不能判定所述信息A为所述嫌疑用户Z所发布的步骤还包括:获取所述单词信息熵Hdj的最大变化量Vmax,其中Vmax=max(|Hd1-U|,|Hd2-U|,…,|HdM-U|);若所述单词信息熵Ha的值在区间[U-Vmax,U+Vmax],判定所述信息A为所述嫌疑用户Z所发布的可信度为1-|U-Ha|/Vmax;若所述单词信息熵Ha的值不在所述区间[U-Vmax,U+Vmax],判定所述信息A不是所述嫌疑用户Z所发布的。优选的,所述获取需要判别用户身份是否为嫌疑用户Z的信息A及信息A的发布时期T的步骤包括:获取需要判别用户身份是否为嫌疑用户Z的信息A,以及所述信息A的发布时间S;将包含所述发布时间S在内的预设连续时间段作为所述信息A的发布时期T。优选的,所述预选单词集合包括所述信息全集B之内的不同单词所构成的集合或所有社交网络内的不同单词所构成的集合或所有不同单词所构成的集合。本专利技术进一步提供一种社交网络用户分析装置,包括:信息输入模块,用于获取需要判别用户身份是否为嫌疑用户Z的信息A,以及所述信息A的发布时期T;社交信息集获取模块,用于获取在所述时期T之内所选定的社交网络上的全部用户所发布的信息全集B,以及在所述时期T之内所选定的社交网络上的所述嫌疑用户Z所发布的信息全集D;信息量计算模块,用于通过所述信息全集B之内单词Wi出现频率Pi来计算所述单词Wi的信息量Ii,其中Ii=-log2(Pi),i为所述单词Wi的序号,i从1到N,N为单词的总数;单词信息熵Ha计算模块,用于通过所述信息A之内所述单词Wi的出现频率Ri,计算所述信息A之内单词信息熵Ha,其中Ha=I1×R1+I2×R2+…+IN×RN;单词信息熵Hdj计算模块,用于通过统计所述信息全集D之内的信息Dj之内所述单词Wi出现频率Qji,并结合所述单词Wi的所述信息量Ii,计算所述信息Dj之内所述单词信息熵Hdj,其中Hdj=I1×Qj1+I2×Qj2+…+IN×QjN,j为所述信息Dj的序号,j从1至M,M为所述信息全集D的信息总数;信息熵统计模块,用于计算所述单词信息熵Hdj的平均值U以及变化量V,其中U=(Hd1+Hd2+…+HdM)/M,V=(|Hd1-U|+|Hd2-U|+…+|HdM-U|)/M;用户身份判定处理模块,用于若所述单词信息熵Ha的值在区间[U-V,U+V]内时,判定所述信息A为所述嫌疑用户Z所发布的;用户身份未判定处理模块,用于若所述单词信息熵Ha的值不在所述区间[U-V,U+V]内时,不能判定所述信息A为所述嫌疑用户Z所发布的。优选的,所述信息熵统计模块,还用于获取所述单词信息熵Hdj的最大变化量Vmax,其中Vmax=max(|Hd1-U|,|本文档来自技高网...
基于信息熵的社交网络用户分析方法和装置

【技术保护点】
一种社交网络用户分析方法,其特征在于,包括:获取需要判别用户身份是否为嫌疑用户Z的信息A及信息A的发布时期T;获取在所述时期T之内所选定的社交网络上的全部用户所发布的信息全集B,以及在所述时期T之内所选定的社交网络上的所述嫌疑用户Z所发布的信息全集D;通过预选单词集合中每一预选单词W

【技术特征摘要】
1.一种社交网络用户分析方法,其特征在于,包括:获取需要判别用户身份是否为嫌疑用户Z的信息A及信息A的发布时期T;获取在所述时期T之内所选定的社交网络上的全部用户所发布的信息全集B,以及在所述时期T之内所选定的社交网络上的所述嫌疑用户Z所发布的信息全集D;通过预选单词集合中每一预选单词Wi在所述信息全集B之内的出现频率Pi来计算所述预选单词Wi在所述信息全集B中的信息量Ii,其中,所述信息量Ii的计算公式为Ii=-logb(Pi),b可设置为2、10、e或其他常量,i为所述预选单词Wi的序号,i从1至N,N为所述预选单词集合中的所述预选单词Wi的总数;通过所述预选单词集合中每一预选单词Wi在所述信息A之内的出现频率Ri,并结合所述单词Wi的所述信息量Ii,计算所述信息A之内单词信息熵Ha,其中,所述单词信息熵Ha的计算公式为Ha=I1×R1+I2×R2+…+IN×RN;根据所述单词Wi在所述信息全集D之内的信息Dj之内的出现频率Qji,并结合所述单词Wi的所述信息量Ii,计算所述信息Dj之内单词信息熵Hdj,其中,j为所述信息Dj的序号,j从1至M,M为所述信息全集D的信息总数,所述单词信息熵Hdj的计算公式为Hdj=I1×Qj1+I2×Qj2+…+IN×QjN;根据所述信息全集D之内的每一信息Dj的单词信息熵Hdj的大小,确定所述信息全集D的单词信息熵的大小范围;如果所述信息A之内单词信息熵Ha在所述信息全集D的单词信息熵的大小范围之内,则判定所述信息A为所述嫌疑用户Z所发布的;如果所述信息A之内单词信息熵Ha不在所述信息全集D之内的单词信息熵的大小范围之内,则不能判定所述信息A为所述嫌疑用户Z所发布的。2.如权利要求1所述的社交网络用户分析方法,其特征在于,所述根据所述信息全集D之内的每一信息Dj的单词信息熵Hdj的大小,确定所述信息全集D的单词信息熵的大小范围的步骤包括:计算所述单词信息熵Hdj的平均值U以及变化量V,其中U=(Hd1+Hd2+…+HdM)/M,V=(|Hd1-U|+|Hd2-U|+…+|HdM-U|)/M;设定区间[U-V,U+V]作为所述信息全集D的单词信息熵的大小范围。3.如权利要求2所述的社交网络用户分析方法,其特征在于,所述如果所述信息A之内单词信息熵Ha不在所述信息全集D之内的单词信息熵的大小范围之内,则不能判定所述信息A为所述嫌疑用户Z所发布的步骤包括:若所述单词信息熵Ha的值不在所述区间[U-V,U+V]内,不能判定所述信息A为所述嫌疑用户Z所发布。4.如权利要求3所述的一种社交网络用户分析方法,其特征在于,所述若所述单词信息熵Ha的值不在所述区间[U-V,U+V]内,不能判定所述信息A为所述嫌疑用户Z所发布的步骤包括:获取所述单词信息熵Hdj的最大变化量Vmax,其中Vmax=max(|Hd1-U|,|Hd2-U|,…,|HdM-U|);若所述单词信息熵Ha的值在区间[U-Vmax,U+Vmax],判定所述信息A为所述嫌疑用户Z所发布的可信度为1-|U-Ha|/Vmax;若所述单词信息熵Ha的值不在所述区间[U-Vmax,U+Vmax],判定所述信息A不是所述嫌疑用户Z所发布的。5.如权利要求1所述的一种社交网络用户分析方法,其特征在于,所述获取需要判别用户身份是...

【专利技术属性】
技术研发人员:朱定局汤庸
申请(专利权)人:华南师范大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1