【技术实现步骤摘要】
一种基于行为大数据的统计学人格计算方法
本专利技术涉及大数据处理
,具体涉及一种基于行为大数据的统计学人格计算方法。
技术介绍
目前在高校内甚至在社会上,对人格计算的主流和广泛使用的方法还是自陈量表,所谓自陈量表,是指根据需要测量的人格特征编写与之对应的项目,然后要求被试者根据自己的实际情况或感受来评价其与项目描述的符合程度,从而最终对用户的人格特征进行评定的方法,其中比较著名的就是基于“五因素人格模型”理论的大五人格问卷。对于自陈量表方法进行人格计算的价值,是不能否认的,然而由于自陈量表需要用户填写,不仅需要耗费大量的人力、物力,也难以有效实现针对大规模用户的实时测量,而且用户在接受调查的过程中存在着主观因素或有意回避真实的情况,导致人格计算结果的误差大,同时也会由于问题设置的比较多,也会引起用户的厌烦。此外,随着互联网技术和计算机技术的发展,虽然很多专家和研究者已经通过使用网络上外显的行为数据进行人格计算的研究,其中包括对网络社交文本分析进行人格计算、对新闻评论分析进行人格计算、对微博用户的行为数据分析进行人格计算等,并且也取得了显著的研究成果,但是这些研究大多限制于单一的数据种类,例如只对社交类网站公开的网络数据进行研究,缺乏将高校中产生的社会活动外显行为数据及网络外显行为数据应用于人格计算的研究,同时这些研究是面向社会采集的、网站上公开的网络数据,移植到空间相对狭小的高校后很难采集到大量的符合上述研究要求的学生的网络数据,因此在高校中并不能发挥已有研究的优势之处。专利技术 ...
【技术保护点】
1.一种基于行为大数据的统计学人格计算方法,其特征在于:包括以下步骤:/nS1、根据“五因素人格模型”理论,并结合高校积累的行为大数据,确定能够支持计算五个人格维度的人格子维度、各人格子维度分数的比例、支持人格子维度计算的数据部分及各个数据部分的分数的比例;/nS2、对高校大数据进行预处理、抽取、转换操作,得到S1中确定的数据部分;/nS3、计算各个数据部分的分数;/nS4、根据S1中确定的人格子维度与数据部分的对应关系以及S3中数据部分的分数数据,计算各人格子维度的评分;/nS5、根据S1中确定的五个人格维度与人格子维度的对应关系以及S4中各人格子维度的分数,计算五个人格维度的评分;/nS6、采集大五人格问卷的评分;/nS7、综合分析上述两种人格评分的结果,得出结论。/n
【技术特征摘要】
1.一种基于行为大数据的统计学人格计算方法,其特征在于:包括以下步骤:
S1、根据“五因素人格模型”理论,并结合高校积累的行为大数据,确定能够支持计算五个人格维度的人格子维度、各人格子维度分数的比例、支持人格子维度计算的数据部分及各个数据部分的分数的比例;
S2、对高校大数据进行预处理、抽取、转换操作,得到S1中确定的数据部分;
S3、计算各个数据部分的分数;
S4、根据S1中确定的人格子维度与数据部分的对应关系以及S3中数据部分的分数数据,计算各人格子维度的评分;
S5、根据S1中确定的五个人格维度与人格子维度的对应关系以及S4中各人格子维度的分数,计算五个人格维度的评分;
S6、采集大五人格问卷的评分;
S7、综合分析上述两种人格评分的结果,得出结论。
2.如权利要求1所述的一种基于行为大数据的统计学人格计算方法,其特征在于:S2步骤具体为:
S21、根据S1中确定的数据部分,爬取高校大数据中用户浏览的网页文本内容,使用分词工具并根据SC-LIWC心理学词典,统计SC-LIWC中的语言情感特征出现的次数及占总次数的比例,作为浏览网页文本内容的特征向量;
S22、根据S1中确定的数据部分,通过高校大数据中监控系统的人脸识别数据,获取识别到的人脸图像,再通过人脸表情识别程序分析并得到人脸图像中的表情数据;
S23、去除S21和S22中包含的非学生用户数据、空数据及错误数据;
S24、对经过S23预处理后的数据,根据S1数据部分的要求,对象上按用户、时间上按学期和周进行汇总,并对按周汇总的数据进行量化处理。
3.如权利要求2所述的一种基于行为大数据的统计学人格计算方法,其特征在于:S24步骤中,按周汇总数据的计算方式为:
汇总:
对按周汇总数据中规律性的行为通过标准差的方式进行量化处理,量化的计算方式如下:
标准差:
再通过求比例对汇总数据进行归一化处理,最终得到归一化后的数据(data_norm),计算方式如下:
归一化:
其中:
i为从上到下的第i个人格维度;
xi为第i个人格维度一周的汇总数据;
x为第i个人格维度一周的汇总数据result_data或量化后的数据s;
x*为第i个人格维度一周数据归一化后的数据(data_norm)。
4.如权利要求1所述的一种基于行为大数据的统计学人格计算方法,其特征在于:S3步骤包括:
S31、以5分制计算每个学生各数据部分的评分,并给出置信值brief_data,置信值的计算方式如下;
其中:
cur_data为当前学生的一个数据部分的量化值;
max_data该数据部分的最大量化值;
S32、根据S2处理后的每个数据部分,计算每个数据部分的全校平均值data_norm_avg;
S33、将每个数据部分的全校平均值扩大倍数α,并根据平均值和扩大倍数α得到评分的标准分数线;
S34、根据标准分数线,结合S2中处理后的数据部分,对每个学生的每个数据部分进行计算评分,评分的计算方式如下:
其中:
α1<α2,初始α1=1,α2=2。
5.如权利要求4所述的一种基于行为大数据的统计学人格计算方法,其特征在于:S4步骤中,人格子维度的评分计算公式如下:
其中:
i表示表2从上到下的第i个人格维度;
j表示第j个人格维度的第j个人格子维度;
k表示第k个人格维度的第k个数据部分;
n表示第...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。