本发明专利技术涉及智能预测领域,尤其涉及基于文本导向的人格预测方法、标注方法、系统及设备。一种基于文本导向的人格预测方法,包括:获取用户的文本数据;将所述文本数据输入到人格预测模型中得到用户的人格预测画像;其中,所述人格预测模型包括多个预测子模型;所述预测子模型为基于一类人格训练数据对预训练模型进行训练得到;所述人格训练数据基于协同编码的数据标注任务得到。基于用户的文本导向预测用户的人格特征,使用多个用于检测一类人格特征的预测子模型分别对文本数据进行预测,进而综合得到用户的人格画像,兼顾了用户人格的复杂性,使预测更为准确,更加符合人格特征。更加符合人格特征。更加符合人格特征。
【技术实现步骤摘要】
基于文本导向的人格预测方法、标注方法、系统及设备
[0001]本专利技术涉及智能预测领域,尤其涉及基于文本导向的人格预测方法、标注方法、系统及设备。
技术介绍
[0002]在人格心理学的发展中,有许多人格模型被提出,其中以大五模型最为经典:所有人都可以被归类到五种人格范畴(包括外向性、宜人性、开放性、责任性、神经质)中。而人工智能技术的突飞猛进则促使人们开始思考:大五人格范畴能否由传统的问卷评测转向自动分类,从而节省大量的人力物力?事实上,近几年已经有许多这方面的尝试,主要集中在社交媒体领域。例如,通过对社交媒体用户建立人格画像后,可以进一步针对用户的大五人格特征精准推荐,大大降低广告投放的费用。除此之外,人格画像也可以实时监控网民的心理健康,反映舆论的发展历程。另外,人格画像还可以作为一个预测项,预测选举等大规模投票事件的结果。这些案例都说明了大五人格范畴的自动分类是一项非常值得研究且实用的技术。
[0003]目前已有的人格类预测的专利文献工作主要将社交文本数据(例如公开号为CN113688624A的专利文献《一种基于语言风格的人格预测方法及装置》)或用户个人数据(例如公开号为CN115587263A的专利文献《基于社交网络数据的社会心理预测方法》),又或者是结合两类数据(例如公开号为CN108399575A的专利文献《一种基于社交媒体文本的大五人格预测方法》)与大五人格范畴相关联,作为训练数据。而训练数据中大五人格标签的主要来源是社会调查数据(例如公开号为CN113688624A的专利文献)、开源数据集(例如公开号为CN112364638A的专利文献《一种基于社交文本的人格识别方法》)和人工问卷(例如公开号为CN106649267A的专利文献《一种通过文本主题挖掘推测用户大五人格的方法及系统》)。
[0004]但这些研究普遍存在一个问题:数据输入都是用户导向的。这意味着需要先确认用户的大五人格标签,再将涉及该用户的所有数据打上同样的标签。这种自顶而下的做法相当于否认了个体的复杂性:某类人格范畴的用户只能产生该类型的数据。但事实上,五类人格范畴之间互不排斥,不应该认为一个表现出外向性的用户,其所有言论都是外向性的。更合理的假设应该是:一个外向性的用户同样有其它人格范畴的发言。用户之所以被标记为外向性,仅仅是因为其外向性发言可能占比最高。因此,需要研发一种新的人格预测框架,既可以使用较少的数据量,又可以给出具有一定人格复杂度的预测画像。
[0005]另外,当前人格预测以用户整体数据为导向研究,其编码流程不适用于单条文本为单位的数据。而且,目前常见的数据编码流程又无法保证大五人格这类心理特征数据的编码质量,因此需要设计全新的人格预测方法的编码流程。
技术实现思路
[0006]鉴于上述现有技术的不足之处,本专利技术的目的在于提供基于文本导向的人格预测
方法、标注方法、系统及设备,能够解决现有技术不能够给出用户复杂人格预测的问题。
[0007]为了达到上述目的,本专利技术采取了以下技术方案:一方面,本专利技术提供一种基于文本导向的人格预测方法,包括:获取用户的文本数据;将所述文本数据输入到人格预测模型中得到用户的人格预测画像;其中,所述人格预测模型包括多个预测子模型;所述预测子模型为基于一类人格训练数据对预训练模型进行训练得到;所述人格训练数据基于协同编码的数据标注任务得到。
[0008]进一步的,所述文本数据包括多条第一内容文本;所述人格预测数据获取过程具体包括:将所述第一内容文本分别投入到多个预测子模型中,得到每个所述预测子模型的预测值;汇总所述文本数据中所有所述第一内容文本在每个所述预测子模型中的预测值,得到所述人格预测画像。
[0009]进一步的,基于协同编码的数据标注任务具体包括:接收针对同一人格范畴的相同文本数据的多个标注数据;所述文本数据包括多条第二内容文本;所述标注数据包括多条针对所述第二内容文本的标注信息;基于预定规则确定所述第二内容文本的最终标注信息,得到对应所述人格范畴的人格训练样本;所述预定规则包括:针对同一所述第二内容文本,当多个标注数据中的标注信息全部或超过预定比例的数量相同,且无异常情况存在时,则将该标注信息作为所述第二内容文本的最终标注信息;否则,构建多个编码员之间的互动平台,并接收对应所述第二内容文本的最终标注信息;汇总所有所述第二内容文本对应的所述人格训练样本得到所述人格训练数据。
[0010]进一步的,所述标注信息包括针对该人格范畴的高度契合性、中度契合性、低度契合性;所述异常情况包括:针对同一所述第二内容文本,多个所述标注信息中同时出现高度契合性和低度契合性的标注信息;所述标注信息为存疑状态。
[0011]进一步的,所述文本数据的获取步骤包括:获取目标网站的原始数据,进行第一预处理得到所述文本数据;所述第一预处理包括去重、去特殊符号、删除字符长度小于预定值的内容文本;对所述文本数据执行第二预处理,得到筛选后的文本数据;所述第二预处理包括:根据与所述标注任务相关的关联数据对所述文本数据中的内容文本进行加权计分,选择分值靠前预定比例的内容文本作为筛选后的文本数据。
[0012]进一步的,一份所述标注数据由一位编码员执行一次编码任务得到;所述数据标注方法还包括评估操作;所述评估操作包括:获取编码员的等级分;其中,基于第一评测操作和第二评测操作更新编码员的等级分;
若是所述等级分低于预定值则提示风险信息和/或给出建议信息;所述第一评测操作为:基于随机抽样预定比例的内容文本的最终标注信息与复核数据对比得到评测准确率,进而更新编码员的等级分;所述复核数据为评估员针对抽样的内容文本所做的标注数据,所述预定比例基于历次评估时的准确率得到;所述第二评测操作为:将一份所述标注数据输入到空模型中进行训练得到模型准确率,进而更新编码员的等级分。
[0013]另一方面,本专利技术提供一种基于协同编码的数据标注方法,包括:接收针对同一人格范畴的相同文本数据的多个标注数据;所述文本数据包括多条第二内容文本;所述标注数据包括多条针对所述第二内容文本的标注信息;基于预定规则确定所述第二内容文本的最终标注信息,得到对应所述人格范畴的人格训练样本;所述预定规则包括:针对同一所述第二内容文本,当多个标注数据中的标注信息全部或超过预定比例的数量相同,且无异常情况存在时,则将该标注信息作为所述第二内容文本的最终标注信息;否则,构建多个编码员之间的互动平台,并接收对应所述第二内容文本的最终标注信息;汇总所有所述第二内容文本对应的所述人格训练样本得到人格训练数据。
[0014]另一方面,本专利技术提供一种系统,其特征在于,包括:数据获取模块,用于获取用户的文本数据;预测模块,用于将所述文本数据输入到人格预测模型中得到用户的人格预测画像;其中,所述人格预测模型包括多个预测子模型;所述预测子模型为基于一类人格训练数据对预训练模型进行训练得到;所述人格训练数据基于协同编码的数据标注任务得到;或者包括:数据接收模块,用于接收针对同一人格范畴的相同文本数据的多个标注数据;所述文本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于文本导向的人格预测方法,其特征在于,包括:获取用户的文本数据;将所述文本数据输入到人格预测模型中得到用户的人格预测画像;其中,所述人格预测模型包括多个预测子模型;所述预测子模型为基于一类人格训练数据对预训练模型进行训练得到;所述人格训练数据基于协同编码的数据标注任务得到。2.在根据权利要求1所述的基于文本导向的人格预测方法,其特征在于,所述文本数据包括多条第一内容文本;所述人格预测数据获取过程具体包括:将所述第一内容文本分别投入到多个预测子模型中,得到每个所述预测子模型的预测值;汇总所述文本数据中所有所述第一内容文本在每个所述预测子模型中的预测值,得到所述人格预测画像。3.根据权利要求1所述的基于文本导向的人格预测方法,其特征在于,基于协同编码的数据标注任务具体包括:接收针对同一人格范畴的相同文本数据的多个标注数据;所述文本数据包括多条第二内容文本;所述标注数据包括多条针对所述第二内容文本的标注信息;基于预定规则确定所述第二内容文本的最终标注信息,得到对应所述人格范畴的人格训练样本;所述预定规则包括:针对同一所述第二内容文本,当多个标注数据中的标注信息全部或超过预定比例的数量相同,且无异常情况存在时,则将该标注信息作为所述第二内容文本的最终标注信息;否则,构建多个编码员之间的互动平台,并接收对应所述第二内容文本的最终标注信息;汇总所有所述第二内容文本对应的所述人格训练样本得到所述人格训练数据。4.根据权利要求3所述的基于文本导向的人格预测方法,其特征在于,所述标注信息包括针对该人格范畴的高度契合性、中度契合性、低度契合性;所述异常情况包括:针对同一所述第二内容文本,多个所述标注信息中同时出现高度契合性和低度契合性的标注信息;所述标注信息为存疑状态。5.根据权利要求3所述的基于文本导向的人格预测方法,其特征在于,所述文本数据的获取步骤包括:获取目标网站的原始数据,进行第一预处理得到所述文本数据;所述第一预处理包括去重、去特殊符号、删除字符长度小于预定值的内容文本;对所述文本数据执行第二预处理,得到筛选后的文本数据;所述第二预处理包括:根据与所述标注任务相关的关联数据对所述文本数据中的内容文本进行加权计分,选择分值靠前预定比例的内容文本作为筛选后的文本数据。6.根据权利要求3所述的基于文本导向的人格预测方法,其特征在于,一份所述标注数据由一位编码员执行一次编码任务得到;所述数据标注方法还包括评估操作;所述评估操作包括:获取编码员的等级分;其中,基于第一评测操作和第二评测操作更新编码员的等级分;若是所述等级分低于预定值则提示风险信息和/或给出建议信息;
所述第一...
【专利技术属性】
技术研发人员:刘冠,雷力,赖凯声,支庭荣,
申请(专利权)人:暨南大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。