当前位置: 首页 > 专利查询>清华大学专利>正文

一种基于社交网络媒体发帖信息的自杀风险检测方法技术

技术编号:28377135 阅读:29 留言:0更新日期:2021-05-08 00:04
本发明专利技术公开了一种基于社交网络媒体发帖信息的自杀风险检测方法,首先了解用户的正常帖子及其在树洞中隐藏评论之间的相关性,从用户公开的帖子中洞察用户内心的真实想法和情绪变化,进行心理压力预测;然后,据此检测用户的自杀风险。

【技术实现步骤摘要】
一种基于社交网络媒体发帖信息的自杀风险检测方法
本专利技术涉及自然语言
,尤其涉及一种基于社交网络媒体发帖信息的自杀风险检测方法。
技术介绍
自杀已经成为一个严重的问题,损害了全球人类社会的福祉。借助社交媒体,从人们的语言帖子中,自杀意念检测达到了最先进的水平,准确率达91%。过去已有的解决方案存在一个共同的问题:强调人们在社交媒体上的外在表达,而忽视了人们内心的真实想法和感受,而从相关社交网络中获取并了解人们隐藏的真实想法和感受,然后根据中间结果检测自杀意念,可以对自杀意向提供非常高的预测准确度,从而提前进行干预,避免悲剧。现有技术中,虽然已有相关的尝试,但没有具体有效的具有高检测准确率的基于社交网络媒体发帖信息的自杀风险检测方法。专利技术目的本专利技术的目的即在于解决现有技术中存在的不足,提供一种基于社交网络媒体发帖信息的自杀风险方法,从人们公开的微博帖子等社交网络媒体中了解人们隐藏的真实想法和感受,进行心理压力预测,然后根据中间结果检测自杀意念。
技术实现思路
本专利技术提供了一种基于社交网络媒体发帖信息的自杀风险检测方法,包括以下步骤:步骤1、了解用户在社交网络媒体中的公开发帖及其在树洞中的隐藏评论之间的相关性,从用户的公开发帖中洞察用户内心的真实想法和情绪变化;具体包括以下子步骤:子步骤S11:根据用户在社交网络媒体的公开发帖揭示用户内心的真实想法,令OP[1,t]=(O1,O2,...,Ot)表示用户第1周到第t周在社交网络媒体的公开发帖的发文序列,Oi为其第i周所发的周帖子集合,其中1≤i≤t;用户公开发帖包含文本句子和可视图片,将用户的每周发帖子集表示为Oi=(OSi,OPi),其中,OSi是一组句子,OPi是在第i周发布的一组图片;将用户在树洞中发布的隐藏评论表示为该隐藏评论反映了用户的真实内心想法;OP[1,t]与满足以下映射函数:其中,是类似Bert的向量表示,t称为映射函数的滑动窗口大小,t=26周,z=768;将大小为t的滑动窗口应用于从第1周到第n周的用户公开发帖帖子集O户[1,t],OP[2,t+1],...,OP[n-t+1,n],则生成了一系列基于Bert的隐藏注释其中,其中,t=26周,n=52周,相当于1年;子步骤S12:捕捉用户隐式情绪变化,首先定义从用户的每周帖子集中揭示的每周情绪的测量以及连续两周之间的情绪变化,将用户的情绪定义为快乐、爱、惊讶、生气、悲伤、焦急、厌恶共7类,表示为:EC={joy″,love,surprised,angry,sorrow,anxiety,hate″}.采用了汉语情绪词典DUTIR,获得了包含了所述7类情绪相关的共27466个词,将每一个词对应一个强度分数,其中用9表示最高强度,1表示最低强度,即EI={1,3,5,7,9};假设函数WordSet(c,i)返回DUTIR词典中强度分数为i的类别为c的单词集,其中,(c∈EC),(i∈EI);令S表示在用户在某周发布的一组语言句子,即S为用户在社交网络媒体的公开发帖的句子集或在树洞里发布的隐藏评论集,则,:从S中揭示的类别为c∈EC的情绪程度值是情绪类别c中的词的总情绪强度,表示为:其中,所有强度值均作归一化处理,代表所有公开发帖句子集中情绪类别为c的最大情绪强度,其中0≤e(S,c)≤1;将S所表示的七种情绪类别中的情绪程度呈现在一个7维向量中,表示为:其中,ci∈EC,根据周公开发帖句子集所呈现的情绪程度,计算连续两周之间的情绪变化;令Sk与Sk+1为第k周与第(k+1)周的公开发帖句子集,则Sk与Sk+1之间的情绪变化定义为:其中,1≤k≤n-1,ci∈EC;根据用户第t周的公开发帖句子集序列(OS1,OS2,…,OSt),导出用户从第1周到第t周的情绪变化序列:通过将用户的外部情绪变化序列映射到一个内部真实的情绪变化序列其中,1≤m≤t,以此模拟用户在树洞中从第m到第t周的隐藏评论所反映的情绪变化序列,如下述映射函数所示:对序列OE[1,t],OE[4,t+3],…,OE[n-t+1,n]应用大小为t和滑动步幅为3周的滑动窗口,产生对应的序列如下所示:CE[m,t],CE[t,t+(t-m)],…,CE[n-(t-m),n],其中此处,t=26周,m=23周,n=52周;步骤2、构建检测自杀风险的模型,根据用户从第t周到第n周的内心想法以及所得到的从第m周到第n周的情绪变化序列CE[m,t],CE[t,t+(t-m)],…,CE[n-(t-m),n],结合所使用的社交网络媒体的特征,检测得到自杀风险系数。优选地,所述步骤1中通过构建模型A来实现子步骤S11,具体包括以下三步:第一步:学习表示用户的周社交网络媒体发帖句子集O=(OS,OP),使用已知的自杀导向单词或词语嵌入,用300维向量表示所述发帖句子集O=(OS,OP),所述OS被转换成k×300的矩阵,如下所示:其中,k是OS中单词或词语总数量,是OS中第i个单词的词嵌入,1≤i≤m;一周社交网络媒体发帖句子集合OSe的嵌入向量表示经过一个GRU层,得到关于OS的基本文本,表示为:hl=GRU1(xl,hl-1),其中,hl-1与hl分别为第(l-1)个与第l个位置的隐藏状态(1≤l≤m);令通过注意力机制,获取H中与用户内在想法相关的注意力向量,如下所示:其中,Att是注意力向量,它展示基本文本表征OS中每个词的权重的分布,与为训练参数;注意力向量Att和H的乘法生成OS的最终句子,表示为:对于用户的周社交网络媒体发帖中的图片表示为图片集OP,采用一个34层的ResNet,抽取出一个(300×1)维的可视特征表示,以OP中所有图片的平均特征向量作为每周的视觉图片表示如果则采用一个缺省图片,此图像显示在应用程序所需要的图像位置;通过合并操作合并语言级表示与可视图片级表示获得周社交网络媒体发帖的语言图片表示O=(OS,OP),如下所示:第二步:学习表示用户从第1周到第t周的社交网络媒体发帖集(O1,O2,...,Ot),具体为:以t为滑动窗口,针对用户的每周公开帖子集序列(O1,O2,...,Ot),获得相应的语言级表示与可视图片级表示序列将输进一个GRU层与注意力层,如下所示:其中,hl-1与hl分别为第(l-1)个与第l个位置的隐藏状态(1≤l≤t);令运用第二个注意力层到H′,从t周的社交网络媒体发帖帖子获取线索,表示如下:其中,Att′代表不同周出现的线索的不同贡献权重,与为训练参数;基于注意力向量Att′,获得用户从第1周到第t周的公开社交网络媒体发帖帖子集,表示为其中,与为训练参数;第三步:从用本文档来自技高网...

【技术保护点】
1.一种基于社交网络媒体发帖信息的自杀风险检测方法,其特征在于,包括以下步骤:/n步骤1、了解用户在社交网络媒体中的公开发帖及其在树洞中的隐藏评论之间的相关性,从用户的公开发帖中洞察用户内心的真实想法和情绪变化;具体包括以下子步骤:/n子步骤S11:根据用户在社交网络媒体的公开发帖揭示用户内心的真实想法,令OP[1,t]=(O

【技术特征摘要】
1.一种基于社交网络媒体发帖信息的自杀风险检测方法,其特征在于,包括以下步骤:
步骤1、了解用户在社交网络媒体中的公开发帖及其在树洞中的隐藏评论之间的相关性,从用户的公开发帖中洞察用户内心的真实想法和情绪变化;具体包括以下子步骤:
子步骤S11:根据用户在社交网络媒体的公开发帖揭示用户内心的真实想法,令OP[1,t]=(O1,O2,...,Ot)表示用户第1周到第t周在社交网络媒体的公开发帖的发文序列,Oi为其第i周所发的周帖子集合,其中1≤i≤t;用户公开发帖包含文本句子和可视图片,将用户的每周发帖子集表示为Oi=(OSi,OPi),其中,OSi是一组句子,OPi是在第i周发布的一组图片;将用户在树洞中发布的隐藏评论表示为该隐藏评论反映了用户的真实内心想法;OP[1,t]与满足以下映射函数:



其中,是类似Bert的向量表示,t称为映射函数的滑动窗口大小,t=26周,z=768;
将大小为t的滑动窗口应用于从第1周到第n周的用户公开发帖帖子集OP[1,t],OP[2,t+1],...,OP[n-t+1,n],则生成了一系列基于Bert的隐藏注释其中,其中,t=26周,n=52周,相当于1年;
子步骤S12:捕捉用户隐式情绪变化,首先定义从用户的每周帖子集中揭示的每周情绪的测量以及连续两周之间的情绪变化,将用户的情绪定义为快乐、爱、惊讶、生气、悲伤、焦急、厌恶共7类,表示为:
EC={joy″,love,surprised,angry,sorrow,anxiety,hate″}.
采用了汉语情绪词典DUTIR,获得了包含了所述7类情绪相关的共27466个词,将每一个词对应一个强度分数,其中用9表示最高强度,1表示最低强度,即EI={1,3,5,7,9};
假设函数WordSet(c,i)返回DUTIR词典中强度分数为i的类别为c的单词集,其中,(c∈EC),(i∈EI);
令S表示在用户在某周发布的一组语言句子,即S为用户在社交网络媒体的公开发帖的句子集或在树洞里发布的隐藏评论集,则,:从S中揭示的类别为c∈EC的情绪程度值是情绪类别c中的词的总情绪强度,表示为:






其中,所有强度值均作归一化处理,代表所有公开发帖句子集中情绪类别为c的最大情绪强度,其中0≤e(S,c)≤1;
将S所表示的七种情绪类别中的情绪程度呈现在一个7维向量中,表示为:



其中,ci∈EC,根据周公开发帖句子集所呈现的情绪程度,计算连续两周之间的情绪变化;
令Sk与Sk+1为第k周与第(k+1)周的公开发帖句子集,则Sk与Sk+1之间的情绪变化定义为:



其中,1≤k≤n-1,ci∈EC;
根据用户第t周的公开发帖句子集序列(OS1,OS2,…,OSt),导出用户从第1周到第t周的情绪变化序列:



通过将用户的外部情绪变化序列映射到一个内部真实的情绪变化序列其中,1≤m≤t,以此模拟用户在树洞中从第m到第t周的隐藏评论所反映的情绪变化序列,如下述映射函数所示:



对序列OE[1,t],OE[4,t+3],…,OE[n-t+1,n]应用大小为t和滑动步幅为3周的滑动窗口,产生对应的序列如下所示:
CE[m,t],CE[t,t+(t-m)],…,CE[n-(t-m),n],
其中此处,t=26周,m=23周,n=52周;
步骤2、构建检测自杀风险的模型,根据用户从第t周到第n周的内心想法以及所得到的从第m周到第n周的情绪变化序列CE[m,t],CE[t,t+(t-m)],…,CE[n-(t-m),n],结合所使用的社交网络媒体的特征,检测得到自杀风险系数。


2.根据权利要求1所述的一种基于社交网络媒体发帖信息的自杀风险检测方法,其特征在于,所述步骤1中通过构建模型A来实现子步骤S11,具体包括以下三步:
第一步:学习表示用户的周社交网络媒体发帖句子集O=(OS,OP),使用已知的自杀导向单词或词语嵌入,用300维向量表示所述发帖句子集O=(OS,OP),所述OS被转换成k×300的矩阵,如下所示:



其中,k是OS中单词或词语总数量,是OS中第i个单词的词嵌入,1≤i≤m;一周社交网络媒体发帖句子集合OSe的嵌入向量表示经过一个GRU层,得到关于OS的基本文本,表示为:
hl=GRU1(xl,hl-1),
其中,hl-1与hl分别为第(l-1)个与第l个位置的隐藏状态(1≤l≤m);
令通过注意力机制,获取H中与用户内在想法相关的注意力向量,如下所示:



其中,Att是注意力向量,它展示基本文本表征OS中每个词的权重的分布,与为训练参数;
注意力向量Att和H的乘法生成OS的最终句子,表示为:



对于用户的周社交网络媒体发帖中的图片表示为图片集OP,采用一个34层的ResNet,抽取...

【专利技术属性】
技术研发人员:冯铃曹檑张慧君
申请(专利权)人:清华大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1