本发明专利技术公开了一种基于微博文本的自杀风险识别方法,包括以下几个步骤:步骤S1:建立自杀微博语料库;步骤S2:建立自杀微博语料识别模型;步骤S3:实验设计寻找最优模型;步骤S4:判定结果输出;本发明专利技术的有益效果:采用该方法可以迅速并且主动识别出具有自杀风险的用户,能够在个体的自杀意念形成的早期阶段,及时发现并加以有效干预,这极大地提升了自杀风险评估工作的覆盖面和速度;弥补了以往研究中普遍存在的自杀文本数据的缺乏问题;解决了当前神经网络单一结构在预测精度提升上的瓶颈问题,应用到自杀干预的早期预防中,具有良好的社会效益和经济效益。
【技术实现步骤摘要】
一种基于微博文本的自杀风险识别方法
本专利技术涉及网络
,具体涉及一种基于微博文本的自杀风险识别方法。
技术介绍
目前对于临床和社区范围内的个体自杀风险评估主要采用心理量表的方法进行评估。我国现阶段比较常用的自杀风险评估量表主要来源于国外原版量表的翻译和本土化修订。李献云等修订了贝克自杀意念量表的简体中文版并测试了其在我国社区内成年人群中的信效度,发现量表对于评估个体最消沉、最忧郁和自杀倾向严重时期的效果最好。此外,梁瑛楠等翻译并修订了简体中文版的自杀可能性量表,并验证其在我国大学生群体中具有很好的信效度。自杀风险评估工具主要包括成人自杀意念问卷、自杀概率量表(SPS)和抑郁焦虑应激量表-21(DASS-21),基于心理量表的自杀风险评估方法虽然针对个体比较深入,但是由于实施过程中的时效问题,与实际的干预工作之间往往存在时间差,在大批量运用于社区的时候,耗费大量的人力成本和时间成本,更难以对大量的个体进行长时间的追踪。在中国有很多具有自杀风险的个体并不主动寻求帮助,从而现有依赖自我报告的评估和筛查方法无法找到一些隐藏的具有自杀风险者。
技术实现思路
本专利技术的目是解决当前自杀风险评估工作的时效低、成本高及被动性问题,提出一种基于微博文本的自杀风险识别方法,采用该技术方案有助于提升了自杀风险评估工作的覆盖面和速度,并且提高了微博自杀风险的识别精度。为实现上述技术目的,本专利技术提供的一种技术方案是,一种基于微博文本的自杀风险识别方法,包括以下几个步骤:步骤S1:建立自杀微博语料库;步骤S2:建立自杀微博语料识别模型;步骤S3:实验设计寻找最优模型;步骤S4:判定结果输出。所述步骤S1中,自杀微博语料库的建立遵循以下两个步骤:步骤S11:语料采集;所述语料采集是基于Python语言使用Cookie信息,模拟浏览器访问的新浪微博自杀文本信息自动爬取方案,获取网站数据;所述自动爬取步骤包括使用requesst来模拟登陆、URL构造、网页下载、网页解析以及网页内容导出;步骤S12:语料预处理;所述语料预处理的步骤包括对语料采集的网页内容的无效数据进行过滤、繁体字的转换、文本分词、停用词去除以及文本数字化。本方案中,针对当前微博自杀语料库缺失问题,提出了一种基于Python语言,使用Cookie信息,模拟浏览器访问的新浪微博自杀文本信息自动爬取方案,使用该方案搭建的微博语料采集系统能够稳定的爬取新浪微博文本数据。其主要特点如下:(1)可自主读取收集好的采集对象的微博ID和所需爬取页数,符合本研究的需求;(2)使用单线程低频率的爬取方式可有效避免反爬虫机制的检测;(3)采用爬取微博移动端网页的策略,由于该网页结构简单,所以可最大限度提升爬取效率;系统开发完成之后就将正式进入到微博语料的采集工作,最终,使用系统一共收集7817条微博语料,其中网络识别自杀死亡用户群体的语料共3827条,将它们定义为有自杀风险语料,网络识别未自杀死亡用户群体的语料共3990条,将它们定义为无自杀风险语料;随后通过一系列语料预处理操作,最终建立了自杀研究微博语料库。所述步骤S2中,自杀微博语料识别模型分为四个层次,分别为词嵌入层、多路并行CNN层、Bi-LSTM层和全连接层,所述多路并行CNN层包括有卷积层和池化层。本方案中,本专利技术针对微博自杀文本特征较为稀疏的问题,并根据CNN和Bi-LSTM的特点,考虑将单行的CNN变为多个并行的CNN,且其中的卷积层使用多个不同尺寸的卷积核,这样可以分别提取文本数据中不同宽度视野下的局部特征,使获得的特征向量更全面,模型效果也会更好;同时为了进一步挖掘微博文本的深层上下文语义特征,考虑通过模型组合的方式将上述的多并行CNN和Bi-LSTM结合起来,这样既可以提取文本数据的各局部特征,又可提取出文本的上下文语义关联信息。所述的词嵌入层将语料预处理的微博数字化文本序列中的每一个字词映射为一个具有固定长度且较短的连续实向量,每个词向量在该空间内的距离表示它们之间的相似度。本方案中,词嵌入层的作用就是将原先字词所在空间嵌入到一个新的向量空间中去,每个词向量在该空间内的距离表示它们之间的相似度,这样就保留了文本的语义特征。所述的多路并行CNN层通过多个卷积核尺寸不一的CNN并行组成,每个CNN通路由一个卷积层和一个池化层叠加组成;所述卷积层从词嵌入层的输出序列中提取出序列的特征向量;所述池化层通过对数据进行降维,输出局部最优特征,减少模型复杂度。所述Bi-LSTM层的输入为多路并行CNN的输出特征向量x,Bi-LSTM层通过组合两个方向相反的LSTM即可实现Bi-LSTM层,所述两个方向相反的LSTM分别记做前向LSTM和后向LSTM;所述前向LSTM的输出Q表示如下:Q=[q1,q2,q3,…qn],qt∈Q,t=1,2,3,…,n;后向LSTM的输出H表示如下:H=[h1,h2,h3,…hn],ht∈H,t=1,2,3,…,n;Bi-LSTM的输出Y表示如下:其中符号表示向量拼接。所述全连接层用于生成更高阶的特征表示,使之更容易分离成我们想要区分的不同类;所述全连接层的输入为Bi-LSTM的输出向量Y=[y1,y2,y3,…yn],采用反向传播算法对网络模型中的参数进行梯度更新。所述步骤S3中,为了寻找最优自杀微博语料识别模型,设计nC-BiLSTM模型,分别做了1到A路并行CNN的模型训练,即并行路数n分别取值{1,2,3,…,A},其中A为整数;试验采取了精准率、召回率和F测量值作为评价标准,所述精准率计算公式如下:Pr=TP/(TP+FP);所述召回率计算公式如下:Re=TP/(TP+FN);所述F测量值计算公式如下:F=2*(Pr*Re)/(Pr+Re);其中TP表示无自杀风险文本预测为无自杀风险文本的数目,TN表示有自杀风险文本预测为有自杀风险文本的数目,FN表示无自杀风险样本预测为有自杀风险样本的数目,FP表示有自杀风险文本预测为无自杀风险文本的数目。本方案中,提出一种基于多并行CNN、Bi-LSTM的微博文本自杀风险识别模型nC-BiLSTM(其中n表示CNN并行路数)。该模型主要由两部分组成,选择多路并行的CNN作为文本局部特征信息的提取器,将时间序列模型Bi-LSTM作为上下文序列特征的提取器,将前者的输出特征向量拼接融合后输入后者,最后特征全部提取完毕进行分类。最佳自杀微博语料识别模型确定后,使用Sigmoid分类器输出自杀风险判定的结果,输出表示如公式:P(result|Y,Wx,bx)=sigmoidx(Wx*Y+bx)其中,sigmoidx代表分类器,Wx和bx为sigmoid分类器的参数,下标x代表迭代处于第x轮,result表示自杀风险识别的结果,result∈{有自杀风险,无自杀风险}。本专利技术的有益效果:1、通过对社交媒体用户的文本分析进行自杀风险评估可以有效解决其它方法的局限性问题,因为该方法可以迅速并且主动识别出具有自杀风险的用户,能够在个体的自杀意念形成的早期阶段,及时发现并加以有效干预,这极大地提升了自杀风险评估工作的覆盖面和速度;2、通过搭建微博语料采集系统实现了对特定用户微博文本数据的自动抓取功能,随后再通过一系列语料预处理操作,最终建立了自杀研究微博语料本文档来自技高网...
【技术保护点】
1.一种基于微博文本的自杀风险识别方法,其特征在于,包括以下几个步骤:步骤S1:建立自杀微博语料库;步骤S2:建立自杀微博语料识别模型;步骤S3:实验设计寻找最优模型;步骤S4:判定结果输出。
【技术特征摘要】
1.一种基于微博文本的自杀风险识别方法,其特征在于,包括以下几个步骤:步骤S1:建立自杀微博语料库;步骤S2:建立自杀微博语料识别模型;步骤S3:实验设计寻找最优模型;步骤S4:判定结果输出。2.根据权利要求1所述一种基于微博文本的自杀风险识别方法,其特征在于:所述步骤S1中,自杀微博语料库的建立遵循以下两个步骤:步骤S11:语料采集;所述语料采集是基于Python语言使用Cookie信息,模拟浏览器访问的新浪微博自杀文本信息自动爬取方案,获取网站数据;所述自动爬取步骤包括使用requesst来模拟登陆、URL构造、网页下载、网页解析以及网页内容导出;步骤S12:语料预处理;所述语料预处理的步骤包括对语料采集的网页内容的无效数据进行过滤、繁体字的转换、文本分词、停用词去除以及文本数字化。3.根据权利要求1所述一种基于微博文本的自杀风险识别方法,其特征在于:所述步骤S2中,自杀微博语料识别模型分为四个层次,分别为词嵌入层、多路并行CNN层、Bi-LSTM层和全连接层,所述多路并行CNN层包括有卷积层和池化层。4.根据权利要求3所述一种基于微博文本的自杀风险识别方法,其特征在于:所述的词嵌入层将语料预处理的微博数字化文本序列中的每一个字词映射为一个具有固定长度且较短的连续实向量,每个词向量在该空间内的距离表示它们之间的相似度。5.根据权利要求3所述一种基于微博文本的自杀风险识别方法,其特征在于:所述的多路并行CNN层通过多个卷积核尺寸不一的CNN并行组成,每个CNN通路由一个卷积层和一个池化层叠加组成;所述卷积层从词嵌入层的输出序列中提取出序列的特征向量;所述池化层通过对数据进行降维,输出局部最优特征,减少模型复杂度。6.根据权利要求3所述一种基于微博文本的自杀风险识别方法,其特征在于:所述Bi-LSTM层的输入为多路并行CNN的输出特征向量x,Bi-LSTM层通过组合两个方向相反的LSTM即可实现Bi-LSTM层,所述两个方向相...
【专利技术属性】
技术研发人员:孙军梅,章宣,
申请(专利权)人:杭州师范大学,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。