一种基于微博文本的自杀风险识别方法技术

技术编号：21432455 阅读：48 留言：0更新日期：2019-06-22 11:59

本发明专利技术公开了一种基于微博文本的自杀风险识别方法，包括以下几个步骤：步骤S1：建立自杀微博语料库；步骤S2：建立自杀微博语料识别模型；步骤S3：实验设计寻找最优模型；步骤S4：判定结果输出；本发明专利技术的有益效果：采用该方法可以迅速并且主动识别出具有自杀风险的用户，能够在个体的自杀意念形成的早期阶段，及时发现并加以有效干预，这极大地提升了自杀风险评估工作的覆盖面和速度；弥补了以往研究中普遍存在的自杀文本数据的缺乏问题；解决了当前神经网络单一结构在预测精度提升上的瓶颈问题，应用到自杀干预的早期预防中，具有良好的社会效益和经济效益。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于微博文本的自杀风险识别方法
本专利技术涉及网络
，具体涉及一种基于微博文本的自杀风险识别方法。
技术介绍
目前对于临床和社区范围内的个体自杀风险评估主要采用心理量表的方法进行评估。我国现阶段比较常用的自杀风险评估量表主要来源于国外原版量表的翻译和本土化修订。李献云等修订了贝克自杀意念量表的简体中文版并测试了其在我国社区内成年人群中的信效度，发现量表对于评估个体最消沉、最忧郁和自杀倾向严重时期的效果最好。此外，梁瑛楠等翻译并修订了简体中文版的自杀可能性量表，并验证其在我国大学生群体中具有很好的信效度。自杀风险评估工具主要包括成人自杀意念问卷、自杀概率量表(SPS)和抑郁焦虑应激量表-21(DASS-21)，基于心理量表的自杀风险评估方法虽然针对个体比较深入，但是由于实施过程中的时效问题，与实际的干预工作之间往往存在时间差，在大批量运用于社区的时候，耗费大量的人力成本和时间成本，更难以对大量的个体进行长时间的追踪。在中国有很多具有自杀风险的个体并不主动寻求帮助，从而现有依赖自我报告的评估和筛查方法无法找到一些隐藏的具有自杀风险者。
技术实现思路
本专利技术的目是解决当前自杀风险评估工作的时效低、成本高及被动性问题，提出一种基于微博文本的自杀风险识别方法，采用该技术方案有助于提升了自杀风险评估工作的覆盖面和速度，并且提高了微博自杀风险的识别精度。为实现上述技术目的，本专利技术提供的一种技术方案是，一种基于微博文本的自杀风险识别方法，包括以下几个步骤：步骤S1：建立自杀微博语料库；步骤S2：建立自杀微博语料识别模型；步骤S3：实验设计寻找最优模型；步骤S...

【技术保护点】
1.一种基于微博文本的自杀风险识别方法，其特征在于，包括以下几个步骤：步骤S1：建立自杀微博语料库；步骤S2：建立自杀微博语料识别模型；步骤S3：实验设计寻找最优模型；步骤S4：判定结果输出。

【技术特征摘要】
1.一种基于微博文本的自杀风险识别方法，其特征在于，包括以下几个步骤：步骤S1：建立自杀微博语料库；步骤S2：建立自杀微博语料识别模型；步骤S3：实验设计寻找最优模型；步骤S4：判定结果输出。2.根据权利要求1所述一种基于微博文本的自杀风险识别方法，其特征在于：所述步骤S1中，自杀微博语料库的建立遵循以下两个步骤：步骤S11：语料采集；所述语料采集是基于Python语言使用Cookie信息，模拟浏览器访问的新浪微博自杀文本信息自动爬取方案，获取网站数据；所述自动爬取步骤包括使用requesst来模拟登陆、URL构造、网页下载、网页解析以及网页内容导出；步骤S12：语料预处理；所述语料预处理的步骤包括对语料采集的网页内容的无效数据进行过滤、繁体字的转换、文本分词、停用词去除以及文本数字化。3.根据权利要求1所述一种基于微博文本的自杀风险识别方法，其特征在于：所述步骤S2中，自杀微博语料识别模型分为四个层次，分别为词嵌入层、多路并行CNN层、Bi-LSTM层和全连接层，所述多路并行CNN层包括有卷积层和池化层。4.根据权利要求3所述一种基于微博文本的自杀风险识别方法，其特征在于：所述的词嵌入层将语料预处理的微博数字化文本序列中的每一个字词映射为一个具有固定长度且较短的连续实向量，每个词向量在该空间内的距离表示它们之间的相似度。5.根据权利要求3所述一种基于微博文本的自杀风险识别方法，其特征在于：所述的多路并行CNN层通过多个卷积核尺寸不一的CNN并行组成，每个CNN通路由一个卷积层和一个池化层叠加组成；所述卷积层从词嵌入层的输出序列中提取出序列的特征向量；所述池化层通过对数据进行降维，输出局部最优特征，减少模型复杂度。6.根据权利要求3所述一种基于微博文本的自杀风险识别方法，其特征在于：所述Bi-LSTM层的输入为多路并行CNN的输出特征向量x，Bi-LSTM层通过组合两个方向相反的LSTM即可实现Bi-LSTM层，所述两个方向相...

【专利技术属性】
技术研发人员：孙军梅，章宣，
申请(专利权)人：杭州师范大学，
类型：发明
国别省市：浙江,33

全部详细技术资料下载我是这个专利的主人