基于深度学习算法解析文本信息的方法、介质和电子设备技术

技术编号：26924374 阅读：37 留言：0更新日期：2021-01-01 22:49

本发明专利技术提供一种基于深度学习算法解析文本信息的方法、介质和电子设备，方法包括：对样本文本进行切词操作，得到样本词的集合；将样本词的表示映射到一张二维表中；二维表中每一列共享语素向量，每一行共享上下文向量，得到二元混合共享向量模型；采用语言模型训练样本词集合得到训练后的模型；训练过程中，将样本词从从位置和语素两个维度描述，由语素向词部分共同组合拼接而成；将待解析的文本输入至训练后的模型，根据训练后的模型的输出结果得到待解析的文本的语素向量。本方案将词向表示为语素信息、上下文位置信息两个维度，构建循环神经网络学习模型，达到实体分布式表示的目的，简化分析方法并能得到更准确的分析结果。

全部详细技术资料下载

【技术实现步骤摘要】
基于深度学习算法解析文本信息的方法、介质和电子设备
本专利技术涉及互联网舆情内容分析
，具体涉及一种基于深度学习算法解析文本信息的方法、介质和电子设备。
技术介绍
网民产生的信息中，不仅包含其显性情感信息，而且蕴含了大量的隐性情感，包括反语、讽刺、否定等情感，如何从海量的信息中挖掘蕴含网民隐性情感的文本，分析他们的情感倾向，是网民个体情感和群体情感分析的前提。现有实体表示的研究多建立在上下文分布相同或相似的实体，其携带语义信息也相同或相似这一假说的基础上，借用大规模的语料训练出合适的词向量。现有的实体表示方法通常被划分为基于统计的表示方法和基于神经网络的表示方法两类。其中，基于统计的表示方法则是将实体简单而粗暴的表示为one-hot向量，这种方式往往导致实体语义信息缺失。随着深度学习的兴起，基于神经网络的稠密分布式表示方法成为实体表示的主流。由于中文是符号性语言，每个“字”都有着其特殊的含义，由“字”组成“词”语义不仅仅受其上下文信息的影响，也受自身语义的限制，针对中文信息表示的研究，不少技术人员将“字”的语义融入到词向量表示中，甚至将偏旁部首引入中文信息表示的研究中。然而，本申请的专利技术人在实现本专利技术的过程中发现：有些“字”携带显性的语义信息，而有些字的语义信息则是隐性的。语言学认为，中文是一种意合语言，中文的字是象形文字，语素是最小的语法单位，也是最小的语音和语义结合体，词是由语素构成的。词法构成中需要注意“字”与“语素”的关系，“字”是一个书写单位，有时可以表现为一个语素，有时则不是...

【技术保护点】
1.一种基于深度学习算法解析文本信息的方法，其特征在于，包括如下步骤：/n步骤一：对样本文本进行切词操作，得到样本词的集合；/n步骤二：将样本词的表示映射到一张二维表中；二维表中每一列共享语素向量，每一行共享上下文向量，得到二元混合共享向量模型；/n步骤三：采用语言模型训练样本词集合得到训练后的模型；训练过程中，将样本词从从位置和语素两个维度描述，由语素向词部分共同组合拼接而成；/n步骤四：将待解析的文本输入至训练后的模型，根据训练后的模型的输出结果得到待解析的文本的语素向量。/n

【技术特征摘要】
1.一种基于深度学习算法解析文本信息的方法，其特征在于，包括如下步骤：
步骤一：对样本文本进行切词操作，得到样本词的集合；
步骤二：将样本词的表示映射到一张二维表中；二维表中每一列共享语素向量，每一行共享上下文向量，得到二元混合共享向量模型；
步骤三：采用语言模型训练样本词集合得到训练后的模型；训练过程中，将样本词从从位置和语素两个维度描述，由语素向词部分共同组合拼接而成；
步骤四：将待解析的文本输入至训练后的模型，根据训练后的模型的输出结果得到待解析的文本的语素向量。

2.根据权利要求1所述的基于深度学习算法解析文本信息的方法，其特征在于：
步骤一中利用jieba提供的python工具包对执行切词操作。

3.根据权利要求2所述的基于深度学习算法解析文本信息的方法，其特征在于，步骤二中通过如下方式将样本词的表示映射到一张二维表中：
(1)冷启动阶段，将实体随机映射到二维表中；
(2)在神经网络中训练词向量，直至收敛；
(3)记下步骤(2)训练得到的词向量，并更新二维表，同时计算损失函数，转入步骤(2)。

4....

【专利技术属性】
技术研发人员：杨玉珍，黄玉文，
申请(专利权)人：菏泽学院，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人