当前位置: 首页 > 专利查询>菏泽学院专利>正文

基于深度学习算法解析文本信息的方法、介质和电子设备技术

技术编号:26924374 阅读:37 留言:0更新日期:2021-01-01 22:49
本发明专利技术提供一种基于深度学习算法解析文本信息的方法、介质和电子设备,方法包括:对样本文本进行切词操作,得到样本词的集合;将样本词的表示映射到一张二维表中;二维表中每一列共享语素向量,每一行共享上下文向量,得到二元混合共享向量模型;采用语言模型训练样本词集合得到训练后的模型;训练过程中,将样本词从从位置和语素两个维度描述,由语素向词部分共同组合拼接而成;将待解析的文本输入至训练后的模型,根据训练后的模型的输出结果得到待解析的文本的语素向量。本方案将词向表示为语素信息、上下文位置信息两个维度,构建循环神经网络学习模型,达到实体分布式表示的目的,简化分析方法并能得到更准确的分析结果。

【技术实现步骤摘要】
基于深度学习算法解析文本信息的方法、介质和电子设备
本专利技术涉及互联网舆情内容分析
,具体涉及一种基于深度学习算法解析文本信息的方法、介质和电子设备。
技术介绍
网民产生的信息中,不仅包含其显性情感信息,而且蕴含了大量的隐性情感,包括反语、讽刺、否定等情感,如何从海量的信息中挖掘蕴含网民隐性情感的文本,分析他们的情感倾向,是网民个体情感和群体情感分析的前提。现有实体表示的研究多建立在上下文分布相同或相似的实体,其携带语义信息也相同或相似这一假说的基础上,借用大规模的语料训练出合适的词向量。现有的实体表示方法通常被划分为基于统计的表示方法和基于神经网络的表示方法两类。其中,基于统计的表示方法则是将实体简单而粗暴的表示为one-hot向量,这种方式往往导致实体语义信息缺失。随着深度学习的兴起,基于神经网络的稠密分布式表示方法成为实体表示的主流。由于中文是符号性语言,每个“字”都有着其特殊的含义,由“字”组成“词”语义不仅仅受其上下文信息的影响,也受自身语义的限制,针对中文信息表示的研究,不少技术人员将“字”的语义融入到词向量表示中,甚至将偏旁部首引入中文信息表示的研究中。然而,本申请的专利技术人在实现本专利技术的过程中发现:有些“字”携带显性的语义信息,而有些字的语义信息则是隐性的。语言学认为,中文是一种意合语言,中文的字是象形文字,语素是最小的语法单位,也是最小的语音和语义结合体,词是由语素构成的。词法构成中需要注意“字”与“语素”的关系,“字”是一个书写单位,有时可以表现为一个语素,有时则不是一个语素。如“学”、“工”、“人”,它们都具有一定的语音形式,并含有一定的意思,都是语素。而“葡”、“萄”虽然具有一定的语音形式,但它们却没有实际的意思,因此不是语素。此外,语言学中认为语素是最小语义结合题,其意义上不能作更小的切分,例如“奥林匹克”、“仔细”,切分之后其意义发生改变,因此,它们是一个语素。因此,“字”或“偏旁部首”并不是实体语义的决定因素。在此基础上,本专利技术提供一种将语素信息融入实体表示中的二元混合共享向量模型,实现文本信息的解析。
技术实现思路
本专利技术旨在提供一种基于深度学习算法解析文本信息的方法、介质和电子设备,以将语素信息融入实体表示中,降低上下文语序和窗口带来的干扰,得到准确的文本含义。为此,本专利技术提供一种基于深度学习算法解析文本信息的方法,包括如下步骤:步骤一:对样本文本进行切词操作,得到样本词的集合;步骤二:将样本词的表示映射到一张二维表中;二维表中每一列共享语素向量,每一行共享上下文向量,得到二元混合共享向量模型;步骤三:采用语言模型训练样本词集合得到训练后的模型;训练过程中,将样本词从从位置和语素两个维度描述,由语素向词部分共同组合拼接而成;步骤四:将待解析的文本输入至训练后的模型,根据训练后的模型的输出结果得到待解析的文本的语素向量。步骤一中利用jieba提供的python工具包对执行切词操作。步骤二中通过如下方式将样本词的表示映射到一张二维表中:(1)冷启动阶段,将实体随机映射到二维表中;(2)在神经网络中训练词向量,直至收敛;(3)记下步骤(2)训练得到的词向量,并更新二维表,同时计算损失函数,转入步骤(2)。步骤二中通过如下方式识别语素向量:对于一个组合词AB,若该语素词中的字“A”可被其它语素替代,同样“B”也可被其它语素替代,则“A”和“B”均为语素;若“A”和“B”均不能被替换,或替换后改变其原有意义,则“AB”为独立语素。判断组合词AB中A和B之间的依赖性,依赖性判断如以下公式所示:同样的方法计算I(B;A);若I(B;A)~I(A;B),则A、B具有独立的语素义,否则AB为一个语素。本专利技术还提供一种存储介质,所述存储介质中存储有程序指令,计算机读取所述程序指令后执行以上任一项所述的基于深度学习算法解析文本信息的方法。本专利技术还提供一种电子设备,包括:至少一个处理器和至少一个存储器,至少一个存储器中存储有程序指令,至少一个所述处理器读取所述程序指令后执行以上任一项所述的基于深度学习算法解析文本信息的方法。本专利技术具有如下有益效果:本方案针对中文实体表示训练开销大、忽略语素信息而导致的精度降低问题,提出了一种融合语素信息的循环神经网络文本表示学习模型。该模型事先计算构成词中语素信息的含量,将词向表示为语素信息、上下文位置信息两个维度,构建循环神经网络学习模型,达到实体分布式表示的目的,最后通过实验验证本本方案提出方案的可行性。附图说明图1为本专利技术一个实施例所述基于深度学习算法解析文本信息的方法的流程图;图2为本专利技术一个实施例所述共享词向量模型表的形式;图3为本专利技术一个实施例所述融合语素的复合语义表示模型;图4为本专利技术一个实施例所述电子设备的硬件结构示意图。具体实施方式本专利技术提供的以下实施例中的各个技术方案,除非彼此之间相互矛盾,否则不同技术方案之间可以相互组合,不同方案中的技术特征可以相互替换。本专利技术实施例提供的基于深度学习算法解析文本信息的方法,如图1所示,包括如下步骤:步骤一:对样本文本进行切词操作,得到样本词的集合;步骤二:将样本词的表示映射到一张二维表中;二维表中每一列共享语素向量,每一行共享上下文向量,得到二元混合共享向量模型;步骤三:采用语言模型训练样本词集合得到训练后的模型;训练过程中,将样本词从从位置和语素两个维度描述,由语素向词部分共同组合拼接而成;步骤四:将待解析的文本输入至训练后的模型,根据训练后的模型的输出结果得到待解析的文本的语素向量。本专利技术以下实施例中的方案,将语素信息融入实体表示中,为了降低上下文语序和窗口带来的干扰,将词的表示映射到一张二维表中,二维表中每一列共享语素向量,每一行共享上下文向量,因此,得到图2所示的共享词向量模型表。其构建的模型中,采用RNN(RecursiveNuralNetwork,RNN)语言模型训练词量,不同于传统RNN的是,这里将词从位置和语素两个维度描述,由语素向词部分共同组合拼接而成,每一个神经元可被分解为如图3所示的模型。以上,用n和m分别表示输入层和隐藏层中行向量和列向量的维度。为了计算词wt的分布概率,需要事先利用列向量行向量以及隐藏层状态向量行、列向量分别来自于输入矩阵Xc,隐层向量由以下公式产生:上述公式中,为超参数,f为非线性激励函数。一个词的语义向量由其行概率Pr(wt)和列Pc(wt)概率两部分联合组成,具体地:P(wt)=Pr(wt)·Pc(wt);其中,单词w的行索引用r(w)表示,c(w)表示列索引,表示行向量中的第i个分量。同样,表示列向量第i个列分量。Sr和Sc分别表示二维表中行和列单词的集合。本实施例以上方案的关键在于如何识别语素信息,并将语素信息映射到二维表中,与上本文档来自技高网
...

【技术保护点】
1.一种基于深度学习算法解析文本信息的方法,其特征在于,包括如下步骤:/n步骤一:对样本文本进行切词操作,得到样本词的集合;/n步骤二:将样本词的表示映射到一张二维表中;二维表中每一列共享语素向量,每一行共享上下文向量,得到二元混合共享向量模型;/n步骤三:采用语言模型训练样本词集合得到训练后的模型;训练过程中,将样本词从从位置和语素两个维度描述,由语素向词部分共同组合拼接而成;/n步骤四:将待解析的文本输入至训练后的模型,根据训练后的模型的输出结果得到待解析的文本的语素向量。/n

【技术特征摘要】
1.一种基于深度学习算法解析文本信息的方法,其特征在于,包括如下步骤:
步骤一:对样本文本进行切词操作,得到样本词的集合;
步骤二:将样本词的表示映射到一张二维表中;二维表中每一列共享语素向量,每一行共享上下文向量,得到二元混合共享向量模型;
步骤三:采用语言模型训练样本词集合得到训练后的模型;训练过程中,将样本词从从位置和语素两个维度描述,由语素向词部分共同组合拼接而成;
步骤四:将待解析的文本输入至训练后的模型,根据训练后的模型的输出结果得到待解析的文本的语素向量。


2.根据权利要求1所述的基于深度学习算法解析文本信息的方法,其特征在于:
步骤一中利用jieba提供的python工具包对执行切词操作。


3.根据权利要求2所述的基于深度学习算法解析文本信息的方法,其特征在于,步骤二中通过如下方式将样本词的表示映射到一张二维表中:
(1)冷启动阶段,将实体随机映射到二维表中;
(2)在神经网络中训练词向量,直至收敛;
(3)记下步骤(2)训练得到的词向量,并更新二维表,同时计算损失函数,转入步骤(2)。


4....

【专利技术属性】
技术研发人员:杨玉珍黄玉文
申请(专利权)人:菏泽学院
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1