System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及情感分析,尤其涉及一种评价词和评价对象抽取方法、系统、设备及可读存储介质。
技术介绍
1、目前,基于句法规则的评价词和评价对象抽取方法需要一定的专家知识的支撑,且容易受到定义规则的完备性和正确性的影响。
2、使用传统机器学习的评价词和评价对象抽取方法,需要利用特征工程构造特征,常见特征有词性、位置特征或语法特征,特征工程工作量较大,并且传统的机器学习模型方法主要使用的是标量特征,不能很好的利用抽象特征之间的关联关系。
3、为此,提出一种能够有效解决传统的机器学习模型不能很好的利用抽象特征之间的关联关系的技术方案,是本领域技术人员亟待解决的技术问题。
技术实现思路
1、本申请的目的旨在解决传统的机器学习模型方法使用的是标量特征不能很好的利用抽象特征之间的关联关系。本申请提供一种基于胶囊特征聚合的评价词和评价对象自动抽取方法,胶囊特征聚合模型中使用向量表达特征,向量具有长度和方向,能表达的特征信息更加丰富,有效提升评价词和评价对象抽取准确率。本申请所采用的技术方案如下:
2、第一方面,本申请实施例提供一种评价词和评价对象抽取方法,所述方法包括以下步骤:
3、获取评论文本,通过自然语言预处理技术在词嵌入层将评论文本进行分词和词向量转换预处理,将评论文本转换成可以处理的数值向量;
4、通过并行双向indgru层和动态路由层对输入的词向量进行特征提取;
5、使用crf层进行序列标注,通过标注序列对原始输入文本进
6、可选地,在所述基于所述项目研发活动流程,在模型设计管理平台上创建开发分支和设计分支中,创建开发分支和设计分支是基于项目研发活动流程的投产日期,且没有项目研发活动流程不能拉取开发分支和设计分支,也不能对模型进行修改。
7、进一步地,所述词嵌入层包括:接收文本句子作为输入,通过word2vector方法预训练长度为100的词向量,通过预训练的词向量,把文本句子转换成向量矩阵。
8、进一步地,所述并行双向indgru层包括:通过hadamard乘积替换原始gru单元中隐藏状态的部分矩阵,得到indgru单元中隐藏层输出,计算过程:
9、rt=sigmoid(wrxt+ur⊙ht-1+br) (1)
10、zt=sigmoid(wzxt+uz⊙ht-1+bz) (2)
11、
12、其中,ur,uz,ut为一维向量,“⊙”表示向量中对应元素相乘的hadamard乘积;
13、文本中单词间的关系是相互的,同时获取当前时间步以后的信息,使用双向indgru,biindgru用两个单独的indgru网络结构分别获取前面时间步和后面时间步的信息,为向前的indgru单元隐藏状态输出,为向后的indgru隐藏层输出,使用连接向量为biindgru在时间步t的隐藏状态输出。
14、进一步地,并行双向indgru层使用若干biindgru在同一时刻并行的提取特征,添加dropout操作,通过indgru构造胶囊特征,其计算公式如下:
15、
16、biindgrui表示第i个双向独立indgru的数据操作函数,表示第i个双向独立indgru在t时刻的隐藏层特征,表示初始的特征胶囊。
17、进一步地,所述动态路由层包括动态路由算法,所述动态路由算法是胶囊网络中相邻两层胶囊间信息传递的算法;
18、所述动态路由算法中初始胶囊和输出胶囊间采用全连接形式链接,计算方式如下:
19、
20、其中,表示预测向量,所述预测向量通过一个全连接层得到,θj是全连接层的参数,是初始胶囊;
21、cij为初始胶囊和输出胶囊间的耦合系数,表示初始胶囊传递若干信息到输出胶囊中,输出胶囊是所有初始胶囊对其的预测向量的线性加权之和,计算方式如下:
22、
23、bij为初始胶囊连接到输出胶囊的先验概率,初始时值为0,耦合系数cij通过bij得到,采用leaky-softmax函数计算胶囊间的耦合系数,计算方式如下:
24、
25、其中m为初始胶囊的个数。
26、进一步地,在胶囊网络中,胶囊向量表示某类特征,其长度表示某类特征存在的概率,表示输出胶囊,代表某类特征的特征向量,通过squashing函数得到,squashing函数用于短向量长度缩减到大于0,长向量缩减到小于1,计算方式如下:
27、
28、通过预测胶囊向量和最终输出胶囊向量的点积来更新bij,计算方式如下:
29、
30、动态路由层在t时刻的最终输出vt通过输出胶囊的拼接得到的,计算方式如下:
31、
32、进一步地,所述crf层包括:通过全连接层将动态路由层的输出输入至crf中,用于对文本序列的标注,通过所述标注的序列标签筛选获取评论文本中的评价词和评价对象。
33、第二方面,本专利技术提供了一种评价词和评价对象抽取系统,所述系统包括:预处理模块、特征提取模块、输出模块,其中,
34、预处理模块:用于获取评论文本,通过自然语言预处理技术在词嵌入层将评论文本进行分词和词向量转换预处理,将评论文本转换成可以处理的数值向量;
35、特征提取模块:用于通过并行双向indgru层和动态路由层对输入的词向量进行特征提取;
36、输出模块:用于使用crf层进行序列标注,通过标注序列对原始输入文本进行截取,得到评价词和评价对象。
37、第三方面,本专利技术提供了一种电子设备,包括处理器和存储器;
38、所述存储器,用于存储操作指令;
39、所述处理器,用于通过调用所述操作指令,执行上述评价词和评价对象抽取方法。
40、第四方面,本专利技术提供了一种计算机可读存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述评价词和评价对象抽取的方法。
41、本申请公开的评价词和评价对象抽取方案,通过获取评论文本,通过自然语言预处理技术在词嵌入层将评论文本进行分词和词向量转换预处理,将评论文本转换成可以处理的数值向量;通过并行双向indgru层和动态路由层对输入的词向量进行特征提取;使用crf层进行序列标注,通过标注序列对原始输入文本进行截取,得到评价词和评价对象。实现了胶囊特征聚合模型中使用向量表达特征,向量具有长度和方向,能表达的特征信息更加丰富,有效提升评价词和评价对象的抽取准确率。
本文档来自技高网...【技术保护点】
1.一种评价词和评价对象抽取方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的评价词和评价对象抽取方法,其特征在于,所述词嵌入层包括:接收文本句子作为输入,通过word2vector方法预训练长度为100的词向量,通过预训练的词向量,把文本句子转换成向量矩阵。
3.根据权利要求1所述的评价词和评价对象抽取方法,其特征在于,所述并行双向IndGRU层包括:通过Hadamard乘积替换原始GRU单元中隐藏状态的部分矩阵,得到IndGRU单元中隐藏层输出,计算过程:
4.根据权利要求3所述的评价词和评价对象抽取方法,其特征在于,所述方法包括:
5.根据权利要求1所述的评价词和评价对象抽取方法,其特征在于,所述动态路由层包括动态路由算法,所述动态路由算法是胶囊网络中相邻两层胶囊间信息传递的算法;
6.根据权利要求5所述的评价词和评价对象抽取方法,其特征在于,在胶囊网络中,胶囊向量表示某类特征,其长度表示某类特征存在的概率,表示输出胶囊,代表某类特征的特征向量,通过Squashing函数得到,Squashing函数用于短向
7.根据权利要求1所述的评价词和评价对象抽取方法,其特征在于,所述CRF层包括:通过全连接层将动态路由层的输出输入至CRF中,用于对文本序列的标注,通过所述标注的序列标签筛选获取评论文本中的评价词和评价对象。
8.一种评价词和评价对象抽取系统,其特征在于,所述系统包括:预处理模块、特征提取模块、输出模块,其中,
9.一种电子设备,其特征在于,包括处理器和存储器;
10.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7中任一项所述的方法。
...【技术特征摘要】
1.一种评价词和评价对象抽取方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的评价词和评价对象抽取方法,其特征在于,所述词嵌入层包括:接收文本句子作为输入,通过word2vector方法预训练长度为100的词向量,通过预训练的词向量,把文本句子转换成向量矩阵。
3.根据权利要求1所述的评价词和评价对象抽取方法,其特征在于,所述并行双向indgru层包括:通过hadamard乘积替换原始gru单元中隐藏状态的部分矩阵,得到indgru单元中隐藏层输出,计算过程:
4.根据权利要求3所述的评价词和评价对象抽取方法,其特征在于,所述方法包括:
5.根据权利要求1所述的评价词和评价对象抽取方法,其特征在于,所述动态路由层包括动态路由算法,所述动态路由算法是胶囊网络中相邻两层胶囊间信息传递的算法;
6.根据权利要求5所述的评价词和评价...
【专利技术属性】
技术研发人员:康刚,
申请(专利权)人:中信银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。