System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及自然语言处理,并且更具体地,涉及一种基于信息压缩和空间分解的文本语义表征方法及装置。
技术介绍
1、自然语言处理技术是人工智能和计算机科学中一个非常关键且迅速发展的领域,致力于使计算机能够理解、解释、生成和响应人类语言。从20世纪50年代以来,自然语言处理技术已经经历了从基于规则的系统到统计学习方法,再到当前深度学习革命的演变。特别是深度学习技术的出现,使得预训练语言模型如bert和gpt等能够通过海量数据学习语言的深层语义特征,极大地推动了语言理解、生成和交互的能力。自然语言处理技术的应用领域非常广泛,包括但不限于机器翻译、语音识别、情感分析、文本摘要和问答系统。这些技术正在不断改变我们与机器的交流方式,提高信息获取和处理的效率。
2、文本语义表征技术是一种先进的自然语言处理方法,通过将文本数据转换为计算机可以理解的向量形式来捕捉和表示文本的语义信息。该技术涉及词嵌入、上下文嵌入、句子和文档级别的表征,使得计算机能够执行复杂的语言任务,如情感分析、机器翻译、信息检索和文本分类。此外,该技术能够分析文本之间的语义相似度和关联性,为问答系统、推荐系统和内容管理提供支持。随着技术的不断进步,文本语义表征技术在提高信息处理的自动化和智能化水平方面发挥着越来越关键的作用,广泛应用于市场研究、客户服务和数据分析等多个领域。其中词袋模型忽略了单词在文本中的顺序。在这种模型中,一个文档被表示为一个长向量,其中包含了文档中所有单词的计数,但这些计数是无序的。这意味着,例如,“猫坐在垫子上”和“垫子上坐着猫”这两句话在词
技术实现思路
1、针对现有技术的不足,本专利技术提供一种基于信息压缩和空间分解的文本语义表征方法及装置。
2、根据本专利技术的一个方面,提供了一种基于信息压缩和空间分解的文本语义表征方法,包括:
3、对待表征文本进行语句内文本语义挖掘,获取待表征文本的节点向量表示;
4、对待表征文本的节点向量表示进行跨语句文本语义挖掘,获取待表征文本的句子节点向量表示;
5、根据句子节点向量表示,确定待表征文本的文本语义表征。
6、可选地,对待表征文本进行语句内文本语义挖掘,获取待表征文本的节点向量表示,包括:
7、设计单个句子的语句内文本语义挖掘编码器;
8、采用语句内文本语义挖掘编码器对待表征文本进行语句内文本语义挖掘,获取待表征文本的节点向量表示。
9、可选地,语句内文本语义挖掘编码器的训练参数优化表达式为:
10、
11、式中,表示互信息,tθ表示编码器,θ表示编码器的可训练参数,li(x)和sj(x)分别表示x的第i个相关特征和第j个不相关特征,为权重参数,x表示单个句子,表示待表征文本,ns表示不相关特征的数量。
12、可选地,对待表征文本的节点向量表示进行跨语句文本语义挖掘,获取待表征文本的句子节点向量表示,包括:
13、设计文本分解嵌入空间的路由网络;
14、设计文本分解嵌入空间中每个表示的专用投影器;
15、根据路由网络以及专用投影器,构建嵌入表示空间分解模型;
16、利用嵌入表示空间分解模型对节点向量表示进行跨语句文本语义挖掘,获取待表征文本的句子节点向量表示。
17、可选地,利用嵌入表示空间分解模型对节点向量表示进行跨语句文本语义挖掘,获取待表征文本的句子节点向量表示,包括:
18、采用路由网络将对节点向量的上下文分别表示为嵌入空间向量;
19、将分类标签分别附加在上下文的嵌入空间向量,得到附加向量;
20、采用专用投影器对附加向量进行空间分解,获取待表征文本的句子节点向量表示。
21、可选地,附加向量基于softmax概率的上范围或下范围组的表示:
22、
23、式中,g1(·)为线性层的组分类;j=1或2用于表示句子1或句子2;为附加向量;hxj为嵌入空间向量;
24、路由网络的损失函数为:
25、
26、式中,bce为二分类交叉熵损失;y表示句子对是上界还是下界。
27、可选地,专用投影器的表达式为:
28、
29、式中,βj是从max获得的最高概率;zxj是映射到上范围或下范围子空间的表示;j=1或2用于表示句子1或句子2;
30、专用投影器的损失函数为:
31、
32、式中,ysim为sts分数;g2(concat(zx1,zx2))表示线性层g2将zx1与zx2连接起来;bce为二分类交叉熵损失。
33、可选地,嵌入本文档来自技高网...
【技术保护点】
1.一种基于信息压缩和空间分解的文本语义表征方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,对待表征文本进行语句内文本语义挖掘,获取所述待表征文本的节点向量表示,包括:
3.根据权利要求2所述的方法,其特征在于,所述语句内文本语义挖掘编码器的训练参数优化表达式为:
4.根据权利要求1所述的方法,其特征在于,对所述待表征文本的所述节点向量表示进行跨语句文本语义挖掘,获取所述待表征文本的句子节点向量表示,包括:
5.根据权利要求4所述的方法,其特征在于,利用所述嵌入表示空间分解模型对所述节点向量表示进行跨语句文本语义挖掘,获取所述待表征文本的所述句子节点向量表示,包括:
6.根据权利要求5所述的方法,其特征在于,所述附加向量基于Softmax概率的上范围或下范围组的表示:
7.根据权利要求6所述的方法,其特征在于,所述专用投影器的表达式为:
8.根据权利要求7所述的方法,其特征在于,所述嵌入表示空间分解模型的损失函数为:
9.一种基于信息压缩和空间分解的文本语义表征装置
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-8任一所述的方法。
11.一种电子设备,其特征在于,所述电子设备包括:
...【技术特征摘要】
1.一种基于信息压缩和空间分解的文本语义表征方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,对待表征文本进行语句内文本语义挖掘,获取所述待表征文本的节点向量表示,包括:
3.根据权利要求2所述的方法,其特征在于,所述语句内文本语义挖掘编码器的训练参数优化表达式为:
4.根据权利要求1所述的方法,其特征在于,对所述待表征文本的所述节点向量表示进行跨语句文本语义挖掘,获取所述待表征文本的句子节点向量表示,包括:
5.根据权利要求4所述的方法,其特征在于,利用所述嵌入表示空间分解模型对所述节点向量表示进行跨语句文本语义挖掘,获取所述待表征文本...
【专利技术属性】
技术研发人员:高帅,李哲,汪旭,曹晓盼,贾强,黄天航,底晓梦,王树岭,常亮,翟天一,丁智,
申请(专利权)人:中国电力科学研究院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。