System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于信息压缩和空间分解的文本语义表征方法及装置制造方法及图纸_技高网

一种基于信息压缩和空间分解的文本语义表征方法及装置制造方法及图纸

技术编号:44482158 阅读:0 留言:0更新日期:2025-03-04 17:49
本发明专利技术公开了一种基于信息压缩和空间分解的文本语义表征方法及装置。其中,方法包括:对待表征文本进行语句内文本语义挖掘,获取待表征文本的节点向量表示;对待表征文本的节点向量表示进行跨语句文本语义挖掘,获取待表征文本的句子节点向量表示;根据句子节点向量表示,确定待表征文本的文本语义表征。

【技术实现步骤摘要】

本专利技术涉及自然语言处理,并且更具体地,涉及一种基于信息压缩和空间分解的文本语义表征方法及装置。


技术介绍

1、自然语言处理技术是人工智能和计算机科学中一个非常关键且迅速发展的领域,致力于使计算机能够理解、解释、生成和响应人类语言。从20世纪50年代以来,自然语言处理技术已经经历了从基于规则的系统到统计学习方法,再到当前深度学习革命的演变。特别是深度学习技术的出现,使得预训练语言模型如bert和gpt等能够通过海量数据学习语言的深层语义特征,极大地推动了语言理解、生成和交互的能力。自然语言处理技术的应用领域非常广泛,包括但不限于机器翻译、语音识别、情感分析、文本摘要和问答系统。这些技术正在不断改变我们与机器的交流方式,提高信息获取和处理的效率。

2、文本语义表征技术是一种先进的自然语言处理方法,通过将文本数据转换为计算机可以理解的向量形式来捕捉和表示文本的语义信息。该技术涉及词嵌入、上下文嵌入、句子和文档级别的表征,使得计算机能够执行复杂的语言任务,如情感分析、机器翻译、信息检索和文本分类。此外,该技术能够分析文本之间的语义相似度和关联性,为问答系统、推荐系统和内容管理提供支持。随着技术的不断进步,文本语义表征技术在提高信息处理的自动化和智能化水平方面发挥着越来越关键的作用,广泛应用于市场研究、客户服务和数据分析等多个领域。其中词袋模型忽略了单词在文本中的顺序。在这种模型中,一个文档被表示为一个长向量,其中包含了文档中所有单词的计数,但这些计数是无序的。这意味着,例如,“猫坐在垫子上”和“垫子上坐着猫”这两句话在词袋模型中会得到完全相同的向量表示,尽管它们在语义上可能有所不同。这种忽略词序的做法可能会导致模型无法捕捉到文本中的某些重要信息,比如修饰关系和语法结构。其次,词袋模型可能会受到词汇表大小的影响。随着词汇表的不断扩大,模型需要处理的维度也会增加,这可能会导致维度灾难,即模型的性能随着维度的增加而急剧下降。此外,一个非常大的词汇表可能会包含许多罕见的、对于文本表示并不重要的单词,这些单词的存在可能会干扰模型的学习过程。词袋模型还可能受到生僻词的影响。在实际应用中,文档中可能会出现一些罕见单词,这些单词在词汇表中占据了位置,但在模型训练和预测时却很少出现。这可能会导致模型在处理这些生僻词时产生噪音,从而影响模型的性能。此外,词袋模型无法很好地处理同义词问题。由于词袋模型是基于单词计数的,它无法识别意义相近的单词,比如“汽车”和“轿车”在词袋模型中会被视为完全不同的单词,即使它们在很多情况下可以互换使用。最后,词袋模型无法捕捉到文本中的上下文信息。在自然语言中,单词的意义往往取决于它所处的上下文环境。词袋模型无法表示这种上下文关系,因此可能无法准确地理解文本的含义。word2vec模型的一个主要缺点是它无法有效处理一词多义的问题。在word2vec中,每个单词都映射到一个唯一的向量,这意味着不同上下文中的同一单词(如“bank”可以指河岸或银行)会被赋予相同的向量表示,从而忽略了它们在不同语境中的含义差异。其次,word2vec模型在训练时依赖于局部上下文信息,通常通过一个固定大小的窗口来捕捉单词周围的单词。这种方法可能无法捕捉到更广泛的上下文信息,如整个句子或段落的语义信息,这可能限制了模型对文本深层次语义理解的能力。此外,word2vec模型的训练通常需要大量的计算资源和时间,尤其是当处理大规模语料库时。虽然模型训练完成后可以用于各种nlp任务,但训练过程本身可能较为耗时。word2vec模型的另一个限制是它难以适应新词或罕见词。由于模型是基于统计共现信息来学习词向量的,那些在训练数据中很少出现的单词可能无法获得有效的向量表示。最后,word2vec模型的静态性质意味着它无法根据特定的任务或上下文动态调整词向量。这与后来的一些模型如bert相比,后者能够根据具体任务和上下文动态地调整词的表示。


技术实现思路

1、针对现有技术的不足,本专利技术提供一种基于信息压缩和空间分解的文本语义表征方法及装置。

2、根据本专利技术的一个方面,提供了一种基于信息压缩和空间分解的文本语义表征方法,包括:

3、对待表征文本进行语句内文本语义挖掘,获取待表征文本的节点向量表示;

4、对待表征文本的节点向量表示进行跨语句文本语义挖掘,获取待表征文本的句子节点向量表示;

5、根据句子节点向量表示,确定待表征文本的文本语义表征。

6、可选地,对待表征文本进行语句内文本语义挖掘,获取待表征文本的节点向量表示,包括:

7、设计单个句子的语句内文本语义挖掘编码器;

8、采用语句内文本语义挖掘编码器对待表征文本进行语句内文本语义挖掘,获取待表征文本的节点向量表示。

9、可选地,语句内文本语义挖掘编码器的训练参数优化表达式为:

10、

11、式中,表示互信息,tθ表示编码器,θ表示编码器的可训练参数,li(x)和sj(x)分别表示x的第i个相关特征和第j个不相关特征,为权重参数,x表示单个句子,表示待表征文本,ns表示不相关特征的数量。

12、可选地,对待表征文本的节点向量表示进行跨语句文本语义挖掘,获取待表征文本的句子节点向量表示,包括:

13、设计文本分解嵌入空间的路由网络;

14、设计文本分解嵌入空间中每个表示的专用投影器;

15、根据路由网络以及专用投影器,构建嵌入表示空间分解模型;

16、利用嵌入表示空间分解模型对节点向量表示进行跨语句文本语义挖掘,获取待表征文本的句子节点向量表示。

17、可选地,利用嵌入表示空间分解模型对节点向量表示进行跨语句文本语义挖掘,获取待表征文本的句子节点向量表示,包括:

18、采用路由网络将对节点向量的上下文分别表示为嵌入空间向量;

19、将分类标签分别附加在上下文的嵌入空间向量,得到附加向量;

20、采用专用投影器对附加向量进行空间分解,获取待表征文本的句子节点向量表示。

21、可选地,附加向量基于softmax概率的上范围或下范围组的表示:

22、

23、式中,g1(·)为线性层的组分类;j=1或2用于表示句子1或句子2;为附加向量;hxj为嵌入空间向量;

24、路由网络的损失函数为:

25、

26、式中,bce为二分类交叉熵损失;y表示句子对是上界还是下界。

27、可选地,专用投影器的表达式为:

28、

29、式中,βj是从max获得的最高概率;zxj是映射到上范围或下范围子空间的表示;j=1或2用于表示句子1或句子2;

30、专用投影器的损失函数为:

31、

32、式中,ysim为sts分数;g2(concat(zx1,zx2))表示线性层g2将zx1与zx2连接起来;bce为二分类交叉熵损失。

33、可选地,嵌入本文档来自技高网...

【技术保护点】

1.一种基于信息压缩和空间分解的文本语义表征方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,对待表征文本进行语句内文本语义挖掘,获取所述待表征文本的节点向量表示,包括:

3.根据权利要求2所述的方法,其特征在于,所述语句内文本语义挖掘编码器的训练参数优化表达式为:

4.根据权利要求1所述的方法,其特征在于,对所述待表征文本的所述节点向量表示进行跨语句文本语义挖掘,获取所述待表征文本的句子节点向量表示,包括:

5.根据权利要求4所述的方法,其特征在于,利用所述嵌入表示空间分解模型对所述节点向量表示进行跨语句文本语义挖掘,获取所述待表征文本的所述句子节点向量表示,包括:

6.根据权利要求5所述的方法,其特征在于,所述附加向量基于Softmax概率的上范围或下范围组的表示:

7.根据权利要求6所述的方法,其特征在于,所述专用投影器的表达式为:

8.根据权利要求7所述的方法,其特征在于,所述嵌入表示空间分解模型的损失函数为:

9.一种基于信息压缩和空间分解的文本语义表征装置,其特征在于,包括:

10.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-8任一所述的方法。

11.一种电子设备,其特征在于,所述电子设备包括:

...

【技术特征摘要】

1.一种基于信息压缩和空间分解的文本语义表征方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,对待表征文本进行语句内文本语义挖掘,获取所述待表征文本的节点向量表示,包括:

3.根据权利要求2所述的方法,其特征在于,所述语句内文本语义挖掘编码器的训练参数优化表达式为:

4.根据权利要求1所述的方法,其特征在于,对所述待表征文本的所述节点向量表示进行跨语句文本语义挖掘,获取所述待表征文本的句子节点向量表示,包括:

5.根据权利要求4所述的方法,其特征在于,利用所述嵌入表示空间分解模型对所述节点向量表示进行跨语句文本语义挖掘,获取所述待表征文本...

【专利技术属性】
技术研发人员:高帅李哲汪旭曹晓盼贾强黄天航底晓梦王树岭常亮翟天一丁智
申请(专利权)人:中国电力科学研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1