System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 短文本表征方法、装置、电子设备以及存储介质制造方法及图纸_技高网

短文本表征方法、装置、电子设备以及存储介质制造方法及图纸

技术编号:39993998 阅读:14 留言:0更新日期:2024-01-09 02:34
本发明专利技术提供短文本表征方法、装置、电子设备以及存储介质,属于数据处理技术领域,包括:根据预设翻译器翻译目标短文本,获取所述目标短文本对应的译文文本;向量化所述目标短文本,确定文本单元向量;向量化所述译文文本,确定译文文本向量;拼接所述文本单元向量以及所述译文文本向量,获取目标增强向量;输入目标增强向量至预设权重矩阵,得到所述预设权重矩阵输出的,所述目标短文本的表征结果。本发明专利技术结合多种形式的译文扩展进行文本向量增强,从而丰富语义特征,进而增强短文本的表征效果。

【技术实现步骤摘要】

本专利技术涉及数据处理,尤其涉及一种短文本表征方法、装置、电子设备以及存储介质


技术介绍

1、短文本相比于长文本而言,所包含的字符数少,文本描述较为随意,且各个实体间的关系比较模糊,完整的语义信息难以准确提取。

2、传统的空间向量模型基于词频、反向文档频率等方法对文本提取特征进行向量化表达,所能提取到的语义特征相对较少,容易产生高维稀疏向量和语义鸿沟,导致其无法取得较好的短文本表征效果,进而在应对下游自然语言处理(natural languageprocessing,nlp)任务时,输出效果较差。


技术实现思路

1、本专利技术提供一种短文本的分类方法,用以解决现有技术中短文本所能提取的语义特征较少,导致短文本的表征效果较差的技术问题。

2、第一方面,本专利技术提供一种短文本表征方法,包括:

3、根据预设翻译器翻译目标短文本,获取所述目标短文本对应的译文文本,所述译文文本为任一语种对应的翻译文本,或,基于多个语种翻译所述目标短文本后形成的多个文本集合,或,采用不同语种分别翻译所述目标短文本的不同文本部分后形成的翻译文本;

4、向量化所述目标短文本,确定文本单元向量;向量化所述译文文本,确定译文文本向量;拼接所述文本单元向量以及所述译文文本向量,获取目标增强向量;

5、输入目标增强向量至预设权重矩阵,得到所述预设权重矩阵输出的,所述目标短文本的表征结果;

6、其中,所述预设权重矩阵是根据二元激活值、样本分类标签以及第一预设函数确定的;所述二元激活值是根据第一样本表征结果、第二样本表征结果以及样本三元向量确定的;所述样本三元向量是根据第一样本增强向量、第二样本增强向量,以及第一样本增强向量与所述第二样本增强向量之差的绝对值确定的;所述样本分类标签根据预设语料库中第一样本文本单元与第二样本文本单元的文本类型确定的。

7、根据本专利技术提供的短文本表征方法,在输入目标增强向量至预设权重矩阵,得到所述预设权重矩阵输出的,所述目标短文本的表征结果之前,所述方法还包括:

8、根据第一样本增强向量、第二样本增强向量,所述第一样本增强向量与所述第二样本增强向量之间的样本分类标签构建样本三元组;

9、输入样本三元组中的第一样本增强向量和第二样本增强向量至样本权重矩阵中,获得样本权重矩阵输出的第一样本表征结果和第二样本表征结果;

10、输入所述第一样本表征结果、所述第二样本表征结果以及样本三元向量至第一神经网络,获得所述第一神经网络输出的样本激活值;

11、根据所述样本激活值、所述样本三元组中的样本分类标签以及第一预设函数,得到所述预设权重矩阵;

12、所述样本三元向量是根据所述第一样本增强向量、所述第二样本增强向量,以及所述第一样本增强向量与所述第二样本增强向量之差的绝对值确定的。

13、根据本专利技术提供的短文本表征方法,在所述根据第一样本增强向量、第二样本增强向量,所述第一样本增强向量与所述第二样本增强向量之间的样本分类标签构建样本三元组之前,所述方法还包括:

14、切分预设语料库,获取所有样本文本单元;

15、确定每一样本文本单元组的所述样本分类标签,所述样本文本单元组为第一样本文本单元与第二样本文本单元的组合;

16、对于任一样本文本单元组,确定所述样本文本单元组中第一样本文本单元的译文以及第二样本文本单元的译文;

17、向量化所述第一样本文本单元及所述第一样本文本单元的译文,获取所述第一样本文本单元的向量以及第一样本文本单元的译文向量;向量化所述第二样本文本单元及所述第二样本文本单元的译文,获取所述第二样本文本单元的向量以及第二样本文本单元的译文向量;

18、根据所述第一样本文本单元的向量以及所述第一样本文本单元的译文向量拼接得到所述第一样本增强向量;根据所述第二样本文本单元的向量以及所述第二样本文本单元的译文向量拼接得到所述第二样本增强向量。

19、根据本专利技术提供的短文本表征方法,所述确定每一样本文本单元组的所述样本分类标签,包括:

20、在确定所述第一样本文本单元与所述第二样本文本单元为同类文本的情况下,确定所述样本文本单元组为相同标签;

21、在确定所述第一样本文本单元与所述第二样本文本单元不为同类文本的情况下,确定所述样本文本单元组为不同标签。

22、根据本专利技术提供的短文本表征方法,所述译文向量为如下向量中的任一种:

23、任一语种对应的向量;

24、或,基于多个语种翻译样本文本单元后形成的多个向量集合;

25、或,采用不同语种分别翻译样本文本单元的不同文本部分后形成的向量。

26、根据本专利技术提供的短文本表征方法,在输入目标增强向量至预设权重矩阵,得到所述预设权重矩阵输出的,所述目标短文本的表征结果之后,所述方法还包括:

27、确定所述目标短文本对应的目标应用场景,根据所述目标应用场景从预设场景库中确定出目标场景模型;

28、输入所述目标短文本的表征结果至所述目标场景模型,获取所述目标场景模型输出的文本输出结果;

29、所述目标场景模型为情感分析模型、主题分类模型、问题任务模型、意图识别模型、自然语言推理模型中的任意一种。

30、第二方面,提供了一种短文本表征装置,包括:

31、获取单元,所述获取单元用于根据预设翻译器翻译目标短文本,获取所述目标短文本对应的译文文本,所述译文文本为任一语种对应的翻译文本,或,基于多个语种翻译所述目标短文本后形成的多个文本集合,或,采用不同语种分别翻译所述目标短文本的不同文本部分后形成的翻译文本;

32、拼接单元,所述拼接单元用于向量化所述目标短文本,确定文本单元向量;向量化所述译文文本,确定译文文本向量;拼接所述文本单元向量以及所述译文文本向量,获取目标增强向量;

33、输入单元,所述输入单元用于输入目标增强向量至预设权重矩阵,得到所述预设权重矩阵输出的,所述目标短文本的表征结果;

34、其中,所述预设权重矩阵是根据二元激活值、样本分类标签以及第一预设函数确定的;所述二元激活值是根据第一样本表征结果、第二样本表征结果以及样本三元向量确定的;所述样本三元向量是根据第一样本增强向量、第二样本增强向量,以及第一样本增强向量与所述第二样本增强向量之差的绝对值确定的;所述样本分类标签根据预设语料库中第一样本文本单元与第二样本文本单元的文本类型确定的。

35、第三方面,本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种短文本表征方法。

36、第四方面,本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述短文本表征方法。

37、第五方面,本文档来自技高网...

【技术保护点】

1.一种短文本表征方法,其特征在于,包括:

2.根据权利要求1所述的短文本表征方法,其特征在于,在输入目标增强向量至预设权重矩阵,得到所述预设权重矩阵输出的,所述目标短文本的表征结果之前,所述方法还包括:

3.根据权利要求2所述的短文本表征方法,其特征在于,在所述根据第一样本增强向量、第二样本增强向量,所述第一样本增强向量与所述第二样本增强向量之间的样本分类标签构建样本三元组之前,所述方法还包括:

4.根据权利要求3所述的短文本表征方法,其特征在于,所述确定每一样本文本单元组的所述样本分类标签,包括:

5.根据权利要求3所述的短文本表征方法,其特征在于,所述译文向量为如下向量中的任一种:

6.根据权利要求1所述的短文本表征方法,其特征在于,在输入目标增强向量至预设权重矩阵,得到所述预设权重矩阵输出的,所述目标短文本的表征结果之后,所述方法还包括:

7.一种短文本表征装置,其特征在于,包括:

8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述短文本表征方法。

9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述短文本表征方法。

10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述短文本表征方法。

...

【技术特征摘要】

1.一种短文本表征方法,其特征在于,包括:

2.根据权利要求1所述的短文本表征方法,其特征在于,在输入目标增强向量至预设权重矩阵,得到所述预设权重矩阵输出的,所述目标短文本的表征结果之前,所述方法还包括:

3.根据权利要求2所述的短文本表征方法,其特征在于,在所述根据第一样本增强向量、第二样本增强向量,所述第一样本增强向量与所述第二样本增强向量之间的样本分类标签构建样本三元组之前,所述方法还包括:

4.根据权利要求3所述的短文本表征方法,其特征在于,所述确定每一样本文本单元组的所述样本分类标签,包括:

5.根据权利要求3所述的短文本表征方法,其特征在于,所述译文向量为如下向量中的任一种:

6.根据权利要求1所述的...

【专利技术属性】
技术研发人员:张芃
申请(专利权)人:传神语联网网络科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1