文本处理方法、电子设备、计算机存储介质及程序产品技术

技术编号:31745851 阅读:12 留言:0更新日期:2022-01-05 16:25
本申请实施例提供了一种文本处理方法、电子设备、计算机存储介质及计算机程序产品,其中,文本处理方法包括:对待处理文本进行向量化处理,获得所述待处理文本对应的字符向量和位置向量;基于所述字符向量和所述位置向量分别进行以邻接字符为单位的局部池化处理、以整个待处理文本为单位的全局池化处理和以分段为单位的分段池化处理,获得所述待处理文本对应的文本特征;基于所述文本特征获得对应的编码向量;对所述编码向量进行目标输出处理,获得所述待处理文本的文本处理结果。通过本申请实施例,大大降低了对文本建模上下文关系的计算复杂度。算复杂度。算复杂度。

【技术实现步骤摘要】
文本处理方法、电子设备、计算机存储介质及程序产品


[0001]本申请实施例涉及计算机
,尤其涉及一种文本处理方法、电子设备、计算机存储介质及计算机程序产品。

技术介绍

[0002]文本是一类字符和符号的序列数据,在很多工作和生活场景中,需要对文本进行诸如语义分析、关键词分析及提取等文本建模操作,以为文本的进一步应用提供基础分析支持。
[0003]随着深度学习技术的发展,越来越多的神经网络模型被应用到文本建模中,以提高文本建模的效率和准确度,Transformer模型便是其中应用广泛且表现出色的一类模型。示例性地,一种Transformer模型的结构如图1所示,其分为编码器Encoder部分和解码器Decoder部分,分别对应于图1中的左半部分和右半部分。
[0004]一般地,Encoder使用Nx(例如,可以为6个)个相同的Block(块),其中的Position Embedding(位置向量)用于表征单词或字符的位置信息,以此描述单词或字符的上下文关系.Attention(注意力)机制使用attention函数,基于输入的文本向量Input Embedding和Position Embedding,进行文本特征提取。Attention函数可以看作将一个query和一系列key

value对映射为一个输出output的过程,其通过对输入做三种不同的线性变换得到K、Q、V三向量,再通过scaled dot

production处理得到注意力加权后的特征,再通过mask进行无用信息的过滤。而Multi

Head Attention(多头自注意力)机制则将上述过程执行H次,再将输出拼接起来,输出携带有上下文信息的文本向量。对于其中的Add&Norm部分,Add表示残差连接,以防止模型过深带来的梯度消失或梯度爆炸;Norm则表示归一化。Feed forward(前馈网络)部分通过两次线性变换之后经过relu激活函数,之后会再次进行一次Add&Norm部分的操作,输出最终的编码向量。
[0005]Decoder与Embedding类似,也有Nx层,但在最开始部分多了一个Masked Multi

Head Attention(Mask的多头注意力),以确保pos位置的预测结果只能取决于pos之前的预测结果。在模型训练阶段,Encoder和Decoder一起完成模型训练;在模型推理阶段,使用Encoder对数据进行编码处理。
[0006]通过Transformer模型,可实现对文本特征的有效提取。但是,Transformer模型在建模上下文关系时采用的Multi

Head Attention机制,其计算复杂度与文本长度呈平方关系(O(n2)),这使得在建模文本,尤其是如千字以上的长文本时存在计算量和内存消耗过高的问题。

技术实现思路

[0007]有鉴于此,本申请实施例提供一种文本处理方案,以至少部分解决上述问题。
[0008]根据本申请实施例的第一方面,提供了一种文本处理方法,包括:对待处理文本进行向量化处理,获得待处理文本对应的字符向量和位置向量;基于字符向量和位置向量分
别进行以邻接字符为单位的局部池化处理、以整个待处理文本为单位的全局池化处理和以分段为单位的分段池化处理,获得待处理文本对应的文本特征;基于文本特征获得对应的编码向量;对编码向量进行目标输出处理,获得待处理文本的文本处理结果。
[0009]根据本申请实施例的第二方面,提供了一种另一种文本处理方法,包括:通过智能设备接收输入的语音问题,并将语音问题转换为对应的问题文本;对问题文本进行向量化处理,获得问题文本对应的字符向量和位置向量;基于字符向量和位置向量分别进行以邻接字符为单位的局部池化处理、以整个问题文本为单位的全局池化处理和以问题文本中的分段为单位的分段池化处理,获得问题文本对应的文本特征;基于文本特征获得对应的编码向量;对编码向量进行问题分类输出处理,获得问题文本对应的问题分类;根据问题分类获得问题文本对应的答案文本,将答案文本转换为语音答案并通过智能设备输出。
[0010]根据本申请实施例的第三方面,提供了一种文本处理装置,包括:第一获取模块,用于对待处理文本进行向量化处理,获得待处理文本对应的字符向量和位置向量;第二获取模块,用于基于字符向量和位置向量分别进行以邻接字符为单位的局部池化处理、以整个待处理文本为单位的全局池化处理和以分段为单位的分段池化处理,获得待处理文本对应的文本特征;第三获取模块,用于基于文本特征获得对应的编码向量;第四获取模块,用于对编码向量进行目标输出处理,获得待处理文本的文本处理结果。
[0011]根据本申请实施例的第四方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如第一方面或第二方面所述的文本处理方法对应的操作。
[0012]根据本申请实施例的第五方面,提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面或第二方面所述的文本处理方法。
[0013]根据本申请实施例的第六方面,提供了一种计算机程序产品,包括计算机指令,所述计算机指令指示计算设备执行如第一方面或第二方面所述的文本处理方法对应的操作。
[0014]根据本申请实施例提供的文本处理方案,与传统需要使用Transformer模型的Multi

Head Attention机制建模上下文关系不同,本申请实施例的方案中,使用多种池化处理方式来达到同样目的。其中,局部池化处理用于基于各个字符向量及其相邻字符的字符向量进行池化处理,可以获得融合了各个字符与其相邻字符间的语义的特征向量;全局池化处理用于基于各个字符的字符向量,及各个字符与整个待处理文本对应的所有其它字符的字符向量进行池化处理,可以获得融合了各个字符与整个待处理文本的语义的特征向量;分段池化处理用于基于各个字符所在的段落,以段落为单位进行池化处理,可以获得融合了整个段落的语义的特征向量。可见,基于这些特征向量获得的待处理文本对应的文本特征从多个维度反映了某个字符与其它字符间的关系,从而实现了不依赖Attention机制的上下文关系建模。因池化处理的计算复杂度与待处理文本的文本长度呈线性关系,因此,通过池化处理,在有效获得文本特征的基础上,还可使得计算复杂度达到线性复杂度。相较于传统Transformer模型建模上下文关系的计算复杂度O(n2),大大降低了计算量并节约了内存消耗。
附图说明
[0015]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例中记载的一些实施例,对于本领域普本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法,包括:对待处理文本进行向量化处理,获得所述待处理文本对应的字符向量和位置向量;基于所述字符向量和所述位置向量分别进行以邻接字符为单位的局部池化处理、以整个待处理文本为单位的全局池化处理和以分段为单位的分段池化处理,获得所述待处理文本对应的文本特征;基于所述文本特征获得对应的编码向量;对所述编码向量进行目标输出处理,获得所述待处理文本的文本处理结果。2.根据权利要求1所述的方法,其中,基于所述字符向量和所述位置向量进行以邻接字符为单位的局部池化处理,包括:针对每个字符向量,根据所述位置向量确定与该字符向量最相邻的相邻字符向量,基于该字符向量及相邻字符向量进行池化处理。3.根据权利要求1所述的方法,其中,基于所述字符向量和所述位置向量进行以整个待处理文本为单位的全局池化处理,包括:基于所述位置向量,对所述待处理文本对应的所有字符向量进行池化处理。4.根据权利要求1所述的方法,其中,在对待处理文本进行向量化处理之前,所述方法还包括:对所述待处理文本进行分段处理,获得至少一个文本段,并为各个文本段中的字符生成段落标记信息;基于所述字符向量和所述位置向量进行以分段为单位的分段池化处理,包括:获取各个字符对应的段落标记信息;根据所述字符向量、所述段落标记信息和所述位置向量,进行以所述段落标记信息所标记的文本段为单位的池化处理。5.根据权利要求1

4任一项所述的方法,其中,所述获得所述待处理文本对应的文本特征,包括:对所述局部池化处理后获得的特征、所述全局池化处理后获得的特征和所述分段池化处理后获得的特征进行合并,根据合并结果获得所述待处理文本对应的文本特征。6.根据权利要求1

4任一项所述的方法,其中,所述基于所述字符向量和所述位置向量分别进行以邻接字符为单位的局部池化处理、以整个待处理文本为单位的全局池化处理和以分段为单位的分段池化处理,包括:将所述字符向量和所述位置向量输入编码器,通过所述编码器中的局部池化层、全局池化层和分段池化层分别进行对应的局部池化处理、全局池化处理和分段池化处理。7.根据权利要求6所述的方法,其中,所述编码器包括多个依次连接的编码块,每个编码块包括所述局部池化层、所述全局池化层、所述分段池化层:连接于所述局部池化层、所述全局池化层、所...

【专利技术属性】
技术研发人员:谭超鸿陈谦张庆林王雯
申请(专利权)人:阿里巴巴达摩院杭州科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1