文本分析方法、装置、电子设备及计算机可读存储介质制造方法及图纸

技术编号:35916555 阅读:13 留言:0更新日期:2022-12-10 10:58
本公开涉及计算机处理技术领域,具体涉及文本分析方法、装置、电子设备及计算机可读存储介质,该方法包括获取待分析文本;对所述待分析文本中的词进行标识转换,得到待分析标识序列,其中,不同语言的待分析文本对应的待分析标识序列中的标识属于同一类型;对所述待分析标识序列进行特征提取,基于提取出的特征进行目标任务的处理,确定所述待分析文本的分析结果。对于不同语言的待分析文本而言,将其转换为同一类型的标识表示的待分析标识序列,从而特征提取之前先消除语言的区别,后续在将该文本分析方法上线时,无需针对各个语言进行单独部署,利用同一个文本分析方法即可实现不同语言的文本处理,节约了线上资源。节约了线上资源。节约了线上资源。

【技术实现步骤摘要】
文本分析方法、装置、电子设备及计算机可读存储介质


[0001]本公开涉及计算机处理
,具体涉及文本分析方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]对于语音合成而言,需要先对文本进行分析,再利用分析结果进行语音合成。其中,将对文本分析的过程称之为语音合成前端。对于多语种而言,若需要将语音合成上线时,就需要在线上针对每一门语种搭建一套语音合成前端,从而占用较多的线上资源。

技术实现思路

[0003]有鉴于此,本公开实施例提供了一种文本分析方法、装置、电子设备及计算机可读存储介质,以解决由于多语种的语音合成前端的部署所导致的占用线上资源较多的问题。
[0004]根据第一方面,本公开实施例提供了一种文本分析方法,包括:
[0005]获取待分析文本;
[0006]对所述待分析文本中的词进行标识转换,得到待分析标识序列,其中,不同语言的待分析文本对应的待分析标识序列中的标识属于同一类型;
[0007]对所述待分析标识序列进行特征提取,基于提取出的特征进行目标任务的处理,确定所述待分析文本的分析结果。
[0008]根据第二方面,本公开实施例提供了一种文本分析装置,包括:
[0009]获取模块,用于获取待分析文本;
[0010]转换模块,用于对所述待分析文本中的词进行标识转换,得到待分析标识序列,其中,不同语言的待分析文本对应的待分析标识序列中的标识属于同一类型;
[0011]分析模块,用于对所述待分析标识序列进行特征提取,基于提取出的特征进行目标任务的处理,确定所述待分析文本的分析结果。
[0012]根据第三方面,本公开实施例提供了一种电子设备,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行第一方面或者第一方面的任意一种实施方式中所述的文本分析方法。
[0013]根据第四方面,本公开实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行第一方面或者第一方面的任意一种实施方式中所述的文本分析方法。
[0014]本公开实施例提供的文本分析方法,对于不同语言的待分析文本而言,将其转换为同一类型的标识表示的待分析标识序列,从而特征提取之前先消除语言的区别,那么,在进行特征提取与目标任务的处理,均是不区分语言的处理过程,后续在将该文本分析方法上线时,无需针对各个语言进行单独部署,利用同一个文本分析方法即可实现不同语言的文本处理,节约了线上资源。
附图说明
[0015]为了更清楚地说明本公开具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0016]图1是根据本公开实施例的文本分析方法的流程图;
[0017]图2是根据本公开实施例的文本分析方法的流程图;
[0018]图3是根据本公开实施例的文本分析方法的流程图;
[0019]图4是根据本公开实施例的目标分析模型的结构示意图;
[0020]图5是根据本公开实施例的文本分析装置的结构框图;
[0021]图6是本公开实施例提供的电子设备的硬件结构示意图。
具体实施方式
[0022]为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
[0023]在语音合成领域,对文本进行分析所得到的分析结果包括但不限于文本中词的词性以及韵律等等。其中,词性包括名词、代词、动词、形容词、副词、介词、连词以及感染词等等;韵律包括连续、词边界、韵律词边界、韵律短语边界、语调短语边界等等。电子设备在获得分析结果之后,结合文本中词对应的音素,即可合成语音输出,从而实现将文本转换成语音。
[0024]对于语音合成不可避免会涉及到多语言的语音合成,为了能够实现多语言的语音合成,在文本分析阶段,通常是部署与每种语言对应的语音合成前端。在这种方式下,若同一产品需要能够对N种语言进行语音合成,那么就需要在该产品中部署N种语言对应的语音合成前端,这必然会增加语音合成所占用的资源。
[0025]基于此,本公开实施例中提供的文本分析方法,先将待分析文本进行标识转换,得到待分析标识序列。再对待分析标识序列进行分析,得到分析结果。该方式能够先利用标识转换消除语言的影响,将不同语言的待分析文本转换成同一类型的标识所标识的待分析标识序列。由于待分析标识序列是采用同一类型的标识所表示的,那么对于具体处理待分析标识序列的方法而言,无需区分不同的语言,仅需要利用同一处理逻辑进行处理即可。基于此,在将该文本分析方法部署到产品上时,无需部署与每种语言对应的文本分析方式,利用本公开实施例中的文本分析方法即可实现不同语言的语音合成前端。
[0026]进一步地,在对文本进行分析时,一般需要得到多种分析结果。例如,需要得到词性以及韵律。常用的方式是流水线作业的方式,具体地,针对每种语言的每个分析任务分别部署对应的任务分析模块,该方式的作业流程较长,线上需要部署多套任务分析模块。
[0027]基于此,本公开实施例中提供的文本分析方法,通过在同一目标分析模型中并行设置至少一个目标任务处理单元。通过多任务的并行处理,提高文本分析效率。
[0028]在一些实施方式中,上述的目标分析模型是基于预训练的特征提取单元以及至少
一个预设任务处理单元得到的。其中,预训练的特征提取单元是通过无监督文本的预训练方式得到的,使得其能够学习到不同语言共有的语言信息,在利用目标分析模型进行分析时,能够对不同语言的文本进行预测。基于此,该目标分析模型具有零次学习的能力,能够对无标注数据的新语言进行文本分析与预测。此处的新语言为训练目标分析模型所采用的预设语言以外的语言,即在训练目标分析模型时,未采用该新语言进行训练。
[0029]根据本公开实施例,提供了一种文本分析方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
[0030]在本实施例中提供了一种文本分析方法,可用于电子设备,如电脑、平板电脑、语音设备等,图1是根据本公开实施例的文本分析方法的流程图,如图1所示,该流程包括如下步骤:
[0031]S11,获取待分析文本。
[0032]待分析文本可以是用户与电子设备的交互输入至电子设备中,也可以是存储在电子本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本分析方法,其特征在于,包括:获取待分析文本;对所述待分析文本中的词进行标识转换,得到待分析标识序列,其中,不同语言的待分析文本对应的待分析标识序列中的标识属于同一类型;对所述待分析标识序列进行特征提取,基于提取出的特征进行目标任务的处理,确定所述待分析文本的分析结果。2.根据权利要求1所述的方法,其特征在于,所述对所述待分析文本中的词进行标识转换,得到待分析标识序列,包括:获取多语言词表,所述多语言词表用于表示多种语言的词与标识的映射关系;在所述多语言词表中查询所述待分析文本中的词对应的标识,确定所述待分析标识序列。3.根据权利要求2所述的方法,其特征在于,所述在所述多语言词表中查询所述待分析文本中的词对应的标识,确定所述待分析标识序列,包括:在所述多语言词表中查询所述待分析文本中的词对应的标识;当查询结果为空时,对所述词进行子词划分,在所述多语言词表中查询所述子词对应的标识,以确定所述待分析标识序列。4.根据权利要求1所述的方法,其特征在于,所述对所述待分析标识序列进行特征提取,基于提取出的特征进行目标任务的处理,确定所述待分析文本的分析结果,包括:获取目标分析模型,所述目标分析模型是基于至少一种预设语言的样本标识序列分析得到的,所述目标分析模型包括特征提取单元以及至少一种目标任务处理单元;将所述待分析标识序列输入所述特征提取单元进行特征提取,得到提取出的特征;将所述提取出的特征分别输入至少一种目标任务处理单元,确定所述待分析文本的分析结果。5.根据权利要求4所述的方法,其特征在于,所述获取目标分析模型包括:获取预设分析模型,所述预设分析模型包括预训练的特征提取单元以及至少一个预设任务处理单元;获取至少一种预设语言的样本标识序列以及所述样本标识序列对应的任务标签;将所述样本标识序列输入所述预设分析模型中,确定各个所述预设任务处理单元对应的预测结果;基于所述预测结果与所述任务标签进行损失函数计算,以更新所述预训练的特征提取单元以及至少一个预设任务处理单元的参数,确定目标分析模型。6.根据权利要求5所述的方法,其特征在于,所述基于所述预测结果与所述任务标签进行损失函数计算,以更新所述预训练的特征提取单元以及至少一个预设任务处理单元的参数,确定目标分析模型,包括:获取所述预测结果中各个目标任务对应的预测类别;基于所述...

【专利技术属性】
技术研发人员:邹雨巷马泽君
申请(专利权)人:北京有竹居网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1