System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于语音端到端的依存结构分析方法及装置制造方法及图纸_技高网

一种基于语音端到端的依存结构分析方法及装置制造方法及图纸

技术编号:44044375 阅读:20 留言:0更新日期:2025-01-15 01:22
本发明专利技术涉及自然语言处理技术领域,特别是指一种基于语音端到端的依存结构分析方法及装置。方法包括:对语音数据进基于语音特征提取器获取特征向量,将特征向量输入到语音解码器中得到语音嵌入向量表示;基于适配器将语音嵌入向量表示映射到文本空间;将映射后的数据通过双仿射解码器输出语音的依存结构分析结果;将转录文本进行标签对齐获得转录文本的对齐标签;通过对齐标签端到端的训练语音依存结构分析模型。本发明专利技术直接从语音入手,实现对语音特征的利用,使用对齐工具映射金标文本的标签信息到转录文本上,充分利用依存结构分析的数据训练语音依存结构分析模型。

【技术实现步骤摘要】

本专利技术涉及自然语言处理,特别是指一种基于语音端到端的依存结构分析方法及装置


技术介绍

1、依存结构分析是自然语言处理中的一项经典任务,它旨在识别句子中词与词之间的依赖关系。依存结构分析可以帮助理解句子的语法结构和句子成分之间的关系,这在机器翻译、信息提取和问题解答等许多下游自然语言处理任务中都很有用。

2、目前在依存结构分析方面的研究工作主要集中在文本上。而对于语音,主流的方法有两种:一种是基于流水线的方法,另一种是基于端到端的方法。基于流水线的方法是指利用依存结构分析的文本语料训练一个依存结构分析模型,并结合现成的自动语音识别工具对语音进行转录得到文本,该文本经过训练好了的依存结构模型可得到对于语音的依存结构分析结果。流水线的方法将语音和依存结构分析孤立开来。端到端是指整个模型的语音端的梯度可以传到依存结构分析端中,并且依存结构分析端的梯度可以反向传播回语音端中。基于端到端的方法可以直接利用语音信号来训练整个语音依存结构分析模型。一方面,端到端使得整个模型的梯度是没有中断的,因而语音特征能够应用到依存结构分析模型中。另一方面,模型包括对语音的处理和对依存结构分析的处理,而中间过程不使用金标文本来对依存结构分析进行处理。由于中间过程的标签可能有所改变,这方面的研究很少。

3、现有的基于流水线的方法虽然可以利用现成的自动语音识别工具把语音转录成文本,但存在两个重要的问题:转录发生的错误会传播到后续的依存结构分析中;许多对于依存结构分析而言重要的声学线索(如韵律、停顿等)在转录文本中丢失。

4、而在基于端到端的方法中,由于存在转录错误,标签与原始标签会不一致,现有的方法大部分通过过滤不一致的标签来实现,导致丧失的这些信息无法让模型学习。


技术实现思路

1、为了解决现有方案无法直接应用语音信号训练依存结构分析模型的问题,以及由于转录错误,标签与原始标签会不一致,现有的方法大部分通过过滤不一致的标签来实现,导致丧失的这些信息无法让模型学习的技术问题,本专利技术实施例提供了一种基于语音端到端的依存结构分析方法及装置。所述技术方案如下:

2、一方面,提供了一种基于语音端到端的依存结构分析方法,该方法由基于语音端到端的依存结构分析设备实现,该方法包括:

3、s1、获取语音数据,通过语音特征提取器获取语音特征向量,语音特征向量输入到语音解码器中,获得语音嵌入向量表示;

4、s2、基于适配器将语音嵌入向量映射到文本空间,获得文本嵌入向量表示;

5、s3、对映射后的文本表示进行解码获得转录文本,将转录文本进行标签对齐,获得转录文本的对齐标签;

6、s4、将文本嵌入向量表示通过双仿射解码器输出语音的依存结构分析结果;通过对齐标签端到端训练语音依存结构分析模型,基于训练后的语音依存结构分析模型完成语音的依存结构分析。

7、可选地,s1中的获获取语音数据,通过语音特征提取器获取语音特征向量,语音特征向量输入到语音解码器中,获得语音嵌入向量表示,包括:

8、获取语音数据;

9、将语音数据输入语音特征提取器,获得语音特征向量表示;

10、获取预训练语音解码器;

11、将语音特征向量输入至语音解码器,获得语音嵌入向量表示。

12、可选地,s2中的基于适配器将语音嵌入向量映射到文本空间,获得文本嵌入向量表示,包括:

13、预设适配器;适配器通过构建语音解码器词汇表到双仿射解码器词汇表的映射矩阵来实现;

14、将语音嵌入向量表示为对应的独热向量,将独热向量通过矩阵乘法与映射矩阵相乘,得到文本嵌入向量表示;

15、通过适配器将语音嵌入向量表示映射到文本空间,获得语音嵌入向量表示对应的文本嵌入向量表示。

16、可选地,s3中的,对映射后的文本表示进行解码获得转录文本,将转录文本进行标签对齐,获得转录文本的对齐标签,包括:

17、获取原始语音数据的金标文本标签;

18、将转录文本与金标文本标签进行标签对齐,获得转录文本的对齐标签。

19、可选地,s4中的将文本嵌入向量表示通过双仿射解码器输出语音的依存结构分析结果;通过对齐标签端到端训练语音依存结构分析模型,基于训练后的语音依存结构分析模型完成语音的依存结构分析,包括:

20、将文本嵌入向量表示输入至双仿射解码器中,获得文本中的词与词中间的依存关系,并输出语音的依存结构分析结果;

21、将语音的依存结构分析结果与对齐的标签进行计算损失来端到端训练语音依存结构分析模型,基于训练后的语音依存结构分析模型完成语音的依存结构分析。

22、另一方面,提供了一种基于语音端到端的依存结构分析装置,该装置应用于基于语音端到端的依存结构分析方法,该装置包括:

23、语音转换模块,通过语音特征提取器获取语音特征向量,所述语音特征向量输入到语音解码器中,获得语音嵌入向量表示;

24、数据映射模块,用于基于适配器将语音嵌入向量表示映射到文本空间,获得文本嵌入向量表示;

25、标签对齐模块,对文本嵌入向量表示进行解码获得转录文本,将所述转录文本进行标签对齐,获得所述转录文本的对齐标签;

26、模型训练模块,用于将文本嵌入向量表示通过双仿射解码器输出语音的依存结构分析结果;通过所述对齐标签端到端训练语音依存结构分析模型,基于训练后的所述语音依存结构分析模型完成语音的依存结构分析。

27、另一方面,提供一种基于语音端到端的依存结构分析设备,所述基于语音端到端的依存结构分析设备包括:处理器;存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,实现如上述基于语音端到端的依存结构分析方法中的任一项方法。

28、另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述基于语音端到端的依存结构分析方法中的任一项方法。

29、本专利技术实施例提供的技术方案带来的有益效果至少包括:

30、本专利技术实施例中,采用了端到端的方式,利用语音中的特征信息进一步训练依存结构分析模型,解决传统流水线方法中语音和依存结构分析任务割裂开的问题;使用对齐工具把金标文本的标签信息映射到中间过程的转录文本上,即使转录文本发生了错误,也能够有完整地标签信息。本专利技术直接从语音入手,实现对语音特征的利用,对由于语音转录可能存在的错误而获取不到对应标签信息的情况下,使用对齐工具映射金标文本的标签信息到转录文本上,从而充分利用语音特征和依存结构分析的数据来更好的训练依存结构分析模型。

本文档来自技高网...

【技术保护点】

1.一种基于语音端到端的依存结构分析方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于语音端到端的依存结构分析方法,其特征在于,所述S1中的获获取语音数据,通过语音特征提取器获取语音特征向量,所述语音特征向量输入到语音解码器中,获得语音嵌入向量表示,包括:

3.根据权利要求2所述的基于语音端到端的依存结构分析方法,其特征在于,所述S2中的基于适配器将语音嵌入向量映射到文本空间,获得文本嵌入向量表示,包括:

4.根据权利要求3所述的基于语音端到端的依存结构分析方法,其特征在于,所述S3中的,对映射后的文本表示进行解码获得转录文本,将所述转录文本进行标签对齐,获得所述转录文本的对齐标签,包括:

5.根据权利要求4所述的基于语音端到端的依存结构分析方法,其特征在于,所述S4中的将文本嵌入向量表示通过双仿射解码器输出语音的依存结构分析结果;通过所述对齐标签端到端训练语音依存结构分析模型,基于训练后的所述语音依存结构分析模型完成语音的依存结构分析,包括:

6.一种基于语音端到端的依存结构分析装置,所述基于语音端到端的依存结构分析装置用于实现如权利要求1-5任一项所述基于语音端到端的依存结构分析方法,其特征在于,所述装置包括:

7.一种基于语音端到端的依存结构分析设备,其特征在于,所述基于语音端到端的依存结构分析设备包括:

8.一种计算机可读取存储介质,其特征在于,所述计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行如权利要求1至5任一项所述的方法。

...

【技术特征摘要】

1.一种基于语音端到端的依存结构分析方法,其特征在于,所述方法包括:

2.根据权利要求1所述的基于语音端到端的依存结构分析方法,其特征在于,所述s1中的获获取语音数据,通过语音特征提取器获取语音特征向量,所述语音特征向量输入到语音解码器中,获得语音嵌入向量表示,包括:

3.根据权利要求2所述的基于语音端到端的依存结构分析方法,其特征在于,所述s2中的基于适配器将语音嵌入向量映射到文本空间,获得文本嵌入向量表示,包括:

4.根据权利要求3所述的基于语音端到端的依存结构分析方法,其特征在于,所述s3中的,对映射后的文本表示进行解码获得转录文本,将所述转录文本进行标签对齐,获得所述转录文本的对齐标签,包括:

5.根据权利要求4所述的基于语...

【专利技术属性】
技术研发人员:张梅山李欣欣喻曦张民
申请(专利权)人:哈尔滨工业大学深圳哈尔滨工业大学深圳科技创新研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1