System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于语义分析的自动化语音翻译测试方法技术_技高网
当前位置: 首页 > 专利查询>南京大学专利>正文

一种基于语义分析的自动化语音翻译测试方法技术

技术编号:44973700 阅读:3 留言:0更新日期:2025-04-12 01:48
一种基于语义分析的语音翻译系统自动化测试方法,其特征是使用句法分析获取句子的句法结构,并构建蜕变关系,无需参考文本或额外的标注信息即可评估语音翻译模型的性能.该方法主要解决当前语音翻译测试方法存在的依赖参考文本、测试预言难以构建的问题.本发明专利技术提出了一种新的概念,句法结构不变性.在语言学中,依存结构和成分结构常被用来描述一个句子的句法结构.根据语言学中的定义,修饰语则是可选的修饰部分,不能对句子的句法结构产生强烈的影响.本方法的步骤包括使用文本测试用例生成工具和音素对齐工具生成音频扩增模板,使用噪声注入和音频拼接生成测试音频,使用句法结构解析树来表达句子结构,并基于句法结构不变性检测翻译错误。

【技术实现步骤摘要】

本专利技术属于软件测试领域,特别是涉及到语音翻译测试和自动化测试方法.基于语义分析方法对语音翻译系统进行自动化测试是一种新的尝试.与以往的语音翻译系统测试方法不同,本方法运用自然语言处理领域中的语义分析方法、软件测试领域的模糊测试理念和蜕变测试方法,解决语音翻译测试依赖标注内容、准确性较低、内部参数不可理解、输出结果多样性和测试预言难以构建的问题.


技术介绍

1、语音翻译技术可以将一种语言的语音信号处理成另一种语言的文本.随着机器学习方法(例如深度学习)的成熟,基于神经网络的语音翻译已成为主流.目前主流的语音翻译系统的核心组件是其内部的深度神经网络模型.传统的语音翻译系统内部主要是由一个语音识别模型和一个机器翻译模型组合而成的级联模型.近年来,随着transformer框架在许多领域的成功应用,研究人员提出了一种直接构建端到端语音翻译系统的方法.目前已有多家供应商推出语音翻译服务,如谷歌翻译、有道翻译、科大讯飞等.对于许多人来说,翻译功能在日常生活中必不可少。

2、因此,语音翻译系统的鲁棒性受到了人们的重视.深度神经网络驱动的语音翻译系统的核心组件是其内部的深度神经网络模型,该模型的性能高度依赖于训练数据集的大小和质量.语音翻译系统在低资源条件下表现较差,但在高资源条件下表现较好.为了提高语音翻译系统的性能,开发人员需要更全面的测试数据以及翻译错误信息,以衡量稀缺的训练资源给模型带来的影响.通过分析这些错误,开发人员可以获得有关当前语音翻译系统内部模型的优缺点信息,以提出改进措施.收集错误翻译及其对应的正确翻译,并补充训练集以进行微调或重训练是提高语音翻译系统性能的有效方法.因此,许多翻译服务提供商引入了反馈机制,要求用户提交所发现的不正确的翻译或相应的正确翻译.识别这些不正确的翻译结果是收集

3、有效数据的重要途径.通过分析这些结果,开发人员可以更好地发现系统缺陷并提出改进措施.有道翻译和必应翻译都在其翻译服务页面中加入了反馈界面,方便用户对不正确的翻译结果直接提供反馈.谷歌甚至建立了一个翻译社区并奖励贡献者,以激励他们提供更有价值的反馈.

4、为了分析和改进语音翻译系统的性能,许多研究者将重点放在如何设计更好的语音翻译测试方法以更高效地检测语音翻译系统错误.然而,测试语音翻译系统仍然是一项具有挑战性的任务.与传统软件不同,语音翻译系统以数据驱动的方式构建其复杂的内部结构,常常包含了百万级的参数设置,这使得许多传统测试方法不适合.此外,语音翻译系统的物理部署环境往往包含环境噪声和混响等因素.这些因素会导致实际输入偏离训练数据集分布,导致应用场景中不可预测的行为.因此,在设计测试方法时,还需要考虑应用环境对语音输入的影响,以评估语音翻译系统的真实性能.此外,由于语音翻译的输出空间巨大(例如,同一段语音可能有多个正确的翻译结果),构建测试预言非常具有挑战性.目前,已经提出了一些用于语音翻译系统测试的方法.常见的语音翻译系统可以分为级联系统和端到端系统.级联系统首先使用语音识别模型将语音转换为文本,然后使用机器翻译模型将识别出的文本翻译为目标语言.端到端系统可以直接处理语音输入生成翻译结果.可以通过现有的语音识别测试方法(如asdf和aequevox)和机器翻译测试方法(如purity和semmt)分别测试语音识别模块和翻译模块来评估级联系统的整体性能.然而,该测试策略只针对级联系统中的特定模块,忽略了其他可能导致翻译错误的模块,如语音预处理模块、识别文本纠正模块等.此外,这种测试策略不适用于没有中间步骤的端到端系统,而使用端到端系统代替级联系统是当前语音翻译发展的趋势.

5、基于上述背景和相关工作的分析,本专利提出基于语义分析的语音翻译系统自动化测试方法,以解决当前语音翻译测试所存在的依赖标注内容、准确性较低、内部参数不可理解、输出结果多样性和测试预言难以构建的问题.本专利提出了一种新的概念,即句法结构不变性.这里的句法结构包括了成分结构和依存结构.在语言学中,句子由基本成分和附属词组成,基本成分是句子的核心,附属词则是可选的修饰部分,不能对句子的句法结构产生强烈的影响.此特征表明给定句子的句法结构通常保留在其添加修饰语之后的句子的句法结构中,可以用于反映两个句子之间的句法结构包含关系.这种不变性关系可以映射到包含这种句子对的语音对上.我们将此特征定义为句法结构不变性,并将其用于构造蜕变关系,以解决语音翻译系统自动化测试中的测试预言问题.


技术实现思路

1、本专利技术要解决的问题是:与传统软件系统不同,基于神经网络的语音翻译系统不依赖手工设计的规则或业务逻辑,而是通过大量的训练数据来自动学习,并以数百万个模型参数构建模型内部逻辑.这一特点使得这类语音翻译系统的行为变得难以解释,同时也使得传统的测试方法难以有效应用.此外,构建针对语音翻译系统的测试预言也是一个难题.由于语音翻译的输出空间通常非常庞大,精确定义测试预言变得异常复杂.而现有的一些评估指标通常依赖于这些测试预言,而没有考虑到语音翻译系统输出的多样性所带来的影响.因此,本专利技术旨在解决当前语音翻译系统在测试中面临的依赖标注内容、准确性较低、内部参数不可理解、输出结果多样性和测试预言难以构建的问题.

2、本专利技术的技术方案为:一种基于语义分析的语音翻译系统自动化测试方法,其特征是使用语义分析获取音频对应翻译结果句子的句法结构,基于句法结构不变性构建蜕变关系,无需参考文本即可评估语音翻译系统的性能.本方法的输入是一组未标记的单语言音频,每个音频中包含了一个句子.输出为疑似错误报告列表.每个错误报告包含三个部分:1)音频中包含的句子s和它的翻译t;2)音频的变体中包含的句子s′和其翻译t′.3)导致句法结构不变性被破坏的句法结构分析树路径.

3、该方法包含以下三个模块/步骤:

4、1)生成用于音频扩增的模板:如图1中的(1)步骤所示,对于一个给定的音频s,本方法通过语音分解方法,首先从s中提取对应句子s基本结构部分(主谓宾或主谓补)和附属词,并确定句中每个单词的起始和终止时间,从而将语音块从语音中分解出来并生成模板.每个模板由基本语音(包含了基本结构部分的音频)和相应的插槽位置组成,这些插槽记录了语音块的起止时间.最终,生成的模板包含基本语音s0和多个插槽l1,l2,...,ln,这些插槽用于拼接相应的语音块.

5、2)测试音频组装:本方法基于上一阶段生成的模板生成一组测试音频用于检测语音翻译系统,如图1中(2)步骤所示.为了方便表示,我们用aj代表对应插槽lj的附属词语音块.首先,基于模板中的基本语音和插槽位置,本方法通过将语音块拼接到基本语音中来组装测试语音.为了增强多样性并与实际应用场景对接,过程中采用语音变换操作生成额外的语音.对于基本语音s0,我们可以在语音变换操作后得到语音s1.0,s2.0,...,sn.0.然后,本方法按照模板中记录的语音块的起止时间顺序,依次对这些语音块进行排序,形成有序的语音块序列.对于每个语音si.0,我们可以得到从si.0到si.n的一组本文档来自技高网...

【技术保护点】

1.一种基于语义分析的语音翻译系统自动化测试方法,其特征是使用句法分析获取句子的句法结构,并构建蜕变关系,无需参考文本即可评估语音翻译系统的性能;本方法以一组未标记的单语言音频作为输入,每个音频包含了一个完整的句子,并输出在翻译结果中检测到的疑似翻译错误列表,具体步骤如下:

2.根据权利要求1所描述的一种基于语义分析的语音翻译系统自动化测试方法,其特征是采用了文本测试用例生成技术、音素对齐技术、语音变换技术、句法结构解析技术等。

3.根据权利要求1所描述的一种基于语义分析的语音翻译系统自动化测试方法,其特征是采用了句法结构性来检测翻译错误;在语言学中,给定句子的句法结构通常保留在其添加修饰语之后的句子的句法结构中,可以用于反映两个句子之间的句法结构包含关系,本专利技术定义该特征为句法结构不变性。

4.根据权利要求1所描述的一种基于语义分析的语音翻译系统自动化测试方法,其特征是适配了谷歌翻译、有道翻译和科大讯飞翻译所提供的语音翻译服务。

【技术特征摘要】

1.一种基于语义分析的语音翻译系统自动化测试方法,其特征是使用句法分析获取句子的句法结构,并构建蜕变关系,无需参考文本即可评估语音翻译系统的性能;本方法以一组未标记的单语言音频作为输入,每个音频包含了一个完整的句子,并输出在翻译结果中检测到的疑似翻译错误列表,具体步骤如下:

2.根据权利要求1所描述的一种基于语义分析的语音翻译系统自动化测试方法,其特征是采用了文本测试用例生成技术、音素对齐技术、语音变换技术、句法结构解析技术...

【专利技术属性】
技术研发人员:刘嘉李宗泰冯洋吉品岑思远赵志宏
申请(专利权)人:南京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1