一种设备,包括:第一搜索单元,其基于第一语言的语句从存储单元搜索第一语言的第一样例;第二搜索单元,其搜索与第一样例相对应的第二语言的第二样例,该第二语言与第一样例具有相同的含义;确定单元,其确定是否存在多个第二样例;第一获取单元,其从存储单元获取与每个第二样例相对应的第一样例;第二获取单元,其获取与从存储单元获取的第一样例相对应的第二样例;以及选项生成单元,其生成与最少数目的所获取的第二样例相关联的所获取的第一样例,作为将被输出的第一样例的选项。
【技术实现步骤摘要】
本专利技术涉及一种使用样例来翻译语音输入并输出翻译结果的设备和方法。
技术介绍
近几年,希望用于支持使用不同母语谈话的人们之间进行通信的语音翻译设备能够找到更实用的应用。一般来说,这种语音翻译设备需要依次进行语音识别处理、翻译处理和语音合成处理,其分别采用识别语音的手段、对语音识别后获得的字符串进行翻译的手段、以及把翻译后获得的字符串合成为语音的手段。识别用户发出的语音并输出字符信息的语音识别系统已经以软件包或类似的形式应用到了实际应用中。同样,处理书面语言(文本)输入的机器翻译系统也找到了以软件包或类似形式的应用。语音合成系统也有实际的应用。通过适当地运用这些软件产品,就能够实现一个语音翻译设备。然而,在这种情况下,语音识别很难达到100%的正确率。即使是书面语言的机器翻译也面临着这样的问题由于源语言中可能包含翻译词的多义性或依赖性,所以翻译结果不能像希望的那样输出。此外,语音输入的语句经常不符合语法规则,使得语音被错误识别,这导致机器翻译在输入中就包含错误。由于这些原因,仍未实现具有实用价值的语音翻译设备。尤其是,对于一个不懂目标语言的源语言的说话者,他无法确认该语音翻译设备是否输出了说话者想要的翻译结果,从而制定一些处理语音识别和机器翻译中的分析的错误或多义性的对策是非常重要的。机器翻译是源语言(如日语)语句到目标语言(如英语)语句的转换,根据转换策略,可以粗略地分为基于规则的机器翻译、统计的机器翻译,和基于样例的机器翻译。基于规则的翻译设备包括形态分析单元和结构分析单元,在结构分析单元中分析出源语言的语句结构,并基于该结构将其转换成目标语言的语句结构。这些结构分析和转换的处理知识都以规则的形式提前登记,翻译设备通过解释这些规则来执行翻译处理。大部分以软件包形式应用的机器翻译系统都是这种类型的。基于规则的机器翻译需要准备大量的规则以实现可实用的、高准确率的机器翻译。人工准备这些规则需要很高的成本。为了解决这些问题,建议了统计的机器翻译,并已进行了有力的研究和开发努力。在统计的机器翻译中,将源语言的语句和目标语言的对应语句以大尺度(称为平行语料库)进行准备,通过这个语料库,确定翻译的转换规则和它的概率值。这种方法选取概率最高的转换规则进行翻译。目前已经构建了使用统计的机器翻译的语音翻译原型系统。另一方面,基于样例的机器翻译跟统计的机器翻译一样,也使用源语言和目标语言的平行语料库。从平行语料库中搜索与输入语句相似的源语言语句,将与这个检测到的源语言语句对应的目标语言语句确定为翻译结果。基于规则的机器翻译和统计的机器翻译在运用转换规则时容易造成多义性,从而不可避免的输出与使用源语言的说话者意愿相背离的翻译结果。相反地,基于样例的机器翻译使用与从平行语料库中检测到的源语言语句所对应的翻译作为翻译结果,并且通过搜索检测到的源语言语句可以由源语言说话者进行确认。而且,由于目标语言语句是事先由人工准备的,所以在翻译处理中出现错误的比率相对比较小。然而,即使平行语料库以大尺度准备,也不可能覆盖所有可能输入的语句。在基于样例的机器翻译中,如果检索不到与输入语句相似的样例,则翻译将会失败。因此基于样例的机器翻译需要基于规则的机器翻译和统计的机器翻译进行补充,以适用于更广泛的应用。在基于样例的机器翻译中,只要能够从平行语料库中检索到与输入语句相似的源语言语句,则实现正确翻译的可能性就会增加。然而,一个给定的源语言语句并不总是只对应着一种会话,而是根据会话的场景和上下文不同,需要进行不同的翻译。特别是,即使人工准备了样例,翻译也可能包含多义性。在这种情况下,就有这样一种方法,用户从建议的多个翻译中选取适当的一个。然而,不懂目标语言的源语言说话者也不能够选择一个合适的翻译。基于这一点,提出了一种翻译设备,其具有这样的功能,它通过以源语言显示关于翻译的语言信息,来提供意见,使得不了解目标语言的说话者能选择一个源语言的正确的翻译(如日本专利申请特开(JP-A)No.H05-128150)。具体而言,例如,当把包括一个具有多种意义(用法)的词语的源语言的英语语句翻译成日语并且生成多个日语的候选翻译时,将每个候选翻译与一个对应的英语语句样例一起显示,该样例中包含与翻译中具有相同用法的那个词。然后,说话者选取与源语言语句具有相同用法的样例语句,以便将与这个被选中的样例语句对应的语句选择为正确的日语翻译。但是,在JP-A No.H05-128150中描述的方法中,需要通过参照包括词的用法、时制或时态(时相)的语言信息来估计一个正确的翻译。这样,就出现了为选择翻译增加了决策负担的问题。具体而言,读出多个与说话者想要表达的意思不同的样例语句,并在选出正确的样例语句之前确定任何部分是否包含多义性。这样,决策负担增加而同时在选择和向另一方建议正确的翻译之前又出现了处理时间更长的问题。
技术实现思路
根据本专利技术的一个方面,基于样例的翻译设备包括存储单元,其存储第一语言的样例以及与第一语言的样例具有相同含义的第二语言的样例,所述样例相互关联;输入接收单元,其接收第一语言的语句的输入;第一样例搜索单元,其基于第一语言的语句从存储单元中搜索第一语言的第一样例;第二样例搜索单元,其搜索与第一样例相对应的第二语言的第二样例;确定单元,其确定是否存在多个第二样例;第一获取单元,当确定单元确定存在多个第二语言的第二样例时,第一获取单元从存储单元获取与多个第二样例的每一个相对应的第一语言的第三样例;第二获取单元,其从存储单元中获取与第三样例相对应的第二语言的第四样例;选项生成单元,其生成与最少数目的第四样例相关联的第三样例的选项;以及输出控制单元,其输出第三样例的选项。根据本专利技术的另一方面,基于样例的翻译设备包括通信单元,其将第一语言的语句、第一语言的样例或第二语言的样例通过网络传输给与通信单元相连的样例管理服务器,并接收样例管理服务器返回的第一语言的样例或第二语言的样例,样例管理服务器具有存储单元,其相互关联地存储第一语言的样例以及与第一语言的样例具有相同含义的第二语言的样例;输入接收单元,其接收第一语言的语句的输入;第一样例搜索单元,其基于第一语言的语句,通过通信单元从样例管理服务器的存储单元中搜索第一语言的第一样例;第二样例搜索单元,其通过通信单元从样例管理服务器的存储单元中搜索与第一样例相对应的第二语言的第二样例;确定单元,其确定是否存在多个第二样例;第一获取单元,当确定单元确定存在多个第二样例时,第一获取单元通过通信单元从存储单元获取与第二样例的每一个相对应的第一语言的第三样例;第二获取单元,其通过通信单元从存储单元中获取与第三样例相对应的第二语言的第四样例;选项生成单元,其生成与最少数目的第四样例相关联的第三样例的选项;以及输出控制单元,其输出第三样例的选项。根据本专利技术的再一方面,基于样例的翻译方法包括接收第一语言的输入语句;基于第一语言的语句,从存储单元搜索第一语言的第一样例,该存储单元相互关联地存储第一语言的样例,以及与第一语言的样例具有相同含义的第二语言的样例;搜索与第一样例相对应的第二语言的第二样例;确定是否存在多个第二样例;当确定存在多个第二样例时,从存储单元中获取与第二样例的每一个相对应的第一语言的第三样例;从存储单元中获取本文档来自技高网...
【技术保护点】
一种基于样例的翻译设备,包括:存储单元,其存储第一语言的第一样例和第二语言的第二样例,所述第一样例与至少一个与所述第一样例具有相同含义的第二样例相关联,所述第二样例与至少一个与所述第二样例具有相同含义的第一样例相关联;输入接 收单元,其接收所述第一语言的语句的输入;第一样例搜索单元,其基于所述第一语言的语句,从所述存储单元搜索第一样例;第二样例搜索单元,其搜索与所述第一样例相对应的第二样例;确定单元,其确定是否存在多个搜索到的第二样例; 第一获取单元,当所述确定单元确定存在多个搜索到的第二样例时,所述第一获取单元从所述存储单元获取与搜索到的多个第二样例中的每一个相对应的第一样例;第二获取单元,其从所述存储单元获取与所获取的第一样例相对应的第二样例;选项 生成单元,其生成与最少数目的所获取的第二样例相关联的所获取的第一样例,作为将被输出的第一样例的选项;输出控制单元,其输出所述第一样例的选项。
【技术特征摘要】
...
【专利技术属性】
技术研发人员:住田一男,
申请(专利权)人:株式会社东芝,
类型:发明
国别省市:JP[日本]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。