本公开涉及一种语音翻译设备和一种语音翻译方法。根据一个实施例,使用用以识别第一语言和第二语言的语音识别词典来识别第一语言的语音,并且生成所述第一语言的源句子。将所述源句子翻译成第二语言,并且生成所述第二语言的翻译句子。检测所述翻译句子中包括的未知词。所述未知词没有被存储在所述语音识别词典中。依据所述未知词的表达,评估所述未知词的第一发音候选。依据对应于所述未知词的、包括在所述源句子中的原始词的发音,评估所述未知词的第二发音候选。将所述未知词、所述第一发音候选和所述第二发音候选相应地登记到所述语音识别词典中。
【技术实现步骤摘要】
【专利摘要】本公开涉及一种语音翻译设备和一种语音翻译方法。根据一个实施例,使用用以识别第一语言和第二语言的语音识别词典来识别第一语言的语音,并且生成所述第一语言的源句子。将所述源句子翻译成第二语言,并且生成所述第二语言的翻译句子。检测所述翻译句子中包括的未知词。所述未知词没有被存储在所述语音识别词典中。依据所述未知词的表达,评估所述未知词的第一发音候选。依据对应于所述未知词的、包括在所述源句子中的原始词的发音,评估所述未知词的第二发音候选。将所述未知词、所述第一发音候选和所述第二发音候选相应地登记到所述语音识别词典中。【专利说明】
这里描述的实施例总体上涉及。
技术介绍
存在有机器翻译装置,该机器翻译装置用以接受以第一语言描述的源语言的字符串的输入,并且将字符串翻译成用第二语言(用户希望的语言)描述的另一字符串。此外,通过语音语言处理技术的最近发展,实现了用以将一个用户(第一说话者)说出的第一语言的语音翻译成第二语言并且输出至另一用户(第二说话者)的语音翻译装置。 在语音翻译装置目前使用的语音识别词典和翻译词典中,仅存储由开发者提供的在一个范围内的词汇。尤其地,在语音翻译装置中,通过基于使用该装置的场景或者情况来限制或者转换可识别的词汇和可翻译的词汇,性能得以提高。可以通过这样的事实来想象这个原因,即与不具有前提了解相比,如果用户具有一些程度的前提了解而听谈话,对于用户来说,理解谈话是更容易的。 在另一方面,在PCT国际公开WO 2009/129315中公开了用以将第一语言的新词翻译成第二语言并且将此翻译结果登记到用于第二语言的语音识别词典中的技术。 在通过语音i全释(interpretat1n)装置的实际会话中,通过听相互发声并且通过在第一和第二说话者之间确认各自的诠释结果,会话得以推进。对于在另一方的语言(第二说话者的语言)中不存在的词,例如,在从日语到汉语的翻译中,或者从日语到英语的翻译中,该词被音译为以拉丁字母方式的表达。此外,在将英语翻译成日语中,以字母方式的表达将该词原样输出,或者将该词音译成以日语字音表(假名)方式的表达。 在这种情况下,当另一方(第二说话者)不可以依据翻译结果的表达评估语音时,另一方常常基于第一说话者的发声而发声。相应地,如果语音识别词典根据传统技术仅通过词的表达而更新,用与语音识别词典所不同的发音说出该词,该词不能被正确地识别。 例如,考虑日语词“納豆(Nattou) ”(发酵的大豆)。该词被翻译成汉语“納豆”(拼音(汉语拼音系统):na4dou4)和英语词“Natto”。当外国人观看此翻译结果并且尝试在接下来的语音中说出此词时,除了通过观看他/她的母语的表达的发声之外,外国人通常通过模仿日语发音“Nattou”而说出。该日语发音“Nattou”没有直接关联到汉语词“納豆”和英语词“Natto”。相应地,在用以识别外国人的发声的传统技术中,该传统技术仅使用依据翻译结果的字符串而评估的发音,外国人的发声的语音识别是失败的。 此外,为了提高翻译准确性,考虑将所有可翻译的词和所有作为翻译结果而获得的词事先登记到语音识别词典中。然而,如果可识别的词的数目无序地增加,生成具有类似于正确词的发声的非正确词的可能性被提高。于是,诠释准确性并不总是被改善。
技术实现思路
实施例提供一种语音识别设备和语音识别方法,所述设备和方法能够识别这样的词,该词对应的发音具有很高的可能性由说话者在流畅会话中说出。 根据一个实施例,一种语音翻译设备包括语音识别单元、翻译单元、未知词检测单元、发音评估单元和词典更新单元。所述语音识别单元被配置为,通过使用用以识别第一语言和第二语言的语音识别词典识别语音,将第一语言的语音转换成第一语言的源句子。所述翻译单元被配置为将所述源句子转换成所述第二语言的翻译句子。所述未知词检测单位被配置为检测包括在所述翻译句子中的未知词。所述未知词没有被存储在所述语音识别词典中。所述发音评估单元被配置为依据所述未知词的表达,来评估所述未知词的第一发音候选,并且依据对应于所述未知词的、所述源句子中包括的原始词的发音,来评估所述未知词的第二发音候选。词典更新单元被配置为将所述未知词、所述第一发音候选和所述第二发音候选相应地登记到所述语音识别词典中。 根据实施例,可以提供一种语音识别设备和一种语音识别方法,所述设备和方法能够识别这样的词,该词对应的发音具有很高的可能性由说话者在流畅会话中说出。 【专利附图】【附图说明】 图1为根据各种实施例的语音翻译设备的框图。 图2为根据第一实施例的语音翻译设备的处理的流程图。 图3为对应于源语言发音的语音识别结果和翻译结果的一个实例。 图4为从图3的翻译结果检测到的未知词A和B。 图5为根据第一实施例的发音对应表的一个实例。 图6为根据第一实施例的登记到语音识别词典中的发音候选的一个实例。 图7为根据第二实施例的语音翻译设备的处理的流程图。 图8为根据第二实施例的语际发音对应表的一个实例。 图9A、9B和9C为根据第二实施例的用以提取未知词的发音候选的处理的一个实例。 图10为根据第三实施例的语音翻译设备的处理的流程图。 图11为根据第三实施例的登记到语音识别词典中的优选词的一个实例。 图12为根据第三实施例的优选语音识别的一个实例。 【具体实施方式】 在下面的实施例中,作为假设,将解释第一语言到第二语言的语音翻译。然而,翻译方向可是逆向的。此外,即使语音翻译设备应用一种机制以同时地处理多种语言,显然可以以类似方式处理翻译方向。 图1为根据各种实施例的语音翻译设备的内部部件的框图。如图1中所示,语音翻译设备包括语音识别单元100、翻译单元120、未知词检测单元130、发音评估单元140和词典更新单元150。语音识别单元100内部或者外部连接语音识别词典110。 语音识别单元100接受用户(说话者)的发声作为语音信号。例如,该语音信号可以通过麦克风而收集并且通过模拟/数字转换器(Α/D转换器)而获得。此外,可通过用记录介质读取语音(事先记录的)来接受该语音信号。通过参考语音识别词典110,使用语音识别技术,语音识别单元100将接受的语音信号转换成对应的文本字符串。作为语音识别单元100使用的语音识别技术(自动语音识别),采用了诸如隐马尔科夫模型法(HiddenMarkov Model Method)的广泛知道的传统技术。这里,省略了其解释。 翻译单元120通过参考翻译词典(图1中未示出)将第一语言的源语言句子(由语音识别单元100输出)翻译成第二语言的目标语言句子,并且将该目标语言句子输出。作为翻译单元120的翻译处理,可以应用在传统机器翻译技术中所使用的各种方法,例如,一般传递方法(general transfer method)、基于实例方法(example-based method)、统计方法、语际方法。 未知词检测单元130从作为翻译单元120的翻译结果的目标语言句子检测语音识别单元100的未知词,以识别第二语言。例如,如果至少一个词未被登记在被参考用以识别第二语言的语音识别词典中,该词被检测为未知词。 发音评估单元140评估一组未知词(由本文档来自技高网...
【技术保护点】
一种语音翻译设备,包括:语音识别单元,所述语音识别单元被配置为,通过使用用以识别第一语言和第二语言的语音识别词典来识别语音,将第一语言的语音转换成第一语言的源句子;翻译单元,所述翻译单元被配置为将所述源句子转换成所述第二语言的翻译句子;未知词检测单元,所述未知词检测单元被配置为检测所述翻译句子中包括的未知词,所述未知词没有被存储在所述语音识别词典中;发音评估单元,所述发音评估单元被配置为依据所述未知词的表达,评估所述未知词的第一发音候选,并且依据对应于所述未知词的、包括在所述源句子中的原始词的发音,评估所述未知词的第二发音候选;以及词典更新单元,所述词典更新单元被配置为将所述未知词、所述第一发音候选和所述第二发音候选相应地登记到所述语音识别词典中。
【技术特征摘要】
...
【专利技术属性】
技术研发人员:釜谷聪史,住田一男,河村聪典,
申请(专利权)人:株式会社东芝,
类型:发明
国别省市:日本;JP
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。