企业名称翻译方法及装置制造方法及图纸

技术编号:28375455 阅读:16 留言:0更新日期:2021-05-08 00:02
本发明专利技术提供一种企业名称翻译方法及装置,该方法包括:基于序列标注模型将待翻译中文企业名称分割成多个部分,将待翻译中文企业名称中的预设部分替换为占位符;将占位符替换后的待翻译中文企业名称输入机器翻译模型中,输出所述待翻译中文企业名称的英文译文;将所述英文译文中的占位符替换为所述预设部分的拼音,将拼音替换后的英文译文作为所述待翻译中文企业名称的最终翻译结果。本发明专利技术针对企业名称这种特殊的翻译文本,提出基于序列标注的处理方法,在不改变机器翻译模型的情况下大大提高企业名称翻译的质量,具有较强的实用性。

【技术实现步骤摘要】
企业名称翻译方法及装置
本专利技术涉及机器翻译
,尤其涉及一种企业名称翻译方法及装置。
技术介绍
企业名称在自然语言处理中被视为一种命名实体,因为其构成形式的特殊性,在翻译时通常需要进行专门处理。若直接在翻译引擎中翻译,往往翻译结果的错误率很高。表1是几个企业名称在某主流翻译引擎中的输出结果,其中加下划线的斜体加粗部分为错误翻译。表1中文企业名称在翻译引擎中的错误翻译示例机器翻译引擎对企业名称翻译的效果不佳,跟机器翻译引擎的特性有关。当前的主流机器翻译模型都是基于语料库进行有监督学习的神经机器翻译模型,而新的企业名称每天都在诞生,用于训练的语料库的覆盖有限。此外,神经机器翻译模型为黑盒结构,很难在翻译过程中进行干预和调整,导致一些奇怪的翻译结果出现。
技术实现思路
本专利技术提供一种企业名称翻译方法及装置,用以解决现有技术中对企业名称的翻译错误率高的缺陷,实现对企业名称进行正确翻译。本专利技术提供一种企业名称翻译方法,包括:将待翻译中文企业名称中的预设部分替换为占位符;将占位符替换后的待翻译中文企业名称输入机器翻译模型中,输出所述待翻译中文企业名称的英文译文;将所述英文译文中的占位符替换为所述预设部分的拼音,将拼音替换后的英文译文作为所述待翻译中文企业名称的最终翻译结果。根据本专利技术提供的一种企业名称翻译方法,所述将待翻译中文企业名称中的预设部分替换为占位符,之前还包括:将所述待翻译中文企业名称输入序列标注模型中,输出所述待翻译中文企业名称的分割结果;根据所述分割结果,获取所述待翻译中文企业名称中的预设部分;其中,所述序列标注模型为,以样本中文企业名称为样本,以与所述样本中文企业名称对应的标注为标签训练得到。根据本专利技术提供的一种企业名称翻译方法,所述待翻译中文企业名称的分割结果包括所述待翻译中文企业名称中的企业行政区划、企业字号、企业所属的行业和企业组织形式。根据本专利技术提供的一种企业名称翻译方法,所述预设部分包括所述待翻译中文企业名称的企业字号。根据本专利技术提供的一种企业名称翻译方法,所述占位符包括括号和预设字符,其中所述预设字符位于所述括号内部;若所述待翻译中文企业名称中存在多个企业字号,则替换每个所述企业字号的占位符还包括每个企业字号的编号,所述编号位于所述括号内部;相应地,所述将所述英文译文中的占位符替换为所述预设部分的拼音,包括:对于所述英文译文中的任一占位符,根据该占位符中企业字号的编号,将该占位符替换为所述编号对应的企业字号的拼音。根据本专利技术提供的一种企业名称翻译方法,所述样本中文企业名称对应的标注采用BIO标注。根据本专利技术提供的一种企业名称翻译方法,所述序列标注模型为BERT-CRF模型。本专利技术还提供一种企业名称翻译装置,包括:处理模块,用于将待翻译中文企业名称中的预设部分替换为占位符;翻译模块,用于将占位符替换后的待翻译中文企业名称输入机器翻译模型中,输出所述待翻译中文企业名称的英文译文;还原模块,用于将所述英文译文中的占位符替换为所述预设部分的拼音,将拼音替换后的英文译文作为所述待翻译中文企业名称的最终翻译结果。本专利技术还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一种所述企业名称翻译方法的步骤。本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述企业名称翻译方法的步骤。本专利技术提供的企业名称翻译方法及装置,通过将待翻译中文企业名称中的预设部分替换为占位符后,再使用机器翻译模型进行翻译,最后将翻译结果中的占位符还原为预设部分的拼音,保证预设部分的翻译准确性,进而提高以预设部分作为上下文的其他部分的翻译准确性,从而在不改变机器翻译模型的情况下大大提高企业名称翻译的质量。附图说明为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术提供的企业名称翻译方法的流程示意图之一;图2是本专利技术提供的企业名称翻译方法中序列标注模型的结果示意图;图3是本专利技术提供的企业名称翻译方法的流程示意图之二;图4是本专利技术提供的企业名称翻译装置的结构示意图;图5是本专利技术提供的电子设备的结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合本专利技术中的附图,对本专利技术中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。下面结合图1描述本专利技术的一种企业名称翻译方法,该方法包括:步骤101,将待翻译中文企业名称中的预设部分替换为占位符;其中,待翻译中文企业名称为需要翻译的中文企业名称,由多个部分组成。预设部分为待翻译中文企业名称中预先设定的需要翻译为汉语拼音的部分。占位符为一种特殊格式的符号,用于占用一个固定的位置,本实施例不限于占位符的具体格式。在将待翻译中文企业名称中的预设部分替换为占位符之前,需要识别出待翻译中文企业名称中的各个部分,然后从中选择出预设部分进行占位符替换。步骤102,将占位符替换后的待翻译中文企业名称输入机器翻译模型中,输出所述待翻译中文企业名称的英文译文;将占位符替换后的待翻译中文企业名称输入机器翻译模型获得英文译文。本实施例中的机器翻译模型可以为神经机器翻译模型,但不限于此种类型。由于占位符是一种特殊字符,由中文到英文的翻译前后不发生变化。步骤103,将所述英文译文中的占位符替换为所述预设部分的拼音,将拼音替换后的英文译文作为所述待翻译中文企业名称的最终翻译结果。查找英文译文中的占位符,将其还原为预设部分的拼音。当有多个预设部分时,需要确定占位符与每个预设部分之间的关联关系。在进行还原时,根据关联关系将英文译文中的每个占位符替换为相应预设部分的拼音。本实施例通过将待翻译中文企业名称中的预设部分替换为占位符后,再使用机器翻译模型进行翻译,最后将翻译结果中的占位符还原为预设部分的拼音,保证预设部分的翻译准确性,进而提高以预设部分作为上下文的其他部分的翻译准确性,从而在不改变机器翻译模型的情况下大大提高企业名称翻译的质量。在上述实施例的基础上,本实施例中所述将待翻译中文企业名称中的预设部分替换为占位符,之前还包括:将所述待翻译中文企业名称输入序列标注模型中,输出所述待翻译中文企业名称的分割结果;根据所述分割结果,获取所述待翻译中文企业名称中的预设部分;其中,所本文档来自技高网...

【技术保护点】
1.一种企业名称翻译方法,其特征在于,包括:/n将待翻译中文企业名称中的预设部分替换为占位符;/n将占位符替换后的待翻译中文企业名称输入机器翻译模型中,输出所述待翻译中文企业名称的英文译文;/n将所述英文译文中的占位符替换为所述预设部分的拼音,将拼音替换后的英文译文作为所述待翻译中文企业名称的最终翻译结果。/n

【技术特征摘要】
1.一种企业名称翻译方法,其特征在于,包括:
将待翻译中文企业名称中的预设部分替换为占位符;
将占位符替换后的待翻译中文企业名称输入机器翻译模型中,输出所述待翻译中文企业名称的英文译文;
将所述英文译文中的占位符替换为所述预设部分的拼音,将拼音替换后的英文译文作为所述待翻译中文企业名称的最终翻译结果。


2.根据权利要求1所述的企业名称翻译方法,其特征在于,所述将待翻译中文企业名称中的预设部分替换为占位符,之前还包括:
将所述待翻译中文企业名称输入序列标注模型中,输出所述待翻译中文企业名称的分割结果;
根据所述分割结果,获取所述待翻译中文企业名称中的预设部分;
其中,所述序列标注模型为,以样本中文企业名称为样本,以与所述样本中文企业名称对应的标注为标签训练得到。


3.根据权利要求2所述的企业名称翻译方法,其特征在于,所述待翻译中文企业名称的分割结果包括所述待翻译中文企业名称中的企业行政区划、企业字号、企业所属的行业和企业组织形式。


4.根据权利要求1-3任一所述的企业名称翻译方法,其特征在于,所述预设部分包括所述待翻译中文企业名称的企业字号。


5.根据权利要求4所述的企业名称翻译方法,其特征在于,所述占位符包括括号和预设字符,其中所述预设字符位于所述括号内部;
若所述待翻译中文企业名称中存在多个企业字号,则替换每个所述企...

【专利技术属性】
技术研发人员:毛红保
申请(专利权)人:语联网武汉信息技术有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1