一种机器翻译语料质量评估处理方法技术

技术编号:35511756 阅读:21 留言:0更新日期:2022-11-09 14:26
本发明专利技术公开了一种机器翻译语料质量评估处理方法,涉及机器翻译技术领域,解决了现有技术在进行语料评价过程中,侧重于如何从给定语料中选择高质量语料,而无法对给定语料进行高效准确地评估的技术问题;本发明专利技术对根据语料特征获取原始翻译语料中子语料的语料质量评分,进而获取质量分析标签;结合目标翻译语料的冗余率和质量分析标签获取原始语料评分,根据原始语料评分实现对原始翻译语料质量的评估,当质量和噪声均在要求范围内时,判定该原始翻译语料是符合高质量要求的;本发明专利技术在获取目标翻译语料之后,通过专业人员对目标翻译语料进行抽样分析,通过合理调节设定比例可以满足不同规模目标翻译语料的需求,能够提高质量分析精度。分析精度。分析精度。

【技术实现步骤摘要】
一种机器翻译语料质量评估处理方法


[0001]本专利技术属于机器翻译领域,涉及一种机器翻译语料质量评价技术,具体是一种机器翻译语料质量评估处理方法。

技术介绍

[0002]机器翻译过程中,语料质量和数量会对机器翻译性能带来很大影响。一般来讲语料规模的增加有助于提高翻译模型的翻译性能。但是语料规模的增大,会伴随着一定的噪声,使得翻译模型的可靠性降低。
[0003]现有技术(公开号为CN102945232A的专利技术专利申请)公开了一种面向统计机器翻译的训练语料质量评价及选取方法,提出了更加丰富的句对质量评价特征,为高质量语料数据的选择提供帮助。现有技术在进行语料评价过程中,侧重于如何从给定语料中选择高质量语料,而无法对给定语料进行高效准确地评估;因此,亟须一种机器翻译语料质量评估处理方法。

技术实现思路

[0004]本专利技术旨在至少解决现有技术中存在的技术问题之一;为此,本专利技术提出了一种机器翻译语料质量评估处理方法,用于解决现有技术在进行语料评价过程中,侧重于如何从给定语料中选择高质量语料,而无法对给定语料进行高效准确地评估的技术问题。
[0005]本专利技术对根据语料特征获取原始翻译语料中子语料的语料质量评分,进而获取目标翻译语料;结合目标翻译语料的冗余率和质量分析标签获取原始语料评分,根据原始语料评分实现对原始翻译语料质量的评估,将人工经验和分析技术结合,保证了语料质量评估的准确性。
[0006]为实现上述目的,本专利技术的第一方面提供了一种机器翻译语料质量评估处理方法,包括:
[0007]获取原始翻译语料,以及所述原始翻译语料对应的所述语料特征;其中,所述语料特征包括翻译质量、语言模型概率、翻译模型概率中的一种或多种;
[0008]根据所述语料特征计算获取所述原始翻译语料中子语料的语料质量评分,并根据所述语料质量评分对所述子语料进行排序,获取目标翻译语料;
[0009]基于覆盖度对所述目标翻译语料进行分析,获取冗余率;以及基于专业人员抽样分析所述目标翻译语料,判断质量是否达标,并获取质量分析标签;
[0010]将所述质量分析标签和所述冗余率联合计算,获取所述原始翻译语料对应的原始语料评分,根据所述原始语料评分进行质量评估。
[0011]优选的,在获取所述原始翻译语料之后,分析获取所述原始翻译语料对应的语料类型;其中,所述语料类型包括单语语料和平行语料;
[0012]所述单语语料对应的所述语料特征包括通过专业人员评估获取的所述语言模型概率;其中,所述语言模型概率用于表征所述子语料的流畅度。
[0013]优选的,结合所述语料特征对应的特征权重获取所述子语料的所述语料质量评分,包括:
[0014]计算获取所述语料特征对应的特征值,并标记为P
i
;其中,i为所述语料特征的编号;
[0015]通过公式获取所述语料质量评分Q(c,e);其中,(c,e)表示句对,c为源语句,e为目标语句,w
i
为语料特征i对应的特征权重。
[0016]优选的,根据所述语料质量评分对所述子语料进行排序,获取所述目标翻译语料,包括:
[0017]获取若干所述子语料对应的所述语料质量评分;
[0018]将排序规则和所述语料质量评分结合,对若干所述子语料排序;其中,所述排序规则包括从大到小或者从小到大;
[0019]按照语料长度对排序后的若干所述子语料进行调整,获取所述目标翻译语料;其中,所述语料长度用于调整语料质量评分相同的若干子语料的顺序。
[0020]优选的,基于所述覆盖度分析所述目标翻译语料进行分析,获取所述冗余率,包括:
[0021]获取所述目标翻译语料;
[0022]通过所述覆盖度对所述目标翻译语料进行扫描筛选,获取高效翻译语料;其中,所述覆盖度的参考指标包括词的覆盖、N

gram的覆盖、短语翻译对的覆盖中的一种或者多种;
[0023]计算所述高效翻译语料在所述目标翻译语料中的所占比例,标记为所述冗余率。
[0024]优选的,基于专业人员对所述目标翻译语料进行抽样分析,根据抽样分析结果生成所述质量分析标签,包括:
[0025]通过专业人员从所述目标翻译语料的首尾各随机抽取设定比例的子语料,并分别标记为首部语料和尾部语料;其中,所述设定比例的范围为[0.05,0.3];
[0026]当所述首部语料和所述尾部语料对应若干子语料的语料质量评分的平均分值不低于分值阈值时,则将所述质量分析标签设置为1;否则,将所述质量分析标签设置为0;其中,所述分值阈值根据经验设定。
[0027]优选的,在获取所述质量分析标签之前,根据所述首部语料和所述尾部语料评估所述目标翻译语料的合理性,包括:
[0028]专业人员对所述首部语料和所述尾部语料中的子语料进行人工评分,并标记为人工质量评分;
[0029]当所述设定规则为从大到小时,所述首部语料中任意一个所述子语料对应的人工质量评分均大于所述尾部语料,判定所述目标翻译语料合理;或者
[0030]当所述设定规则为从小到大时,所述首部语料中任意一个所述子语料对应的人工质量评分均不大于所述尾部语料,判定所述目标翻译语料合理。
[0031]优选的,将所述质量分析标签和所述冗余率联合分析,根据分析结果对所述原始翻译语料进行质量评估,包括:
[0032]将所述冗余率和所述质量分析标签分别标记为RL和ZFB;
[0033]通过公式YPF=α
×
ZFB
×
RL获取原始语料评分YPF;其中,α为大于0的比例系数;
[0034]当YPF≥L时,则判定所述原始翻译语料质量合格;否则,判定所述原始翻译语料不
合格;其中,L为根据经验数据设定的评分阈值。
[0035]与现有技术相比,本专利技术的有益效果是:
[0036]1、本专利技术首先对根据语料特征获取原始翻译语料中子语料的语料质量评分,进而获取质量分析标签;结合目标翻译语料的冗余率和质量分析标签获取原始语料评分,根据原始语料评分实现对原始翻译语料质量的评估,当质量和噪声均在要求范围内时,判定该原始翻译语料是符合高质量要求的。
[0037]2、本专利技术在获取目标翻译语料之后,通过专业人员对目标翻译语料进行抽样分析,判定其是否合理,通过合理调节设定比例可以满足不同规模目标翻译语料的需求,能够提高质量分析精度。
附图说明
[0038]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0039]图1为本专利技术的工作步骤示意图。
具体实施方式
[0040]下面将结合实施例对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种机器翻译语料质量评估处理方法,其特征在于,包括:获取原始翻译语料,以及所述原始翻译语料对应的所述语料特征;其中,所述语料特征包括翻译质量、语言模型概率、翻译模型概率中的一种或多种;根据所述语料特征计算获取所述原始翻译语料中子语料的语料质量评分,并根据所述语料质量评分对所述子语料进行排序,获取目标翻译语料;基于覆盖度对所述目标翻译语料进行分析,获取冗余率;以及基于专业人员抽样分析所述目标翻译语料,判断质量是否达标,并获取质量分析标签;将所述质量分析标签和所述冗余率联合计算,获取所述原始翻译语料对应的原始语料评分,根据所述原始语料评分进行质量评估。2.根据权利要求1所述的一种机器翻译语料质量评估处理方法,其特征在于,在获取所述原始翻译语料之后,分析获取所述原始翻译语料对应的语料类型;其中,所述语料类型包括单语语料和平行语料;所述单语语料对应的所述语料特征包括通过专业人员评估获取的所述语言模型概率;其中,所述语言模型概率用于表征所述子语料的流畅度。3.根据权利要求1所述的一种机器翻译语料质量评估处理方法,其特征在于,结合所述语料特征对应的特征权重获取所述子语料的所述语料质量评分,包括:计算获取所述语料特征对应的特征值,并标记为P
i
;其中,i为所述语料特征的编号;通过公式获取所述语料质量评分Q(c,e);其中,(c,e)表示句对,c为源语句,e为目标语句,w
i
为语料特征i对应的特征权重。4.根据权利要求1所述的一种机器翻译语料质量评估处理方法,其特征在于,根据所述语料质量评分对所述子语料进行排序,获取所述目标翻译语料,包括:获取若干所述子语料对应的所述语料质量评分;将排序规则和所述语料质量评分结合,对若干所述子语料排序;其中,所述排序规则包括从大到小或者从小到大;按照语料长度对排序后的若干所述子语料进行调整,获取所述目标翻译语料;其中,所述语料长度用于调整语料质量评分相同的若干子语料的顺序。5.根据权利要求4所述的一种机器翻译语料质量评估处理方法,其特征在于,基于所述覆盖度分析所述目标翻译语料进行分...

【专利技术属性】
技术研发人员:李天洋胡环环王艺宁
申请(专利权)人:合肥群音信息服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1