System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及计算机,具体而言,涉及一种术语领域贡献度确定方法、装置、存储介质及电子设备。
技术介绍
1、术语是某种语言中专门指称某一专业知识活动领域一般(具体或者抽象)理论概念的词汇单位。术语具有如下特征:1)术语具有自然语言中的词或词组所具有的语义或形式特点;2)术语本身是在专用语言词汇而不是某种语言整体的词汇中使用的;3)专用语言的词汇是用来指称专业的一般概念的手段;4)术语是反映或将理论模式化的术语系统中的成分,对
的描写正是通过这种成分来描写的。因此在语言翻译领域,术语对于待翻译文本
的确定,有着直接的作用,但不同的术语对于领域程度的确定有着不同的贡献,对于给定的术语,如何确定其对于其所属
的贡献度是判断待翻译文本领域和保证文本翻译正确性的重要指标。
2、因此,如何确定术语对于其所属
的贡献度成为业界亟待解决的技术问题。
技术实现思路
1、本申请提供一种术语领域贡献度确定方法、装置、存储介质及电子设备,用以解决现有技术中如何确定术语对于其所属
的贡献度的技术问题。
2、第一方面,本申请提供了一种术语领域贡献度确定方法,包括:
3、获取历史文本库对应的各个单位文本,所述历史文本库中包括历史翻译文本、所述历史翻译文本所属的
、所述历史翻译文本对应的各个术语,以及各个术语所属的
;
4、基于所述历史翻译文本的单位文本总数、所述历史文本库中目标术语在第一
对应的单位文本中出现的第一次数,以
5、其中,所述第一
为所述目标术语所属的
,所述第二
为所述目标术语所属的
之外的其他
6、在一些实施例中,所述获取历史文本库对应的各个单位文本,包括:
7、获取所述历史文本库;
8、将所述历史翻译文本进行文本拆分,得到各个单位文本。
9、在一些实施例中,所述确定所述目标术语的领域贡献度,包括:
10、基于全量匹配的方式将所述目标术语与各个单位文本中的术语进行字符串匹配;
11、基于匹配结果确定所述目标术语在各个单位文本中的出现次数;
12、统计所述目标术语在所述第一
对应的单位文本中出现的第一次数,以及所述目标术语在所述第二
对应的单位文本中出现的第二次数;
13、基于所述第一次数、所述第二次数和所述单位文本总数,确定所述目标术语对应的领域贡献度。
14、在一些实施例中,所述基于所述第一次数、所述第二次数和所述单位文本总数,确定所述目标术语对应的领域贡献度,包括:
15、获取所述目标术语所属
对应的单位文本数量;
16、基于所述单位文本数量和所述第一次数得到所述目标术语的领域指数;
17、基于所述单位文本数量、所述单位文本总数和所述第二次数得到所述目标术语的非领域指数;
18、基于所述非领域指数与所述领域指数的比值,确定所述目标术语对应的领域贡献度。
19、在一些实施例中,所述领域指数tin的计算公式如下所示:
20、
21、所述非领域指数tout的计算公式如下所示:
22、
23、其中,ni为所述目标术语所属
i对应的单位文本数量、tin为所述第一次数、n为所述单位文本总数,以及tout为所述第二次数。
24、在一些实施例中,所述单位文本的文本形式包括句子、段落和篇章;所述将所述历史翻译文本进行文本拆分,得到各个单位文本,包括:
25、获取当前翻译工具识别的识别文本形式;
26、基于所述识别文本形式确定所述历史翻译文本的文本拆分细粒度;
27、基于所述文本拆分细粒度将所述历史翻译文本拆分成符合所述识别文本形式的单位文本。
28、第二方面,本申请提供了一种术语领域贡献度确定装置,包括:
29、获取模块,用于获取历史文本库对应的各个单位文本,所述历史文本库中包括历史翻译文本、所述历史翻译文本所属的
、所述历史翻译文本对应的各个术语,以及各个术语所属的
;
30、确定模块,用于基于所述历史翻译文本的单位文本总数、所述历史文本库中目标术语在第一
对应的单位文本中出现的第一次数,以及所述历史文本库中所述目标术语在第二
对应的单位文本中出现的第二次数确定所述目标术语的领域贡献度;
31、其中,所述第一
为所述目标术语所属的
,所述第二
为所述目标术语所属的
之外的其他
32、第三方面,本申请提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述的方法。
33、第四方面,本申请提供了一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述程序时实现上述的方法。
34、第五方面,本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述方法。
35、本申请提供的术语领域贡献度确定方法、装置、存储介质及电子设备,通过术语在其所属
对应的单位文本中出现的第一次数,以及该术语在其他
对应的单位文本中出现的第二次数,可以确定该术语在其所属
的领域贡献度,提高了术语领域贡献度的确定准确度和确定效率,可以应用于判断待翻译文本领域和保证文本翻译正确性的场景。
【技术保护点】
1.一种术语领域贡献度确定方法,其特征在于,包括:
2.根据权利要求1所述的术语领域贡献度确定方法,其特征在于,所述获取历史文本库对应的各个单位文本,包括:
3.根据权利要求2所述的术语领域贡献度确定方法,其特征在于,所述确定所述目标术语的领域贡献度,包括:
4.根据权利要求3所述的术语领域贡献度确定方法,其特征在于,所述基于所述第一次数、所述第二次数和所述单位文本总数,确定所述目标术语对应的领域贡献度,包括:
5.根据权利要求4所述的术语领域贡献度确定方法,其特征在于,所述领域指数Tin的计算公式如下所示:
6.根据权利要求2所述的术语领域贡献度确定方法,其特征在于,所述单位文本的文本形式包括句子、段落和篇章;所述将所述历史翻译文本进行文本拆分,得到各个单位文本,包括:
7.一种术语领域贡献度确定装置,其特征在于,包括:
8.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的术语领域贡献度确定方法。
9.一种电
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的术语领域贡献度确定方法。
...【技术特征摘要】
1.一种术语领域贡献度确定方法,其特征在于,包括:
2.根据权利要求1所述的术语领域贡献度确定方法,其特征在于,所述获取历史文本库对应的各个单位文本,包括:
3.根据权利要求2所述的术语领域贡献度确定方法,其特征在于,所述确定所述目标术语的领域贡献度,包括:
4.根据权利要求3所述的术语领域贡献度确定方法,其特征在于,所述基于所述第一次数、所述第二次数和所述单位文本总数,确定所述目标术语对应的领域贡献度,包括:
5.根据权利要求4所述的术语领域贡献度确定方法,其特征在于,所述领域指数tin的计算公式如下所示:
6.根据权利要求2所述的术语领域贡献度确定方法,其特征在于,所述单位文本的文本...
【专利技术属性】
技术研发人员:张芃,
申请(专利权)人:语联网武汉信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。