语料库构建与过滤方法及系统技术方案

技术编号:34261093 阅读:25 留言:0更新日期:2022-07-24 13:50
本发明专利技术提供了一种语料库构建与过滤方法及系统,包括:步骤1:对获取的初始平行语料进行文档分句对齐处理,得到双语平行语料;步骤2:根据双语平行语料的文本对齐度,进行过滤处理,得到语料库。与现有技术相比,本发明专利技术实现了多种互联网多语种语料库的自动采集的方案,并能够基于此完成语料库的自动对齐。此外,还设计了高性能低资源语种的过滤方法,进一步提高了生成语料库的质量,为相关自然语言处理下游任务提供数据保障和支持。任务提供数据保障和支持。任务提供数据保障和支持。

Corpus construction and filtering method and system

【技术实现步骤摘要】
语料库构建与过滤方法及系统


[0001]本专利技术涉及跨语言文本翻译与对齐
,具体地,涉及一种语料库构建与过滤方法及系统,尤其涉及一种面向低资源语种翻译系统的语料库构建与过滤方法。

技术介绍

[0002]随着沿线信息化基础设施的不断普及,加之沿线多语种语言互通的复杂性,信息系统越来越依赖高质量的多语种跨语言服务。由此可见,多语种跨语言信息处理服务,成为迫切需求。而目前各个国家语言种类繁多,语言状况复杂,大多数语言语料资源匮乏,且获取难度高、代价大,这类语言被称为低资源语言。近几年,神经网络机器翻译模型取得了最好的翻译性能。但这种神经网络机器翻译依赖于高质量的双语语料,不同语种的双语语料对,如汉语—尼泊尔语,其质量与规模对机器翻译的训练效果有重要影响。
[0003]因此,构建良好低资源翻译系统的重要前提是能够获取内容丰富的高质量双语语料。
[0004]专利文献CN114139561A公开了一种多领域神经机器翻译性能提升方法,步骤为:爬取海量数据作为模型训练语料,分为特定领域语料库和多领域平行语料库;计算多领域平行语料库中每个句子与各个特定领域语料库的相似度;从多领域平行语料库中筛选与多个特定领域语料库平均相似度高的句子作为多领域模型的训练集;构建多领域深层神经机器翻译模型和多个特定领域的深层神经机器翻译模型进行训练并存储模型参数;计算各个特定领域语料库与多领域平行语料库的相似度,对多领域模型和各个特定领域模型进行循环知识精炼,最终得到性能提升的多领域神经机器翻译模型。该专利文献提出通过网络爬虫提取文本,通过句向量相似度选择训练数据。但是,该方法没有提供爬虫对象、爬取方式和文本处理方式,更没有提出针对低资源语料的语料选择和过滤算法,没有解决低资源语料的语料选择和过滤的问题。

技术实现思路

[0005]针对现有技术中的缺陷,本专利技术的目的是提供一种语料库构建与过滤方法及系统。
[0006]根据本专利技术提供的一种语料库构建与过滤方法,包括:
[0007]步骤1:对获取的初始平行语料进行文档分句对齐处理,得到双语平行语料;
[0008]步骤2:根据双语平行语料的文本对齐度,进行过滤处理,得到语料库。
[0009]优选地,步骤1,包括:
[0010]步骤101:从预设资源库中获取初始平行语料;
[0011]步骤102:对初始平行语料进行分句,并进行句子对齐处理,得到双语平行语料。
[0012]优选地,步骤2,包括:
[0013]步骤201:将双语平行语料输入翻译模型,以得到翻译模型输出的特征向量;
[0014]步骤202:将特征向量输入多层感知机,以获取文本对齐度;
[0015]步骤203:通过文本对齐度进行过滤处理,得到语料库。
[0016]优选地,步骤1,还包括:
[0017]步骤103:对预设资源库进行网页派生,得到派生网页集合;
[0018]步骤104:将网页派生集合加入预设资源库。
[0019]优选地,步骤203,包括:
[0020]步骤2031:若文本对齐度大于或者等于预设阈值,则将对应的双语平行语料放入语料库;
[0021]步骤2032:若文本对齐度小于预设阈值,则舍弃对应的双语平行语料。
[0022]根据本专利技术提供的一种语料库构建与过滤系统,包括:
[0023]模块M1:对获取的初始平行语料进行文档分句对齐处理,得到双语平行语料;
[0024]模块M2:根据双语平行语料的文本对齐度,进行过滤处理,得到语料库。
[0025]优选地,模块M1,包括:
[0026]子模块M101:从预设资源库中获取初始平行语料;
[0027]子模块M102:对初始平行语料进行分句,并进行句子对齐处理,得到双语平行语料。
[0028]优选地,模块M2,包括:
[0029]子模块M201:将双语平行语料输入翻译模型,以得到翻译模型输出的特征向量;
[0030]子模块M202:将特征向量输入多层感知机,以获取文本对齐度;
[0031]子模块M203:通过文本对齐度进行过滤处理,得到语料库。
[0032]优选地,模块M1,还包括:
[0033]子模块M103:对预设资源库进行网页派生,得到派生网页集合;
[0034]子模块M104:将网页派生集合加入预设资源库。
[0035]优选地,模块M203,包括:
[0036]单元D2031:若文本对齐度大于或者等于预设阈值,则将对应的双语平行语料放入语料库;
[0037]单元D2032:若文本对齐度小于预设阈值,则舍弃对应的双语平行语料。
[0038]与现有技术相比,本专利技术具有如下的有益效果:
[0039]1、本专利技术大大提高了低资源语料的采集能力,通过种子网址不断发掘更多的单语言或者是多语言的语言信息。从而获取到更多更新的低资源语料。
[0040]2、本专利技术够自动化地完成多语言的句子划分,词对齐等工作。初步筛除过低质量语料。极大提高语料评价与过滤的速度。
[0041]3、本专利技术能够在获取语料信息的基础上通过对齐算法评价语言质量,并过滤掉噪音较大的部分,生成有较高利用价值的平行文本。这种算法性能超过基于句向量,词向量,对偶交叉熵等方法的评价性能。
附图说明
[0042]通过阅读参照以下附图对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显:
[0043]图1为本专利技术的流程示意图;
[0044]图2为本专利技术的初始平行语料的获取方式的示意图;
[0045]图3为本专利技术的基于预训练的跨语言模型架构示意图。
具体实施方式
[0046]下面结合具体实施例对本专利技术进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本专利技术,但不以任何形式限制本专利技术。应当指出的是,对本领域的普通技术人员来说,在不脱离本专利技术构思的前提下,还可以做出若干变化和改进。这些都属于本专利技术的保护范围。
[0047]可知的是,高质量语料对相关自然语言处理下游任务有着重要影响,而部分低资源语料匮乏,获取难度大;已有的互联网自动采集算法收集的语料类型与语种单一、现有的语料过滤技术效果过于依赖现有双语词典质量的问题。
[0048]现有的一些技术从互联网自动采集多语言语料,但是这些技术往往从新闻网站,技术社区,维基百科等内容有限的网站进行语料爬取。这些方法面向固定的网站,很难获取到源源不断的语料信息,也很难在低资源语料上获取到更多更丰富的语料。
[0049]除此之外,现有的语料过滤技术注重使用一些统计方法或是词向量句向量的方法,统计方法常常对语料的过滤效果较差,不能有效筛选出高质量的双语语言以供使用。而词向量的方法依赖于双语词典的质量,往往过滤效果强差人意。
[0050]针对以上问题,本专利技术设计实现了多种互联网多语种语料库的自动采集的方案,并能够基于此完成语料本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语料库构建与过滤方法,其特征在于,包括:步骤1:对获取的初始平行语料进行文档分句对齐处理,得到双语平行语料;步骤2:根据所述双语平行语料的文本对齐度,进行过滤处理,得到语料库。2.根据权利要求1所述的语料库构建与过滤方法,其特征在于,所述步骤1,包括:步骤101:从预设资源库中获取所述初始平行语料;步骤102:对所述初始平行语料进行分句,并进行句子对齐处理,得到所述双语平行语料。3.根据权利要求1所述的语料库构建与过滤方法,其特征在于,所述步骤2,包括:步骤201:将所述双语平行语料输入翻译模型,以得到所述翻译模型输出的特征向量;步骤202:将所述特征向量输入多层感知机,以获取所述文本对齐度;步骤203:通过所述文本对齐度进行过滤处理,得到所述语料库。4.根据权利要求1或2所述的语料库构建与过滤方法,其特征在于,所述步骤1,还包括:步骤103:对所述预设资源库进行网页派生,得到派生网页集合;步骤104:将所述网页派生集合加入所述预设资源库。5.根据权利要求3所述的语料库构建与过滤方法,其特征在于,所述步骤203,包括:步骤2031:若所述文本对齐度大于或者等于预设阈值,则将对应的双语平行语料放入所述语料库;步骤2032:若所述文本对齐度小于所述预设阈值,则舍弃对应的双语平行语料。6.一种语料库构建与过滤系统,...

【专利技术属性】
技术研发人员:郭建铭夏子超郑心浩陈欣然郭进尧刘津榤刘琴刘功申
申请(专利权)人:上海交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1