基于对比学习的汉-老、泰平行句对抽取方法及装置制造方法及图纸

技术编号:39001588 阅读:6 留言:0更新日期:2023-10-07 10:33
本发明专利技术涉及基于对比学习的汉

【技术实现步骤摘要】
基于对比学习的汉

老、泰平行句对抽取方法及装置


[0001]本专利技术涉及基于对比学习的汉

老、泰平行句对抽取方法及装置,属于自然语言处理


技术介绍

[0002]神经机器翻译模型的训练依赖于大规模的平行语料,语料的数量及质量直接决定了神经机器翻译模型的翻译质量。泰语和老挝语都属于低资源语言,开源的汉泰及汉老平行语料稀缺,其语料库的构建是当前急需解决的问题。随着中国与东南亚国家交流的日益密切,互联网上出现了一些内容相同或相近的双语网站,从该类网站上爬取大量可比句对,并训练平行句对抽取模型从中抽取平行语料,是缓解汉泰和汉老语料稀缺的有效手段。
[0003]平行句对抽取主要是通过计算跨语言句子相似度实现的。早期句子特征的抽取依赖于特征工程,该类方法受限于先验知识的构建,且可扩展性较差。随着深度学习的发展,基于神经网络的平行句对抽取方法逐渐出现。现有双语平行句对抽取方法主要利用孪生网络分别对双语句子进行特征提取并计算其语义相似度,该类方法需要部分基础数据,通过联合训练的方式利用资源较丰富的汉泰语料提升汉老平行句对抽取模型的效果是缓解汉老资源稀缺问题的有效方式,但直接联合训练汉泰和汉老语料会导致泰语和老挝语语义空间不一致。泰语和老挝语书写体系完全不同,语义空间差异较大,但二者句法相似度较高,都遵循主语+谓语+宾语(Subject

Verb

Object, SVO)的语序规则,且形容词都是后置的,现有方法未充分利用其句法相似性拉近语义空间距离。同时,现有方法在进行相似度计算时易出现相似不平行句对的误判,本专利技术认为这是由于模型对句子的表征能力弱,导致对句子的语义平行关系判定困难。针对以上问题,本专利技术提出了基于对比学习的汉

老、泰平行句对抽取方法。

技术实现思路

[0004]本专利技术提供了基于对比学习的汉

老、泰平行句对抽取方法及装置,以缓解现有方法在进行相似度计算时易出现相似不平行句对的误判的问题。
[0005]本专利技术的技术方案是:第一方面,本专利技术提供基于对比学习的汉

老、泰平行句对抽取方法,所述方法的具体步骤如下:
[0006]Step1、进行文本数据预处理:首先从OPUS和亚洲语言树库上获取了汉语

泰语和汉语

老挝语平行语料,并使用爬虫技术从双语网站上获取汉语

泰语,汉语

老挝语可比语料,以此为基准进行数据集构建,构建方法为融合句法特点的汉语

老挝语、汉语

泰语训练数据集构建方法及基于泰语、老挝语发音相似性引导的泰语

老挝语双语词典构建方法;
[0007]Step2、训练基于对比学习的汉语

老挝语、泰语平行句对抽取模型:首先,通过XLM

R预训练模型对文本进行编码,获得更丰富的语义表征,并引入多语言联合训练的方式缓解汉语

老挝语、泰语抽取模型训练数据稀缺问题,其次,引入对比学习方法训练模型,增强模型对泰语和老挝语的表征能力;
[0008]Step3、进行汉语

老挝语、泰语平行句对抽取:将训练好的汉语

老挝语、泰语平行句对抽取模型部署为平行句对抽取系统,从汉语

老挝语和汉语

泰语可比语料中抽取平行句对。
[0009]进一步地,所述Step1的具体步骤为:
[0010]Step1.1、首先从OPUS和亚洲语言树库上获取了汉语

泰语和汉语

老挝语平行语料,构建汉语、老挝语、泰语语法解析工具,并使用爬虫技术从泰语

汉语和老挝语

汉语双语网站获取汉语

泰语,汉语

老挝语可比语料;融合句法特点的汉语

老挝语、汉语

泰语训练数据集构建方法包括:通过正则匹配、网页标签清除,长度筛查方式对可比语料进行清洗,然后使用构建的语法解析工具进行句法分析,选取句法结构相似的汉语

泰语,汉语

老挝语语料为伪平行语料,结合人工筛查,从中构建了汉语

老挝语、泰语平行句对抽取模型训练数据集,并划分训练集、验证集和测试集;
[0011]Step1.2、构建泰语

老挝语双语词典,构建方法为基于泰语、老挝语发音相似性引导的泰语

老挝语双语词典构建方法,包括:利用泰语和老挝语的互译词具有发音相似性的特点,使用泰语、老挝语转音标工具构建泰语词、老挝语词

音标映射,通过词语发音相似度匹配,即音标的编辑距离匹配结合人工标注的方式构建泰语

老挝语双语词典。
[0012]进一步地,所述Step2的具体步骤为:
[0013]Step2.1、在孪生网络模型的基础上引入XLM

R预训练语言模型对文本进行编码,提高模型的跨语言编码表征能力;
[0014]Step2.2、为了进一步拉近相似文本在语义空间中的距离,同时拉开不相似文本的语义差距,在基于XLM

R的孪生网络模型基础上引入对比学习方法训练模型,对比学习的关键在于正负样例的构建,对于给定的汉语

泰语或老挝语的训练句对样本,采用了两种方式从现有训练数据中构建样例,第一种是利用各个句子和同批次的其他句子配对构建负样本,第二种是利用泰语和老挝语的句法相似性根据多语言同义词替换的方式构建一部分伪数据作为正样本,并通过第一种方法对该部分数据同样构造一部分负样本;
[0015]其中,表示第i个中文句子,表示第i个泰语或老挝语句子,表示配对后的第i个泰语或老挝语句子,表示第i个经过词替换处理的新的泰语或老挝语句子,表示配对后第i个经过词替换处理的新的泰语或老挝语句子。
[0016]进一步地,所述Step2.1的具体步骤为:
[0017]Step2.1.1、在孪生网络模型的基础上引入XLM

R预训练模型对文本进行编码,每一段文本序列分别利用一个768维的向量进行表示;XLM

R的全称是XLM

RoBERTa,该模型的训练方法于XLM预训练模型基本一致,并且思想借鉴了RoBERTa预训练模型,将两种预训练模型的优势进行结合,利用100个语种上的2.5TB语料进行训练,在多项跨语言理解基准任务上取得了最优;对于给定的中文文本序列,其中n为中文文本序列长度,将其输入XLM

R预训练模型进行编码,得到一个稠密的隐向量表示u,计算如下:;其中,表示XLM

R模型编码层;
[0018]Ste本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于对比学习的汉

老、泰平行句对抽取方法,其特征在于:所述方法的具体步骤如下:Step1、进行文本数据预处理:首先从OPUS和亚洲语言树库上获取了汉语

泰语和汉语

老挝语平行语料,并使用爬虫技术从双语网站上获取汉语

泰语,汉语

老挝语可比语料,以此为基准进行数据集构建,构建方法为融合句法特点的汉语

老挝语、汉语

泰语训练数据集构建方法及基于泰语、老挝语发音相似性引导的泰语

老挝语双语词典构建方法;Step2、训练基于对比学习的汉语

老挝语、泰语平行句对抽取模型:首先,通过XLM

R预训练模型对文本进行编码,获得更丰富的语义表征,并引入多语言联合训练的方式缓解汉语

老挝语、泰语抽取模型训练数据稀缺问题,其次,引入对比学习方法训练模型,增强模型对泰语和老挝语的表征能力;Step3、进行汉语

老挝语、泰语平行句对抽取:将训练好的汉语

老挝语、泰语平行句对抽取模型部署为平行句对抽取系统,从汉语

老挝语和汉语

泰语可比语料中抽取平行句对。2.根据权利要求1所述的基于对比学习的汉

老、泰平行句对抽取方法,其特征在于:所述Step1的具体步骤为:Step1.1、首先从OPUS和亚洲语言树库上获取了汉语

泰语和汉语

老挝语平行语料,构建汉语、老挝语、泰语语法解析工具,并使用爬虫技术从泰语

汉语和老挝语

汉语双语网站获取汉语

泰语,汉语

老挝语可比语料;融合句法特点的汉语

老挝语、汉语

泰语训练数据集构建方法包括:通过正则匹配、网页标签清除,长度筛查方式对可比语料进行清洗,然后使用构建的语法解析工具进行句法分析,选取句法结构相似的汉语

泰语,汉语

老挝语语料为伪平行语料,结合人工筛查,从中构建了汉语

老挝语、泰语平行句对抽取模型训练数据集,并划分训练集、验证集和测试集;Step1.2、构建泰语

老挝语双语词典,构建方法为基于泰语、老挝语发音相似性引导的泰语

老挝语双语词典构建方法,包括:利用泰语和老挝语的互译词具有发音相似性的特点,使用泰语、老挝语转音标工具构建泰语词、老挝语词

音标映射,通过词语发音相似度匹配,即音标的编辑距离匹配结合人工标注的方式构建泰语

老挝语双语词典。3.根据权利要求1所述的基于对比学习的汉

老、泰平行句对抽取方法,其特征在于:所述Step2的具体步骤为:Step2.1、在孪生网络模型的基础上引入XLM

R预训练语言模型对文本进行编码,提高模型的跨语言编码表征能力;Step2.2、在基于XLM

R的孪生网络模型基础上引入对比学习方法训练模型,对比学习的关键在于正负样例的构建,对于给定的汉语

泰语或老挝语的训练句对样本,采用了两种方式从现有训练数据中构建样例,第一种是利用各个句子和同批次的其他句子配对构建负样本,第二种是利用泰语和老挝语的句法相似性根据多语言同义词替换的方式构建一部分伪数据作为正样本,并通过第一种方法对该部分数据同样构造一部分负样本;其中,表示第i个中文句子,表示第i个泰语或老挝语句子,表示配对后的第i个泰语或老挝语句子,表示第i个经过词替换处理的新的泰语或老挝语句子,表示配对后第
i个经过词替换处理的新的泰语或老挝语句子。4.根据权利要求3所述的基于对比学习的汉

老、泰平行句对抽取方法,其特征在于:所述Step2.1的具体步骤为:Step2.1.1、在孪生网络模型的基础上引入XLM

R预训练模型对文本进行编码,每一段文本序列分别利用一个768维的向量进行表示;对于给定的中文文本序列,其中n为中文文...

【专利技术属性】
技术研发人员:毛存礼张思琦高盛祥黄于欣王振晗沈政
申请(专利权)人:小语智能信息科技云南有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1