一种中医药垂直领域中英机器翻译方法技术

技术编号:36516512 阅读:17 留言:0更新日期:2023-02-01 15:48
本发明专利技术公开了一种中医药垂直领域中英机器翻译方法,包括以下步骤:1.中医药平行语料库建设;2.利用迁移学习的方式搭建神经机器翻译模型;3.中医药领域术语库加工;4.远程监督知识库构建;5.综合利用。本发明专利技术与现有技术相比的优点在于:更好的利用了迁移学习的策略,并优化了模型参数和改进了模型结构,使其在充分继承原预训练模型优点和海量参数的同时极大的改进了模型训练的精度和效率,形成了具有中医药语言学特色的中英领域翻译模型,利用了远程监督的方式,把高质量中医药中英平行语料资源、专业中英术语词汇资源、正异名资源进行整合为知识库,仅通过知识库就可以译出目标语言,并且准确率极高,同时对正异名词汇也有很好的合并功能。好的合并功能。好的合并功能。

【技术实现步骤摘要】
一种中医药垂直领域中英机器翻译方法


[0001]本专利技术涉及自然语言处理技术里的机器翻译领域,具体是指一种基于迁移学习和远程监督知识库策略的中医药垂直领域中英机器翻译方法。

技术介绍

[0002]中医药学是中国古代科学的瑰宝,也是打开中华文明宝库的钥匙。为了加快推进中医药发展和国际化进程,需加强中医药翻译,特别是利用机器翻译的方式高效、快速、准确的进行大批量的中医文献翻译。但是中医药学作为中国的传统文化,其具有如下特点:
[0003]中医药学需要翻译的信息含量比较大,体现在中医术语、中医方剂名称除了有指代功能,还起着说明作用。
[0004]中医药历史悠久,许多术语用的是文言文,描述简洁,简明扼要,用字少但表意深。
[0005]目前比较主流的中英神经机器翻译,作为一种以数据为驱动来建立翻译模型的方法。其高度依赖平行语料库的质量、结构和规模。并且由于构建神经网络过程中的参数、超参数等配置项非常多,导致只有当自己的平行语料库达到一个非常大的量级。中英神经机器翻译带来的效果才会显著提高,达到可应用级。而且,由于中医药学包括文言文、代指关系、领域术语等会掺杂在自然语言中的特性,在中英神经机器翻译模型的预测下,会导致译文和原文差别很大。并且由于,中医药领域高质量译文数据比较稀缺,没有形成建设中英神经机器翻译所需的平行语料规模,导致中医药中英神经机器翻译效果不理想,因此提升中医药中英机器翻译有非常中药的应用前景和意义。
[0006]神经机器翻译
[0007]神经机器翻译是一种通过神经网络直接实现自然语言之间端到端的自动翻译,通常采用编码器

解码器框架实现序列到序列的转换。基于编码器

解码器框架的神经机器翻译具有2个特点。1:编码器

解码器框架学习到的句子向量表示可将句法不同、语义相同的句子聚在一起,同时能将通过调换主语和宾语产生的句法相同、语义不同的句子区分开。2:神经机器翻译通过基于长短时记忆的递归神经网络能有效捕获长距离依赖,同时通过向量表示缓解数据稀疏问题,提升译文的流利度和可读性。
[0008]迁移学习
[0009]迁移学习是一种机器学习方法,就是把为任务A开发的模型作为初始点,重新使用在为任务B开发模型的过程中。简单来说,迁移学习是把一个领域(即源领域)的知识,迁移到另外一个领域(即目标领域),使得目标领域能够取得更好的学习效果。
[0010]迁移学习是属于机器学习的一种研究领域。它专注于存储已有问题的解决模型,并将其利用在其他不同但相关问题上。通俗来说,迁移学习就是利用已有的先验知识让算法来学习新的知识,也就是说要找到先验知识与新知识之间的相似性。域适配当前迁移学习领域中解决问题的主要思路。在迁移学习和域适配中,已有的先验知识的数据集称为源域(source domain),需要算法学习的新知识的数据集叫目标域(targetdomain)。通常情况下,源域和目标与之间存在较大差异即数据分布不完全相同但是肯定有有所关联。
[0011]远程监督
[0012]远程监督算法是目前主流的关系抽取系统广泛采用的方法,也是该领域的研究热点之一。该算法很好地解决了数据标注的规模问题。为了打破有监督学习中人工数据标注的局限性,该算法的核心思想是将文本与大规模知识图谱进行实体对齐,利用知识图谱已有的实体间关系对文本进行标注。为了能得到更丰富的训练样本,提出了multi

instance multi

labels的方法。该方法的假设是,同一个包中,一个sentence只能表示(E1,E2)的一种关系,也就是只能给出一个label,但是不同的sentence可以表征(E1,E2)的不同关系,从而得到不同的label。多label标注的label值不是正或负,而是某一种关系。它为同时挖掘一个实体对的多种关系提供了可能的实现途径。为构建知识库提供基础数据保障。
[0013]知识库
[0014]知识库(Knowledge Base)是知识工程中结构化,易操作,易利用,全面有组织的知识集群,是针对某一(或某些)领域问题求解的需要,采用某种(或若干)知识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合。这些知识片包括与领域相关的理论知识、事实数据,由专家经验得到的启发式知识,如某领域内有关的定义、定理和运算法则以及常识性知识等。
[0015]全文搜索引擎
[0016]全文检索技术以各类数据如文本、声音、图像等为对象,提供按数据的内容而不是外在特征来进行的信息检索,其特点是能对海量的数据进行有效管理和快速检索。它是搜索引擎的核心技术,同时也是电子商务网站的支撑技术。全文检索技术可应用于企业信息网站、媒体网站、站点、商业网站、数字图书馆和搜索引擎中。我们知道,企业信息化是电子商务的基础,企业建立自己的商务站点,构建企业内部信息发布平台,并与其他网站间建立安全的信息发布通道和交换通道,建立电子商务的应用并以数据为中心建立应用平台等方面都离不开全文检索。该检索技术可跨越所有的数据源,支持多种数据和信息格式,对检索结果可按商业分类规则进行排列,也能满足用户特定的知识检索请求,将所有不同信息查询中的命中结果按相关性或分类排列,提供不同格式的信息浏览功能。
[0017]Bert预训练模型
[0018]BERT的全称为Bidirectional Encoder Representation from Transformers,是一个预训练的语言表征模型。所谓预训练语言表示模型,就是先用这个模型在可与最终任务无关的大数据集上训练处语言的表示,然后将学到的知识(表示)用到任务相关的语言表示上。它强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练,而是采用新的masked language model(MLM),以致能生成深度的双向语言表征。
[0019]其特点为:
[0020]采用MLM对双向的Transformers进行预训练,以生成深层的双向语言表征。
[0021]预训练后,只需要添加一个额外的输出层进行fine

tune,就可以在各种各样的下游任务中取得 state

of

the

art的表现。在这过程中并不需要对BERT进行任务特定的结构修改。
[0022]M2M预训练模型
[0023]Facebook公开的M2M

100模型,基于Facebook的多语言模型XLM

R,使用
ccAligned,ccMatrix和LASER等开源数据挖掘工具收集了包含100多种语言的超过75亿个句子,根据语言分类、地理和文化相似性等参数分为14种不同的语言组。在14个语言组中,每个语言会被标识一到三种“过渡语言”,然后将其作为翻译成不同语言组的基础。
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种中医药垂直领域中英机器翻译方法,其特征在于,包括以下步骤:1.中医药平行语料库建设;2.利用迁移学习的方式搭建神经机器翻译模型;3.中医药领域术语库加工;4.远程监督知识库构建;5.综合利用。2.根据权利要求1所述的一种中医药垂直领域中英机器翻译方法,其特征在于,步骤1分为以下子步骤:1.1.对搜集的中医药中英领域平行语料对进行预处理,包括中英文乱码过滤、特殊字符处理、去重复处理、合理性校验;1.2.对经过预处理的中文数据进行分词和双语对齐;1.3.数据集划分,按照一定的比例对经过预处理后的数据,划分为训练集、验证集、测试集。3.根据权利要求1所述的一种中医药垂直领域中英机器翻译方法,其特征在于,步骤2分为以下子步骤:2.1.选用M2M_100模型作为迁移学习的预训练模型;2.2.作为本发明的优选方案一,需要在预训练模型基础上扩展,中医药双语平行语料数据集;2.3.安装M2M100Tokenizer分词器;2.4.根据中医药语言特色配置构建模型超参和参数;2.5.通过结构化Dropout对其进行剪枝减少Transofrmer深度;2.6.二值化训练集、验证集、测试集数据,为模型训练做好准备;2.7.执行模型训练;2.8.得到利用预训练模型+中医药中英平行语料数据,训练的基于迁移学习的新中医药中英垂直领域翻译模型。4.根据权利要求1所述的一种中医药垂直领域中英机器翻译方法,其特征在于,步骤3分为以下子步骤:3.1.对搜集的中医药领域特色中英术语词汇进行乱码过滤、特殊字符处理、去重复处理、合理性校验;3.2.对搜集的中医药领域特色中英术语词汇进行分类;3.3.对不同类别的中医药特色中英术语词汇进行长短排序,并对其进行数字权重标记。5.根据权...

【专利技术属性】
技术研发人员:亢力张黎储戟农李强邢雁辉吕依馨高彤李敬华李园白杨阳雷蕾杨策刘红杨乐姚克宇陈嘉俊
申请(专利权)人:中国中医科学院中医药信息研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1