一种训练自然语言处理模型的方法和系统技术方案

技术编号:26377660 阅读:19 留言:0更新日期:2020-11-19 23:46
本申请实施例公开了一种训练自然语言处理模型方法及系统。所述方法包括:获取语言训练样本以及初始模型,所述初始模型包括第一模型以及第二模型,所述第一模型至少包含编码器,所述第二模型至少包含所述第一模型的编码器;以及利用所述语言训练样本,经过迭代训练过程训练所述初始模型以生成自然语言处理模型,其中,所述迭代训练过程包括一次或以上的迭代,所述编码器在每一次迭代中被更新两次。本申请在训练执行具体自然语言处理任务的第二模型时,先通过训练编码器的方式对语言训练样本进行预处理,可以解决自然语言处理过程中数据集较大的问题,提高训练效率以及准确率。

【技术实现步骤摘要】
一种训练自然语言处理模型的方法和系统
本申请涉及自然语言处理领域,特别涉及一种训练自然语言处理模型的方法和系统。
技术介绍
近年来,自然语言处理(NLP,NaturalLanguageProcessing)作为研究人与计算机交互的语言问题的基础,其融合了语言学、计算机科学、数学科学等,也是人工智能的核心课题之一。目前,在例如语义分析、情感分类等具体的自然语言处理任务中,通常需要将海量的输入文本或语音转换文本数据,影响自然语言处理系统的效率及性能。
技术实现思路
本申请实施例之一提供一种训练自然语言处理模型的方法,以提高自然语言处理模型的训练效果和/或训练效率。本申请实施例之一提供一种训练自然语言处理模型的方法。该方法包括获取语言训练样本以及初始模型,所述初始模型包括第一模型以及第二模型,所述第一模型至少包含编码器,所述第二模型至少包括所述第一模型的编码器。该方法进一步包括利用所述语言训练样本,经过迭代训练过程训练所述初始模型以生成自然语言处理模型。其中,所述迭代训练过程包括一次或以上的迭代,所述编码器在第一次迭代中被更新两次。本申请实施例之一提供一种训练自然语言处理模型的系统。所述系统包括获取模块和训练模块。所述获取模块用于获取语言训练样本以及初始模型,所述初始模型包括第一模型以及第二模型,所述第一模型至少包含编码器,所述第二模型至少包括所述第一模型的编码器。所述训练模块用于利用所述语言训练样本,经过迭代训练过程训练所述初始模型以生成自然语言处理模型。其中,所述迭代训练过程包括一次或以上的迭代,所述编码器在每一次迭代中被更新两次。本申请实施例之一提供一种训练自然语言处理模型的装置,包括处理器,所述处理器用于执行上述训练自然语言处理模型的方法。本申请实施例之一提供一种计算机可读存储介质,所述存储介质存储计算机指令,当计算机读取存储介质中的计算机指令后,计算机执行上述训练自然语言处理模型方法。附图说明本申请将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:图1是根据本申请一些实施例所示的自然语言处理系统的应用场景示意图;图2是根据本申请一些实施例所示的处理引擎的模块图;图3是根据本申请一些实施例所示的训练自然语言处理模型的示例性流程图;图4A是根据本申请一些实施例所示用于执行迭代训练过程中的一次当前迭代的示例性流程图;图4B是根据本申请一些实施例所示的图4A中流程400的示例性示意图;图5是根据本申请一些实施例所示的更新当前迭代中的第一模型的示例性流程图;以及图6是根据本申请一些实施例所示的更新当前迭代中的第二模型的示例性流程图。具体实施方式为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。应当理解,本文使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。如本申请和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。图1是根据本申请一些实施例所示的自然语言处理系统100的应用场景示意图。自然语言处理系统100可以用于自然语言处理领域。例如,自然语言处理系统100可以训练自然语言处理模型,例如语序确定模型、语言分类模型和语言预处理模型等模型。又例如,自然语言处理系统100可以应用自然语言处理模型执行诸如语言分类、语序确定、语言预处理等自然语言处理任务。自然语言处理系统100可以是用于各种领域,例如,处理各种情境中的自然语言。在一些实施例中,自然语言处理系统100可以应用于提供互联网服务的线上服务平台。例如,该自然语言处理系统100可以应用于提供运输服务的网约车平台,其中所述网约车平台可以提供诸如出租车呼叫、快车呼叫、专车呼叫、小巴呼叫、拼车、公交服务、司机雇佣和接送服务等运输服务。自然语言处理系统100可以生成适用于网约车平台的自然语言处理模型。此外地或可替代地,自然语言处理系统100可以应用该自然语言处理模型对网约车平台中生成的自然语言(例如,司机和乘客之间的通信记录、乘客提交的评价信息等)进行分析。又例如,该自然语言处理系统100还可以用于快递平台、外卖平台等。如图1所示,所述自然语言处理系统100可以包括服务器110、网络120、终端130、存储设备140和数据源150。在一些实施例中,服务器110可以是一个单个的服务器或者一个服务器群组。所述服务器群组可以是集中式的或分布式的(例如,服务器110可以是一个分布式的系统)。在一些实施例中,服务器110可以是本地的或远程的。例如,服务器110可以通过网络120访问存储在终端130、存储设备140和/或数据源150中的信息和/或数据。再例如,服务器110可以直接连接到终端130、存储设备140和/或数据源150以访问存储的信息和/或数据。在一些实施例中,服务器110可以从终端130、存储设备140和/或数据源150处获取用以训练初始模型的语言训练样本。在一些实施例中,服务器110可以在一个云平台上实现。仅仅作为示例,所述云平台可以包括私有云、公共云、混合云、社区云、分布云、内部云、多重云等或上述举例的任意组合。在一些实施例中,服务器110可以包括处理引擎112。处理引擎112可以执行一个或多个本申请实施例描述的功能。例如,处理引擎112可以利用语言训练样本训练初始模型,以生成自然语言处理模型。又例如,处理引擎112可以应用所述自然语言处理模型以执行特定的自然语言处理任务(例如,语言分类)。在一些实施例中,自然语言处理模型的生成和/或更新可以在某处理设备上执行,而自然语言处理模型的应用可以在另一处理设备上执行。在一些实施例中,自然语言处理模型的生成和/或更新可以在不同于自然语言处理系统100的系统的处理设备上或者不同于包括进行自然语言处理模型应用的处理引擎112的服务器上进行。例如,自然语言处理模型的生成和/或更新可以在供应商的第一系统上执行,该供应商提供和/本文档来自技高网...

【技术保护点】
1.一种训练自然语言处理模型的方法,其特征在于,所述方法包括:/n获取语言训练样本以及初始模型,所述初始模型包括第一模型以及第二模型,所述第一模型至少包含编码器,所述第二模型至少包括所述第一模型的编码器;以及/n利用所述语言训练样本,经过迭代训练过程训练所述初始模型以生成自然语言处理模型,/n其中,所述迭代训练过程包括一次或以上的迭代,所述编码器在每一次迭代中被更新两次。/n

【技术特征摘要】
1.一种训练自然语言处理模型的方法,其特征在于,所述方法包括:
获取语言训练样本以及初始模型,所述初始模型包括第一模型以及第二模型,所述第一模型至少包含编码器,所述第二模型至少包括所述第一模型的编码器;以及
利用所述语言训练样本,经过迭代训练过程训练所述初始模型以生成自然语言处理模型,
其中,所述迭代训练过程包括一次或以上的迭代,所述编码器在每一次迭代中被更新两次。


2.根据权利要求1所述的方法,其特征在于,所述一次或以上的迭代中的至少一次当前迭代包括:
基于所述语言训练样本更新当前迭代中的第一模型以得到第一被更新的第一模型,所述第一被更新的第一模型包括第一被更新的编码器;
基于所述第一被更新的编码器构建当前迭代中的第二模型;
基于所述语言训练样本更新当前迭代中的第二模型以得到被更新的第二模型,所述被更新的第二模型包括第二被更新的编码器;
基于所述第一被更新的第一模型和第二被更新的编码器生成第二被更新的第一模型,以用于下一次迭代。


3.根据权利要求2所述的方法,其特征在于,所述语言训练样本包括一个或多个第一语言序列,所述基于所述语言训练样本更新当前迭代中的第一模型以得到第一被更新的第一模型包括:
对每个第一语言序列,将其输入所述当前迭代中的第一模型,以得到预测语言序列;
基于所述一个或多个第一语言序列和所述一个或多个预测语言序列,确定第一损失函数的值;以及
基于所述第一损失函数的值,更新所述当前迭代中的第一模型以得到第一被更新的第一模型。


4.根据权利要求3所述的方法,其特征在于,对所述每个第一语言序列,当前迭代中的第一模型的编码器被用于:
将所述第一语言序列转化成语义向量;以及
对所述语义向量进行编码,以生成编码后的语义向量。


5.根据权利要求4所述的方法,其特征在于,所述第一模型进一步包括解码器,
当前迭代中的第一模型的解码器被用于对所述编码后的语义向量进行解码,以生成所述第一语言序列对应的预测语言序列。


6.根据权利要求2所述的方法,其特征在于,所述语...

【专利技术属性】
技术研发人员:程浩杨晓庆李奘
申请(专利权)人:北京嘀嘀无限科技发展有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1