文本纠错的方法和装置制造方法及图纸

技术编号:21952747 阅读:35 留言:0更新日期:2019-08-24 17:50
本发明专利技术公开了文本纠错的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:根据文本纠错需求,获取待纠错文本;根据纠错模型对待纠错文本进行纠错,输出待纠错文本对应的标准文本,其中纠错模型是经过训练的基于注意力的序列到序列模型。该实施方式利用训练的基于注意力的序列到序列模型对文本进行纠错,减少了计算的复杂度,提高了文本纠错的准确率。

Method and Device of Text Error Correction

【技术实现步骤摘要】
文本纠错的方法和装置
本专利技术涉及计算机
,尤其涉及一种文本纠错的方法和装置。
技术介绍
近年来,随着信息技术的不断创新和进步,智能客服机器人凭借其不需要培训、可以长时间连续工作和不需要人力成本等优势,在客服行业逐渐代替了人工客服。智能客服机器人的核心技术是对用户的输入进行预处理,然后对预处理结果进行意图识别分类,进而根据分类的结果进行应答。预处理过程中的文本纠错环节非常重要。如果不对用户的输入进行纠错,会影响意图识别准确率,最终会导致智能客服机器人应答错误。现有技术是基于语言模型进行文本纠错的,即基于词与词之间的出现概率计算句子的概率。假设句子s是由k个词组成的,即s=W1,W2,…,Wk,(其中W1,W2,…,Wk为构成句子s的词),则句子s的概率p(s)可以表示为:p(s)=p(W1,W2,…,Wk)=p(W1)p(W2|W1)…p(Wk|W1,W2,…,Wk-1)其中,Wk表示当前词,W1,W2,…,Wk-1表示当前词之前的词。在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:一、现有技术基于语言模型进行文本纠错的方法中,语言模型只考虑当前词之前的词语,没有考虑当前词后面的词语;二、现有技术文本纠错的方法采用的语言模型存在模型复杂计算量大的问题,以N-Gram模型(大词汇连续语音识别中常用的一种语言模型)为例,假设词表的大小为100000,那么N-Gram模型的参数数量就达到100000N,N越大,模型越准确,但是模型也越复杂计算量越大。
技术实现思路
有鉴于此,本专利技术实施例提供一种文本纠错的方法和装置,能够减少计算的复杂度,提高文本纠错的准确率。为实现上述目的,根据本专利技术实施例的一个方面,提供了一种文本纠错的方法。本专利技术实施例的一种文本纠错的方法包括:根据文本纠错需求,获取待纠错文本;根据纠错模型对所述待纠错文本进行纠错,输出所述待纠错文本对应的标准文本,所述纠错模型是经过训练的基于注意力的序列到序列模型。可选地,在根据纠错模型对所述待纠错文本进行纠错,输出所述待纠错文本对应的标准文本之前,所述方法还包括:获取第一样本集和第二样本集,所述第一样本集包含至少一个标准文本,所述第二样本集包含与所述标准样本对应的错误文本;利用所述第一样本集和所述第二样本集构建训练样本集;对所述训练样本集进行训练,以得到所述纠错模型,所述纠错模型输入的是所述训练样本集的错误文本,输出的是所述训练样本集的标准文本。可选地,获取第一样本集和第二样本集包括:获取第一样本集;对所述第一样本集中的标准文本进行分词处理得到多个分词,并按照预设的规则生成每个分词对应的替换集;从所述分词对应的替换集中选出预设个数的替换词;根据所述替换词对所述标准文本进行随机替换生成错误文本,然后利用所述错误文本构成所述第二样本集。可选地,所述预设的规则包括以下各项中的至少一项:相同音规则、模糊音规则和形似词规则。可选地,所述经过训练的基于注意力的序列到序列模型包括:嵌入层、前向编码层、后向编码层、注意力机制、解码层和转换层。可选地,所述前向编码层、所述后向编码层和所述解码层皆包括长短时记忆网络。为实现上述目的,根据本专利技术实施例的另一方面,提供了一种文本纠错的装置。本专利技术实施例的一种文本纠错的装置,包括:获取模块,用于根据文本纠错需求,获取待纠错文本;纠错模块,用于根据纠错模型对所述待纠错文本进行纠错,输出所述待纠错文本对应的标准文本,所述纠错模型是经过训练的基于注意力的序列到序列模型。可选地,所述获取模块还用于:获取第一样本集和第二样本集,所述第一样本集包含至少一个标准文本,所述第二样本集包含与所述标准样本对应的错误文本;利用所述第一样本集和所述第二样本集构建训练样本集;对所述训练样本集进行训练,以得到所述纠错模型,所述纠错模型输入的是所述训练样本集的错误文本,输出的是所述训练样本集的标准文本。可选地,所述获取模块还用于:获取第一样本集;对所述第一样本集中的标准文本进行分词处理得到多个分词,并按照预设的规则生成每个分词对应的替换集;从所述分词对应的替换集中选出预设个数的替换词;根据所述替换词对所述标准文本进行随机替换生成错误文本,然后利用所述错误文本构成所述第二样本集。可选地,所述预设的规则包括以下各项中的至少一项:相同音规则、模糊音规则和形似词规则。可选地,所述经过训练的基于注意力的序列到序列模型包括:嵌入层、前向编码层、后向编码层、注意力机制、解码层和转换层。可选地,所述前向编码层、所述后向编码层和所述解码层皆包括长短时记忆网络。为实现上述目的,根据本专利技术实施例的再一方面,提供了一种电子设备。本专利技术实施例的一种电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现本专利技术实施例的文本纠错的方法。为实现上述目的,根据本专利技术实施例的又一方面,提供了一种计算机可读介质。本专利技术实施例的一种计算机可读介质,其上存储有计算机程序,程序被处理器执行时实现本专利技术实施例的文本纠错的方法。上述专利技术中的一个实施例具有如下优点或有益效果:能够利用训练的基于注意力的序列到序列模型对文本进行纠错,减少了计算的复杂度,提高了文本纠错的准确率;本专利技术实施例中对第一样本集和第二样本集组成的训练样本集进行训练,以获得纠错模型,从而可以利用海量的样本集数据构建纠错模型,提高了纠错模型的准确度;本专利技术实施例中第二样本集中的错误文本是根据第一样本集中的标准文本生成的,从而可以建立错误文本及其对应的标准文本的关系,进一步提升了纠错模型的准确度;本专利技术实施例中从相同音规则、模糊音规则和形似词规则多个角度构建每个分词的替换集,从而可以综合考虑多种情形下分词的替换词;本专利技术实施例中的纠错模型中包括:前向编码层和后向编码层,从而可以达到即考虑了当前词与前面词的关系,也考虑了当前词与后面词的关系的效果;本专利技术实施例中的纠错模型中包括:注意力机制,从而可以在产生每一个输出的时候,能够做到充分利用输入序列携带的信息,找到输入序列中显著的与输出相关的有用信息,提高输出的质量,从而提高纠错模型的准确度;本专利技术实施例中前向编码层、后向编码层和解码层都可以包括长短时记忆网络,从而可以解决训练和识别过程中梯度消失的问题,提高纠错模型的准确度,提高输出结果的准确率。上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。附图说明附图用于更好地理解本专利技术,不构成对本专利技术的不当限定。其中:图1是根据本专利技术实施例的文本纠错的方法的主要步骤的示意图;图2是根据本专利技术实施例的文本纠错的方法的纠错模型的示意图;图3是根据本专利技术实施例的文本纠错的方法的训练纠错模型的主要流程的示意图;图4是根据本专利技术实施例的文本纠错的装置的主要模块的示意图;图5是本专利技术实施例可以应用于其中的示例性系统架构图;图6是适于用来实现本专利技术实施例的终端设备或服务器的计算机系统的结构示意图。具体实施方式以下结合附图对本专利技术的示范性实施例做出说明,其中包括本专利技术实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本专利技术的范围和精神。同样,为了清楚和本文档来自技高网...

【技术保护点】
1.一种文本纠错的方法,其特征在于,包括:根据文本纠错需求,获取待纠错文本;根据纠错模型对所述待纠错文本进行纠错,输出所述待纠错文本对应的标准文本,所述纠错模型是经过训练的基于注意力的序列到序列模型。

【技术特征摘要】
1.一种文本纠错的方法,其特征在于,包括:根据文本纠错需求,获取待纠错文本;根据纠错模型对所述待纠错文本进行纠错,输出所述待纠错文本对应的标准文本,所述纠错模型是经过训练的基于注意力的序列到序列模型。2.根据权利要求1所述的方法,其特征在于,在根据纠错模型对所述待纠错文本进行纠错,输出所述待纠错文本对应的标准文本之前,所述方法还包括:获取第一样本集和第二样本集,所述第一样本集包含至少一个标准文本,所述第二样本集包含与所述标准样本对应的错误文本;利用所述第一样本集和所述第二样本集构建训练样本集;对所述训练样本集进行训练,以得到所述纠错模型,所述纠错模型输入的是所述训练样本集的错误文本,输出的是所述训练样本集的标准文本。3.根据权利要求2所述的方法,其特征在于,获取第一样本集和第二样本集包括:获取第一样本集;对所述第一样本集中的标准文本进行分词处理得到多个分词,并按照预设的规则生成每个分词对应的替换集;从所述分词对应的替换集中选出预设个数的替换词;根据所述替换词对所述标准文本进行随机替换生成错误文本,然后利用所述错误文本构成所述第二样本集。4.根据权利要求3所述的方法,其特征在于,所述预设的规则包括以下各项中的至少一项:相同音规则、模糊音规则和形似词规则。5.根据权利要求1所述的方法,其特征在于,所述经过训练的基于注意力的序列到序列模型包括:嵌入层、前向编码层、后向编码层、注意力机制、解码层和转换层。6.根据权利要求5所述的方法,其特征在于,所述前向编码层、所述后向编码层和所述解码层皆包括长短时记忆网络。7.一种文本纠错的装置,其特征在于,包括:获取模块,用于根据文本纠错需求,获取待纠错文本;纠错模块,用于根据纠错模型对所述待纠错文本进...

【专利技术属性】
技术研发人员:杨俊
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1