文本纠错的方法和装置制造方法及图纸

技术编号：21952747 阅读：35 留言：0更新日期：2019-08-24 17:50

本发明专利技术公开了文本纠错的方法和装置，涉及计算机技术领域。该方法的一具体实施方式包括：根据文本纠错需求，获取待纠错文本；根据纠错模型对待纠错文本进行纠错，输出待纠错文本对应的标准文本，其中纠错模型是经过训练的基于注意力的序列到序列模型。该实施方式利用训练的基于注意力的序列到序列模型对文本进行纠错，减少了计算的复杂度，提高了文本纠错的准确率。

Method and Device of Text Error Correction

全部详细技术资料下载

【技术实现步骤摘要】
文本纠错的方法和装置
本专利技术涉及计算机
，尤其涉及一种文本纠错的方法和装置。
技术介绍
近年来，随着信息技术的不断创新和进步，智能客服机器人凭借其不需要培训、可以长时间连续工作和不需要人力成本等优势，在客服行业逐渐代替了人工客服。智能客服机器人的核心技术是对用户的输入进行预处理，然后对预处理结果进行意图识别分类，进而根据分类的结果进行应答。预处理过程中的文本纠错环节非常重要。如果不对用户的输入进行纠错，会影响意图识别准确率，最终会导致智能客服机器人应答错误。现有技术是基于语言模型进行文本纠错的，即基于词与词之间的出现概率计算句子的概率。假设句子s是由k个词组成的，即s＝W1,W2,…,Wk，(其中W1,W2,…,Wk为构成句子s的词)，则句子s的概率p(s)可以表示为：p(s)＝p(W1,W2,…,Wk)＝p(W1)p(W2|W1)…p(Wk|W1,W2,…,Wk-1)其中，Wk表示当前词，W1,W2,…,Wk-1表示当前词之前的词。在实现本专利技术过程中，专利技术人发现现有技术中至少存在如下问题：一、现有技术基于语言模型进行文本纠错的方法中，语言模型只考虑当前词之前的词语，没有考虑当前词后面的词语；二、现有技术文本纠错的方法采用的语言模型存在模型复杂计算量大的问题，以N-Gram模型(大词汇连续语音识别中常用的一种语言模型)为例，假设词表的大小为100000，那么N-Gram模型的参数数量就达到100000N，N越大，模型越准确，但是模型也越复杂计算量越大。
技术实现思路
有鉴于此，本专利技术实施例提供一种文本纠错的方法和装置，能够减少计算的复杂度...

【技术保护点】
1.一种文本纠错的方法，其特征在于，包括：根据文本纠错需求，获取待纠错文本；根据纠错模型对所述待纠错文本进行纠错，输出所述待纠错文本对应的标准文本，所述纠错模型是经过训练的基于注意力的序列到序列模型。

【技术特征摘要】
1.一种文本纠错的方法，其特征在于，包括：根据文本纠错需求，获取待纠错文本；根据纠错模型对所述待纠错文本进行纠错，输出所述待纠错文本对应的标准文本，所述纠错模型是经过训练的基于注意力的序列到序列模型。2.根据权利要求1所述的方法，其特征在于，在根据纠错模型对所述待纠错文本进行纠错，输出所述待纠错文本对应的标准文本之前，所述方法还包括：获取第一样本集和第二样本集，所述第一样本集包含至少一个标准文本，所述第二样本集包含与所述标准样本对应的错误文本；利用所述第一样本集和所述第二样本集构建训练样本集；对所述训练样本集进行训练，以得到所述纠错模型，所述纠错模型输入的是所述训练样本集的错误文本，输出的是所述训练样本集的标准文本。3.根据权利要求2所述的方法，其特征在于，获取第一样本集和第二样本集包括：获取第一样本集；对所述第一样本集中的标准文本进行分词处理得到多个分词，并按照预设的规则生成每个分词对应的替换集；从所述分词对应的替换集中选出预设个数的替换词；根据所述替换词对所述标准文本进行随机替换生成错误文本，然后利用所述错误文本构成所述第二样本集。4.根据权利要求3所述的方法，其特征在于，所述预设的规则包括以下各项中的至少一项：相同音规则、模糊音规则和形似词规则。5.根据权利要求1所述的方法，其特征在于，所述经过训练的基于注意力的序列到序列模型包括：嵌入层、前向编码层、后向编码层、注意力机制、解码层和转换层。6.根据权利要求5所述的方法，其特征在于，所述前向编码层、所述后向编码层和所述解码层皆包括长短时记忆网络。7.一种文本纠错的装置，其特征在于，包括：获取模块，用于根据文本纠错需求，获取待纠错文本；纠错模块，用于根据纠错模型对所述待纠错文本进...

【专利技术属性】
技术研发人员：杨俊，
申请(专利权)人：北京京东尚科信息技术有限公司，北京京东世纪贸易有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人