一种文本错别字自动更正方法和服务器技术

技术编号:15541876 阅读:256 留言:0更新日期:2017-06-05 11:04
本发明专利技术提供了一种文本错别字自动更正方法和服务器,能够更高效的纠正文本中的错别字,通过深度学习模型和高维向量化,将每个字映射到高位空间中,并通过高维向量表示字与字之间的关系,再利用字的上下文信息和其在句子中的作用来识别其是否是错别字。该方法不用花费大量的成本去构建错别字与正确字之间的一一对应关系,而仅仅是构建一个合适的错别字训练纠正模型,学习错别字的特征。本发明专利技术采用的技术方案时考虑了句子的语义和句法、词性和词的上下文信息来对句子中的错别字进行识别和纠正,它能识别的错别字不仅仅只是同音字和形近字,还可以识别和改正其他类型的错别字,大大提高了错别字的纠正效率。

A text typos automatic correction method and server

The present invention provides an automatic text typos correction method and server can correct the text more efficient in typos, learning model and high dimension to quantify by depth, each word is mapped to a high space, and through the high dimensional vector to represent the relationship between words, then use context information word and its role in the sentence to identify whether it is typos. This method does not need to spend a lot of cost to build the corresponding relationship between the correct words and typos, but merely to construct a suitable training model of correcting typos, feature learning typos. The technical scheme of the invention considers context information sentence semantics and syntax, POS and word to sentence the typos are identified and corrected, it can not only identify typos homonym and form words, but also can identify and correct other types of typos, greatly improving the typos the correction efficiency.

【技术实现步骤摘要】
一种文本错别字自动更正方法和服务器
本专利技术涉及一种数据更正方法领域,更具体的,涉及一种文本错别字自动更正方法和服务器。
技术介绍
文本校对过程中主要技术就是纠正错别字。通常情况下,文本校对过程基本上采用2种方法(人工检查校对和基于错别字词典的校对),其中最主要的是错别字词典校对,通过构建错词和正确词相对应的一个词库。中国专利“CN1116343A中文错别字自动订正方法及装置”提供了一种基于词典的错别字纠正方法。此专利技术通过寻找大量的基于字形、字音或输入码相近的字作为词对来构建错别字词典,再利用评分模型对相应的词进行打分,最后根据打分从词典中选取正确的字。从错别字的本意上来看,错别字之所以错是因为错别字出现的位置使得句子语义错误、句子的语法以及词性发生变化。传统的错别字纠正方法都是以词作为分析单元,这在某些情况下是可行的,如:“百度”和“百渡”;但在某些基于语义下是不行的,如:“我是各国人”和“我是中国人”。因此,传统的错别字纠正方法有如下不足:1.建立错别词和正确词配对词典成本非常高。2.当出现了词典以外的错别字时,系统将无法识别和纠正,这使得系统性能比较局限。3.系统没有考虑词的词性,词的上下文信息,句法和语义,因此会出现纠正后的词不符合语法和语义,或者有不符合语义与句法的词无法被识别。对于一些同音词,如“百度”和“摆渡”,当出现这样的错别词语时,系统是无法识别和纠正的。4.当一些句子出现长短错误,系统是无法进行纠正的。
技术实现思路
本专利技术旨在至少解决现有技术中存在的技术问题之一。为此,本专利技术的目的在于,提供一种文本错别字自动更正方法和服务器,通过设计一种文本错别字自动更正方法和服务器,能够更高效的纠正文本中的错别字,通过深度学习模型和高维向量化,将每个字映射到高位空间中,并通过高维向量表示字与字之间的关系,再利用字的上下文信息和其在句子中的作用来识别其是否是错别字。该方法不用花费大量的成本去构建错别字与正确字之间的一一对应关系,而仅仅是构建一个合适的错别字训练语料,搭建一个错别字纠正模型,学习错别字的特征。本专利技术很好的解决了传统方法下的错别字纠正系统缺点。同时,本专利技术采用的技术方案时考虑了句子的语义和句法、词性和词的上下文信息来对句子中的错别字进行识别和纠正。它能识别的错别字不仅仅只是同音字和形近字,还可以识别和改正其他类型的错别字。大大提高了错别字的纠正效率。为实现上述目的,本专利技术提供一种文本错别字自动更正方法,其特征在于,包括:步骤1,对需要校对的文本进行预处理;步骤2,将所述预处理后的文本进行编码,并将编码后的文本中每个字符进行向量化处理,得到相应的第一字符向量;步骤3,采用attention机制和双向LSTM(longshorttermmemory,长短时记忆网络)模型对句子进行识别,并输出其识别结果;步骤4,针对所述识别结果,对其周边的字符进行预测,并与预设的概率阈值进行比较;步骤5,将大于所述概率阈值的结果作为最终更正的结果发送至用户端,供用户进行选择。优选的,所述步骤5还包括:当大于所述概率阈值的结果为1时,则自动对校对文本进行更正,不需要用户进行选择。优选的,所述预处理为去除掉无意义的符号,将繁体字转换成简体字,全角符号转换成半角符号中的一种或几种。优选的,所述将所述预处理后的文本进行编码中的编码方式为UTF-8编码。优选的,在所述步骤1之前,还包括:服务器针对每个字符都进行向量表示,生成第二字符向量,所述第二字符向量包含了字符特征信息,然后得到一个语言模型规则,将所述第二字符向量和语言模型规则存储到相应的数据库中。优选的,所述字符特征信息为词性、语法、语义中的一种或几种。本专利技术另一方面还提供一种文本错别字自动更正服务器,包括:预处理模块,用于对需要校对的文本进行预处理;向量生成模块,用于将所述预处理后的文本进行编码,并将编码后的文本中每个字符进行向量化处理,得到相应的第一字符向量;识别模块,用于采用attention机制和双向LSTM(longshorttermmemory,长短时记忆网络)模型对句子进行识别,并输出其识别结果;预测模块,用于针对所述识别结果,对其周边的字符进行预测,并与预设的概率阈值进行比较;发送模块,用于将大于所述概率阈值的结果作为最终更正的结果发送至用户端,供用户进行选择。优选的,所述服务器还用于:当大于所述概率阈值的结果为1时,则自动对校对文本进行更正,不需要用户进行选择。优选的,所述预处理模块还用于去除掉无意义的符号,将繁体字转换成简体字,全角符号转换成半角符号中的一种或几种。优选的,在所述服务器还包括:数据库,用于存储第二字符向量和语言模型规则;所述第二字符向量为服务器针对每个字符都进行向量表示生成的第二字符向量,所述第二字符向量包含了字符特征信息,然后得到一个语言模型规则。通过本专利技术设计一种文本错别字自动更正方法和服务器,能够更高效的纠正文本中的错别字,通过深度学习模型和高维向量化,将每个字映射到高位空间中,并通过高维向量表示字与字之间的关系,再利用字的上下文信息和其在句子中的作用来识别其是否是错别字。该方法不用花费大量的成本去构建错别字与正确字之间的一一对应关系,而仅仅是构建一个合适的错别字训练语料,搭建一个错别字纠正模型,学习错别字的特征。本专利技术很好的解决了传统方法下的错别字纠正系统缺点。同时,本专利技术采用的技术方案时考虑了句子的语义和句法、词性和词的上下文信息来对句子中的错别字进行识别和纠正。它能识别的错别字不仅仅只是同音字和形近字,还可以识别和改正其他类型的错别字。大大提高了错别字的纠正效率。附图说明图1示出了本专利技术一种文本错别字自动更正方法的流程图;图2示出了本专利技术一种文本错别字自动更正服务器的结构框图;图3示出了本专利技术一实施例的文本错别字更正方法的流程图。具体实施方式为了能够更清楚地理解本专利技术的上述目的、特征和优点,下面结合附图和具体实施方式对本专利技术进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。在下面的描述中阐述了很多具体细节以便于充分理解本专利技术,但是,本专利技术还可以采用其他不同于在此描述的方式来实施,因此,本专利技术的保护范围并不受下面公开的具体实施例的限制。图1示出了本专利技术一种文本错别字自动更正方法的流程图。如图1所示,根据本专利技术一种文本错别字自动更正方法,包括以下步骤:步骤1,对需要校对的文本进行预处理。所述预处理为去除掉无意义的符号,将繁体字转换成简体字,全角符号转换成半角符号中的一种或几种。其目的在于对文本中的无意义的字符进行过滤,并且转换成简体字以统一处理。步骤2,将所述预处理后的文本进行编码,并将编码后的文本中每个字符进行向量化处理,得到相应的第一字符向量。优选的,所述将所述预处理后的文本进行编码中的编码方式为UTF-8编码。UTF-8(8-bitUnicodeTransformationFormat)是一种针对Unicode的可变长度字符编码,又称万国码。将预处理后的数据进行编码后,再进行向量化的处理,将每个字符高维向量化,得到相应的字向量。步骤3,采用attention机制和双向LSTM(longshorttermmemory,长短时记忆网络)模型对句子进行识别,并输本文档来自技高网...
一种文本错别字自动更正方法和服务器

【技术保护点】
一种文本错别字自动更正方法,其特征在于,包括:步骤1,对需要校对的文本进行预处理;步骤2,将所述预处理后的文本进行编码,并将编码后的文本中每个字符进行向量化处理,得到相应的第一字符向量;步骤3,采用attention机制和双向LSTM(long short term memory,长短时记忆网络)模型对句子进行识别,并输出其识别结果;步骤4,针对所述识别结果,对其周边的字符进行预测,并与预设的概率阈值进行比较;步骤5,将大于所述概率阈值的结果作为最终更正的结果发送至用户端,供用户进行选择。

【技术特征摘要】
1.一种文本错别字自动更正方法,其特征在于,包括:步骤1,对需要校对的文本进行预处理;步骤2,将所述预处理后的文本进行编码,并将编码后的文本中每个字符进行向量化处理,得到相应的第一字符向量;步骤3,采用attention机制和双向LSTM(longshorttermmemory,长短时记忆网络)模型对句子进行识别,并输出其识别结果;步骤4,针对所述识别结果,对其周边的字符进行预测,并与预设的概率阈值进行比较;步骤5,将大于所述概率阈值的结果作为最终更正的结果发送至用户端,供用户进行选择。2.根据权利要求1所述的一种文本错别字自动更正方法,其特征在于,所述步骤5还包括:当大于所述概率阈值的结果为1时,则自动对校对文本进行更正,不需要用户进行选择。3.根据权利要求1所述的一种文本错别字自动更正方法,其特征在于,所述预处理为去除掉无意义的符号,将繁体字转换成简体字,全角符号转换成半角符号中的一种或几种。4.根据权利要求1所述的一种文本错别字自动更正方法,其特征在于,所述将所述预处理后的文本进行编码中的编码方式为UTF-8编码。5.根据权利要求1所述的一种文本错别字自动更正方法,其特征在于,在所述步骤1之前,还包括:服务器针对每个字符都进行向量表示,生成第二字符向量,所述第二字符向量包含了字符特征信息,然后得到一个语言模型规则,将所述第二字符向量和语言模型规则存储到相应的数据库中。6.根据权利要求5所述...

【专利技术属性】
技术研发人员:黄威威潘嵘张晋斌
申请(专利权)人:深圳爱拼信息科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1