一种文本纠错方法技术

技术编号:24996083 阅读:17 留言:0更新日期:2020-07-24 17:58
本发明专利技术公开了一种文本纠错方法,包括:S1,获取会话语料;S2,基于TF‑IDF算法对所述会话语料构建拼音库;S3,利用N‑gram语言模型训练所述会话语料,得到频数模型;S4,结合所述拼音库与所述频数模型对目标文本进行纠错。本发明专利技术可为带有错别字的文本进行纠错,实现对话系统中对用户的咨询进行识别,并准确的应答。

【技术实现步骤摘要】
一种文本纠错方法
本专利技术涉及数据处理
,尤其涉及一种文本纠错方法。
技术介绍
在对话系统开发中,由于领域的专业性,访客经常无意中发送一些错别字,这些错别字往往会影响自然语言理解模型的识别效果,对话系统无法回复这些带有错别字的句子。如在医疗男科任务型对话系统开发中,访客无意发送一些错别字:“早谢”、“阳萎”、“包精”等,这些错别字会影响咨询识别,导致对话系统无法回复,进而降低了用户的体验。
技术实现思路
本专利技术所要解决的技术问题是针对上述现有技术的不足提供一种文本纠错方法,从而为带有错别字的文本进行纠错,实现对话系统中对用户的咨询进行识别,并准确的应答,应对用户的咨询更加合理性。为实现上述目的,本专利技术提供一种文本纠错方法,包括:S1,获取会话语料;S2,基于TF-IDF算法对所述会话语料构建拼音库;S3,利用N-gram语言模型训练所述会话语料,得到频数模型;S4,结合所述拼音库与所述频数模型对目标文本进行纠错。优选的,步骤S2包括:S2-1,计算所述会话语料中每个词的TF-IDF值;S2-2,抽取关键词,并对所述关键词转化为拼音,建立所述关键词对应的拼音库。优选的,所述关键词为通过对每个词的TF-IDF值进行排序,选取排名在预设值内的词作为关键词。优选的,步骤S3包括:S3-1,将所述会话语料按字进行分割;S3-2,设置滑动窗口,所述滑动窗口的值定义为N,N满足:N为正整数;S3-3,计算在所述会话语料中,基于所述滑动窗口N个字的组词共同出现的频次,存储于频数模型中。优选的,步骤S4包括:S4-1,将所述目标文本中的每个字转化为拼音;S4-2,通过正则表达式对步骤S4-1中所转化的拼音在所述拼音库中进行遍历;S4-3,基于所述频数模型计算所述目标文本中的组词出现的概率,对目标文本进行纠错。优选的,步骤S4-3包括:S4-3-1,将所述拼音库中的拼音对应的关键词替换到所述目标文本,并与所述目标文本中的组词进行比较;S4-3-2,基于所述频数模型分别计算所述目标文本的组词与替换后的目标文本中的关键词出现在所述会话语料中的概率;S4-3-3,若替换后的目标文本中的关键词出现在所述会话语料中的概率大于所述目标文本的组词出现的概率,则对所述目标文本的组词进行更正。有益效果:1、通过本方案抽取的每个关键词对应的拼音构成的拼音库,避免了人工进行收集与整理,减少错误、使得文本的纠错更加智能化。2、根据语言的共现性,本专利技术提供更佳的文本纠错方案,纠正准确度更高。附图说明图1为本专利技术一实施例提供的一种文本纠错方法的流程图。本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。以下结合实施例详细阐述本专利技术的内容。参照图1所示,为本专利技术一实施例提供的一种文本纠错方法的流程图。本方法主要利用TF-IDF算法以及N-gram模型实现对对话系统中的有错别字的文本进行纠错。具体如下:(一)涉及的TF-IDF算法:TF-ID是termfrequency–inversedocumentfrequency的缩写。该算法用一种统计学的方法来衡量一个词语在文本中的重要程度,常被用于信息提取、文本挖掘等场景之中。该算法的核心便是计算一个文本中某个词语的tf值与idf值。TF是termfrequency的缩写,指文本中的词频。衡量一个词语在文档中的出现频率有很多方法,最简单也足够有效的,便是直接计算这个词出现的次数,来作为这个词的tf值。TF的计算如下:词频(TF)=某个词在文章中的出现次数/该文章出现次数最多的词的出现次数IDF是inversedocumentfrequency的缩写,指“逆文档频率”,是一个用来衡量一个词常见程度的值。这个值的计算不应该基于单个文档,而应该考虑所有要进行分析的文档,来得出结果。IDF的计算如下:逆文档频率(IDF)=log(语料库的文档总数/包含该词的文档数+1)TF-IDF的计算如下:TF-IDF=词频(TF)*逆文档频率(IDF)(二)涉及的N-gram语言模型:简单地说,N-gram语言模型就是用来计算一个句子的概率的模型,也就是判断一句话是否是人话的概率。一种文本纠错方法,包括:S1,获取会话语料;S2,基于TF-IDF算法对所述会话语料构建拼音库;S3,利用N-gram语言模型训练所述会话语料,得到频数模型;S4,结合所述拼音库与所述频数模型对目标文本进行纠错。优选的,步骤S2包括:S2-1,计算所述会话语料中每个词的TF-IDF值;S2-2,抽取关键词,并对所述关键词转化为拼音,建立所述关键词对应的拼音库。优选的,所述关键词为通过对每个词的TF-IDF值进行排序,选取排名在预设值内的词作为关键词。优选的,步骤S3包括:S3-1,将所述会话语料按字进行分割;S3-2,设置滑动窗口,所述滑动窗口的值定义为N,N满足:N为正整数;S3-3,计算在所述会话语料中,基于所述滑动窗口N个字的组词共同出现的频次,存储于频数模型中。优选的,步骤S4包括:S4-1,将所述目标文本中的每个字转化为拼音;S4-2,通过正则表达式对步骤S4-1中所转化的拼音在所述拼音库中进行遍历;S4-3,基于所述频数模型计算所述目标文本中的组词出现的概率,对目标文本进行纠错。优选的,步骤S4-3包括:S4-3-1,将所述拼音库中的拼音对应的关键词替换到所述目标文本,并与所述目标文本中的组词进行比较;S4-3-2,基于所述频数模型分别计算所述目标文本的组词与替换后的目标文本中的关键词出现在所述会话语料中的概率;S4-3-3,若替换后的目标文本中的关键词出现在所述会话语料中的概率大于所述目标文本的组词出现的概率,则对所述目标文本的组词进行更正。在本实施例中,文本纠错的方法应用于医疗男科对话系统中。利用TF-IDF算法,计算男科对话语料中,每一个词的TF-IDF值,计算出TF-IDF值之后,选取排名在预设值内的词作为关键词;在本实施例中,预设值定义为T,T满足T=50,即抽取TF-IDF值在top50的词作为关键词,将抽取到的关键词转换成拼音,以此构建男科关键词的拼音库。例如:抽取到关键词有:早泄、阳痿、阴茎、包皮过长、前列腺;构建关键词的拼音库为:zaoxie、yangwei、yinjing、baopiguochang、qianliexian。在本实施例中,利用N-gram语言模型训练所述会话语料,得到频数模型为2-gram模型。即本文档来自技高网...

【技术保护点】
1.一种文本纠错方法,其特征在于,包括:/nS1,获取会话语料;/nS2,基于TF-IDF算法对所述会话语料构建拼音库;/nS3,利用N-gram语言模型训练所述会话语料,得到频数模型;/nS4,结合所述拼音库与所述频数模型对目标文本进行纠错。/n

【技术特征摘要】
1.一种文本纠错方法,其特征在于,包括:
S1,获取会话语料;
S2,基于TF-IDF算法对所述会话语料构建拼音库;
S3,利用N-gram语言模型训练所述会话语料,得到频数模型;
S4,结合所述拼音库与所述频数模型对目标文本进行纠错。


2.根据权利要求1所述的一种文本纠错方法,其特征在于,步骤S2包括:
S2-1,计算所述会话语料中每个词的TF-IDF值;
S2-2,抽取关键词,并对所述关键词转化为拼音,建立所述关键词对应的拼音库。


3.根据权利要求2所述的一种文本纠错方法,其特征在于,所述关键词为通过对每个词的TF-IDF值进行排序,选取排名在预设值内的词作为关键词。


4.根据权利要求2所述的一种文本纠错方法,其特征在于,步骤S3包括:
S3-1,将所述会话语料按字进行分割;
S3-2,设置滑动窗口,所述滑动窗口的值定义为N,N满足:N为正整数;

【专利技术属性】
技术研发人员:李威肖龙源廖斌李稀敏刘晓葳
申请(专利权)人:厦门快商通科技股份有限公司
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1