文本识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号:23984686 阅读:22 留言:0更新日期:2020-04-29 12:57
本发明专利技术公开了一种文本识别方法、装置、电子设备及存储介质,首先将待识别的文本数据生成若干个文本段,然后分别计算每一个文本段的困惑度,当所有文本段对应的困惑度中最大的困惑度大于预设阈值时,确定该文本数据为垃圾文本。本发明专利技术中可以直接将文本数据进行识别,只需要根据计算出的文本段的困惑度就可以识别出文本数据是否为垃圾文本,该方法能够适应大量的文本识别内容,也无需预先收集垃圾文本和设置识别规则,节省大量时间,在提高垃圾文本识别的准确率的同时,也能提高垃圾文本识别的效率。

Text recognition method, device, electronic equipment and storage medium

【技术实现步骤摘要】
文本识别方法、装置、电子设备及存储介质
本专利技术涉及软件开发
,尤其涉及文本识别方法、装置、电子设备及存储介质。
技术介绍
低质量文本是指在具体业务场景下,句子中出现无意义的文字或者符号的文本。这种文本表达的意思不明确,难以合符常用的语言规范,又称为垃圾文本。目前,要识别这种垃圾文本,首先收集大量的已知的垃圾文本作为样本数据,通过人工或者机器从字面上对每一条样本数据进行规律总结,总结出无意义文字或者符号出现的规律;然后将这些规律作为判断规则,最后通过机器利用这些判断规则对待识别的文本进行识别,一旦文本命中了这些规则中的一个或者多个,该文本就被识别为垃圾文本。然而,上述这种识别垃圾文本的方法,由于样本数据是有限的,因此所能总结出来的判断规则也是有限的。例如,如果一条样本数据中出现的无意义的文字或者符号并未命中任何一个判断规则,那么即使其本质上属于垃圾文本,上述识别的方式也无法把这条垃圾文本识别出来,识别后的结果很可能是将这条文本归类为正常文本。可见,目前的这种识别垃圾文本的方式存在一定的局限性,当存在大量待识别的文本而根据样本数据总结的规则有限时,垃圾文本识别的准确率会降低。
技术实现思路
本专利技术提供了一种文本识别方法、装置、电子设备及存储介质,以解决目前识别垃圾文本的方式在存在大量待识别的文本而根据样本数据总结的规则有限时,垃圾文本识别的准确率降低的问题。第一方面,本专利技术提供了一种文本识别方法,包括:基于文本数据生成文本段,所述文本数据为待识别的文本;利用神经概率语言模型计算每一个文本段的困惑度,所述困惑度用于表示所述文本段在所述文本数据中出现的概率,所述神经概率语言模型是预先利用符合具体业务规范的正常文本训练而来的;将所有文本段对应困惑度中最大的困惑度与预设阈值进行比较;如果所述最大的困惑度大于所述预设阈值,则生成所述文本数据为垃圾文本的识别结果。结合第一方面,在第一方面的一种可实施方式中,基于文本数据生成文本段的步骤,包括:获取预设截取长度,所述预设截取长度是指字符长度;将所述文本数据从其段首开始按照所述预设截取长度分别截取若干个长度相同的文本段,截取的任一文本段的段尾与其后一文本段的段首具有相互重叠的部分,所述相互重叠的部分的长度是指字符长度,以及,如果截取的最后一个文本段的长度无法满足所述预设截取长度,则从文本数据末尾处往前截取所述预设截取长度的文本段作为最后一个文本段。结合第一方面,在第一方面的一种可实施方式中,利用神经概率语言模型计算每一个文本段的困惑度的步骤,包括:利用神经概率语言模型,计算文本段中每一个单词在上下文语义环境下出现的概率,所述单词用于表示在所述具体业务场景中有对应含义的词语或者字符;利用文本段中每一个单词在上下文语义环境下出现的概率,计算所述文本段的困惑度。结合第一方面,在第一方面的一种可实施方式中,基于文本数据生成文本段之前,包括:识别所述文本数据中的非正规数据,所述非正规数据用于表示在所述具体业务场景中无对应含义的数据;利用特殊字符替换所述非正规数据,获得书写符合所述业务规范的正规文本数据,所述特殊字符用于表示在所述具体业务场景中有对应含义的字符。结合第一方面,在第一方面的一种可实施方式中,根据如下公式利用文本段中每一个单词在上下文语义环境下出现的概率,计算所述文本段的困惑度:其中,ppl(w)表示所述文本段的困惑度,n表示所述文本段中单词的数量,i表示在所述文本段中的第i个单词,所述P(wi|w<i)表示所述文本段中第i个单词在上下文语义环境下出现的概率。第二方面,本专利技术提供了一种文本识别装置,包括:文本段生成模块,用于基于文本数据生成文本段,所述文本数据为待识别的文本;困惑度计算模块,用于利用神经概率语言模型计算每一个文本段的困惑度,所述困惑度用于表示所述文本段在所述文本数据中出现的概率,所述神经概率语言模型是预先利用符合具体业务规范的正常文本训练而来的;困惑度比较模块,用于将所有文本段对应困惑度中最大的困惑度与预设阈值进行比较;文本识别模块,用于在所述最大的困惑度大于所述预设阈值时,则生成所述文本数据为垃圾文本的识别结果。结合第二方面,在第二方面的一种可实施方式中,所述文本段生成模块包括:截取长度获取单元,用于获取预设截取长度,所述预设截取长度是指字符长度;截取单元,用于将所述文本数据从其段首开始按照所述预设截取长度分别截取若干个长度相同的文本段,截取的任一文本段的段尾与其后一文本段的段首具有相互重叠的部分,所述相互重叠的部分的长度是指字符长度,以及,如果截取的最后一个文本段的长度无法满足所述预设截取长度,则从文本数据末尾处往前截取所述预设截取长度的文本段作为最后一个文本段。结合第二方面,在第二方面的一种可实施方式中,所述困惑度计算模块包括:概率计算单元,用于利用神经概率语言模型,计算文本段中每一个单词在上下文语义环境下出现的概率,所述单词用于表示在所述具体业务场景中有对应含义的词语或者字符;困惑度计算单元,用于利用文本段中每一个单词在上下文语义环境下出现的概率,计算所述文本段的困惑度。结合第二方面,在第二方面的一种可实施方式中,所述装置还包括:数据识别单元,用于识别所述文本数据中的非正规数据,所述非正规数据用于表示在所述具体业务场景中无对应含义的数据;数据替换单元,用于利用特殊字符替换所述非正规数据,获得书写符合所述业务规范的正规文本数据,所述特殊字符用于表示在所述具体业务场景中有对应含义的字符。结合第二方面,在第二方面的一种可实施方式中,所述困惑度计算单元根据如下公式利用文本段中每一个单词在上下文语义环境下出现的概率,计算所述文本段的困惑度:其中,ppl(w)表示所述文本段的困惑度,n表示所述文本段中单词的数量,i表示在所述文本段中的第i个单词,所述P(wi|w<i)表示所述文本段中第i个单词在上下文语义环境下出现的概率。第三方面,本专利技术提供了一种电子设备,包括:存储器,用于存储程序指令;处理器,用于调用并执行所述存储器中的程序指令,以实现第一方面所述的文本识别方法。第四方面,本专利技术提供还提供了一种存储介质,所述存储介质中存储有计算机程序,当文本识别装置的至少一个处理器执行所述计算机程序时,文本识别装置执行第一方面所述的文本识别方法。由以上技术方案可知,本专利技术提供的文本识别方法、装置、电子设备及存储介质,首先将待识别的文本数据生成若干个文本段,然后分别计算每一个文本段的困惑度,当所有文本段对应的困惑度中最大的困惑度大于预设阈值时,确定该文本数据为垃圾文本。本专利技术中可以直接将文本数据进行识别,只需要根据计算出的文本段的困惑度就可以识别出文本数据是否为垃圾文本,该方法能够适应大量的文本识别内容,也无需预先收集垃圾文本和设置识别规则,节省大量时间,在提高本文档来自技高网...

【技术保护点】
1.一种文本识别方法,其特征在于,包括:/n基于文本数据生成文本段,所述文本数据为待识别的文本;/n利用神经概率语言模型计算每一个文本段的困惑度,所述困惑度用于表示所述文本段在所述文本数据中出现的概率,所述神经概率语言模型是预先利用符合具体业务规范的正常文本训练而来的;/n将所有文本段对应困惑度中最大的困惑度与预设阈值进行比较;/n如果所述最大的困惑度大于所述预设阈值,则生成所述文本数据为垃圾文本的识别结果。/n

【技术特征摘要】
1.一种文本识别方法,其特征在于,包括:
基于文本数据生成文本段,所述文本数据为待识别的文本;
利用神经概率语言模型计算每一个文本段的困惑度,所述困惑度用于表示所述文本段在所述文本数据中出现的概率,所述神经概率语言模型是预先利用符合具体业务规范的正常文本训练而来的;
将所有文本段对应困惑度中最大的困惑度与预设阈值进行比较;
如果所述最大的困惑度大于所述预设阈值,则生成所述文本数据为垃圾文本的识别结果。


2.根据权利要求1所述的方法,其特征在于,基于文本数据生成文本段的步骤,包括:
获取预设截取长度,所述预设截取长度是指字符长度;
将所述文本数据从其段首开始按照所述预设截取长度分别截取若干个长度相同的文本段,截取的任一文本段的段尾与其后一文本段的段首具有相互重叠的部分,所述相互重叠的部分的长度是指字符长度,以及,如果截取的最后一个文本段的长度无法满足所述预设截取长度,则从文本数据末尾处往前截取所述预设截取长度的文本段作为最后一个文本段。


3.根据权利要求1-2任一项所述的方法,其特征在于,利用神经概率语言模型计算每一个文本段的困惑度的步骤,包括:
利用神经概率语言模型,计算文本段中每一个单词在上下文语义环境下出现的概率,所述单词用于表示在所述具体业务场景中有对应含义的词语或者字符;
利用文本段中每一个单词在上下文语义环境下出现的概率,计算所述文本段的困惑度。


4.根据权利要求1所述的方法,其特征在于,基于文本数据生成文本段之前,包括:
识别所述文本数据中的非正规数据,所述非正规数据用于表示在所述具体业务场景中无对应含义的数据;
利用特殊字符替换所述非正规数据,获得书写符合所述业务规范的正规文本数据,所述特殊字符用于表示在所述具体业务场景中有对应含义的字符。


5.根据权利要求3所述的方法,其特征在于,根据如下公式利用文本段中每一个单词在上下文语义环境下出现的概率,计算所述文本段的困惑度:



其中,ppl(w)表示所述文本段的困惑度,n表示所述文本段中单词的数量,i表示在所述文本段中的第i个单词,所述P(wi|w<i)表示所述文本段中第i个单词在上下文语义环境下出现的概率。


6.一种文本识别装置,其特征在于,包括:
文本段生成模块,用于基于文本数据生成文本段,所述文本数据为待识别的文本;
困惑度计算模块,用于利用神经概率语言模型计算每一个文本段的困惑度,所述困惑度用于表示所述文本段在所述文本数据中出现的概率,所述神...

【专利技术属性】
技术研发人员:赵忠信
申请(专利权)人:五八有限公司
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1