本申请公开了一种英语单词识别方法和装置,该方法包括:对输入的视频图像进行笔画宽度变换;对经笔画宽度变换后输出的图像进行连通域分析,并从分析结果中筛选出是文本区域的连通域;对筛选出的连通域进行合并,得到文本行;利用光学字符识别模型对所述文本行进行识别,其中,所述光学字符识别模型的训练数据为英文字母,每个英文字母都具有多种不同腐蚀度的模板;对识别出的文本行进行语义分析,选出符合语义的文本行。本申请提高了复杂场景下英语单词识别精确度。
【技术实现步骤摘要】
本专利技术涉及文字识别
,更具体地说,涉及一种英语单词识别方法和装置。
技术介绍
文本是计算机视觉的许多应用中的一项重要特征,视频图像中的文本往往包含着丰富的信息,将视频图像里的文本进行提取和识别,对于视频图像内容的分析、理解、信息检索等方面具有重要的意义。从视频图像中提取文字的轮廓特征是文字识别过程中的重要一环,比如说,在英语单词识别过程中,需要先提取出各英文字母的轮廓特征再加以合并以识别出整个英语单词。但由于视频图像是自然场景,在复杂场景下,其背景噪音过重,会使字母轮廓缺失难以识别从而出现英语单词漏检和识别错误,影响英语单词识别精确度。
技术实现思路
有鉴于此,本专利技术提供一种英语单词识别方法和装置,以提高复杂场景下英语单词识别精确度。一种英语单词识别方法,包括:对输入的视频图像进行笔画宽度变换;对经笔画宽度变换后输出的图像进行连通域分析,并从分析结果中筛选出是文本区域的连通域;对筛选出的连通域进行合并,得到文本行;利用光学字符识别模型对所述文本行进行识别,其中,所述光学字符识别模型的训练数据为英文字母,每个英文字母都具有多种不同腐蚀度的模板;对识别出的文本行进行语义分析,选出符合语义的文本行。其中,所述对输入图像进行笔画宽度变换,包括:将输入的视频图像解码为RGB图像;把所述RGB图像转化成灰度图;把所述灰度图转化成标准窗口小部件工具箱图像;利用Canny边缘检测算子对所述标准窗口小部件工具箱图像进行边缘检测,得到所有边缘像素点;利用sobel算子分别计算得到各边缘像素点的梯度方向;为每一个所述边缘像素点寻找与其梯度方向相反的边缘像素点,形成边缘像素点对;分别计算由每一个所述边缘像素点对确定的笔画宽度值,其笔画宽度值的大小为本边缘像素对之间的欧式距离。其中,所述从分析结果中筛选出是文本区域的连通域,包括:从分析结果中筛选出是文本区域的连通域,筛选条件包括:连通域的笔划宽度一致;而且与要识别的英语单词的颜色相同的像素点在连通域中所占比例不低于第一预设值。其中,所述从分析结果中筛选出是文本区域的连通域,包括:从分析结果中筛选出是文本区域的连通域,筛选条件包括:连通域的笔划宽度一致;而且连通域的笔画方差不低于第二预设值、笔画均值不低于第三预设值且连通域宽高比不超过第四预设值。可选地,所述利用光学字符识别模型对所述文本行进行识别前,还包括:利用最大类间方差二值化过滤所述文本行的背景噪音;对应的,所述利用光学字符识别模型对所述文本行进行识别,为:利用光学字符识别模型对背景噪音过滤后的文本行进行识别。一种英语单词识别装置,包括:笔画宽度变换模块,用于对输入的视频图像进行笔画宽度变换;连通域分析筛选单元,用于对经笔画宽度变换后输出的图像进行连通域分析,并从分析结果中筛选出是文本区域的连通域;文本行合并单元,用于对筛选出的连通域进行合并,得到文本行;OCR识别单元,用于利用光学字符识别模型对所述文本行进行识别,其中,所述光学字符识别模型的训练数据为英文字母,每个英文字母都具有多种不同腐蚀度的模板;语义分析单元,对识别出的文本行进行语义分析,选出符合语义的文本行。其中,所述笔画宽度变换模块具体包括:RGB图像转化单元,用于将输入的视频图像解码为RGB图像;灰度图转化单元,用于把所述RGB图像转化成灰度图;SWT图像转化单元,用于把所述灰度图转化成SWT图像;边缘检测单元,用于利用Canny边缘检测算子对所述SWT图像进行边缘检测,得到所有边缘像素点;梯度方向计算单元,用于利用sobel算子分别计算得到各边缘像素点的梯度方向;笔画宽度计算单元,用于为每一个所述边缘像素点寻找与其梯度方向相反的边缘像素点,形成边缘像素点对;分别计算由每一个边缘像素点对确定的笔画宽度值,大小为本边缘像素对之间的欧式距离。其中,所述连通域分析筛选单元具体用于对经笔画宽度变换后输出的图像进行连通域分析,并从中筛选出笔划宽度一致,而且与要识别的英语单词的颜色相同的像素点在连通域中所占比例不低于第一预设值的连通域。其中,所述连通域分析筛选单元具体用于对经笔画宽度变换后输出的图像进行连通域分析,并从中筛选出连通域的笔划宽度一致,而且连通域的笔画方差不低于第二预设值、笔画均值不低于第三预设值且连通域宽高比不超过第四预设值的连通域。可选地,所述装置还包括:背景噪音过滤单元,用于在利用光学字符识别模型对所述文本行进行识别前,先利用最大类间方差二值化过滤所述文本行的背景噪音。从上述的技术方案可以看出,本专利技术通过预先对光学字符识别模型识别不同腐蚀度的英文字母进行训练学习,来增加字母轮廓受损情况下的识别率,降低了英语单词漏检率;并且本本专利技术还对识别出的文本行进行语义分析筛选,以选出符合语义的文本行,降低了英语单词错检率,从而提高了复杂场景下英语单词识别精确度。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术公开的一种英语单词识别方法流程图;图2为本专利技术公开的一种笔画宽度变换方法流程图;图3为本专利技术公开的一种英语单词识别装置结构示意图;图4为本专利技术公开的又一种英语单词识别装置结构示意图;图5为本专利技术公开的又一种英语单词识别装置结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。参见图1,本专利技术实施例公开了一种英语单词识别方法,以提高复杂场景下英语单词识别精确度,包括:步骤100:对输入的视频图像进行笔画宽度变换;对输入的视频图像进行笔划宽度变换的目的在于得到连通域信息。笔划宽度变换的思路如下:首先对输入的视频图像进行边缘检测,得到边缘信息;然后从每一个边缘像素点出发,找到与之梯度方向相反的边缘像素点,形成一个边缘像素点对;分别计算每一个边缘像素点对之间的欧式距离,并将该值赋予本边缘像素点对之间所有的像素点。经过笔划宽度变换后输出的图像像素点代表可能的笔划宽度。利用笔划宽度信息可以获取可能的文本信息,因为笔划宽度一致的连通域很有可能是文本区域。笔划宽度变换的具体过程如图2所示。包括:步骤101:将输入的视频图像解码为RGB图像;步骤102:把所述RGB图像转化成灰度图;步骤103:把所述灰度图转化成SWT(Standard Widget Toolkit,标准窗口小部件工具箱)图像;步骤104:利用Canny边缘检测算子对所述SWT图像进行边缘检测,得到所有边缘像素点;其中,Canny边缘检测算子是John F.Canny于1986年开发出来的一个多级边缘检测算法;步骤105:利用sobel算子(Sobel operator,索贝尔算子)分别计算得到各边缘像素点的梯度方向;步骤106:为每一个所述边缘像素点寻找与其梯度方向相反的边缘像素点,形成边缘像素点对;步骤107:分别计算由每一个所述边缘像素点对本文档来自技高网...
【技术保护点】
一种英语单词识别方法,其特征在于,包括:对输入的视频图像进行笔画宽度变换;对经笔画宽度变换后输出的图像进行连通域分析,并从分析结果中筛选出是文本区域的连通域;对筛选出的连通域进行合并,得到文本行;利用光学字符识别模型对所述文本行进行识别,其中,所述光学字符识别模型的训练数据为英文字母,每个英文字母都具有多种不同腐蚀度的模板;对识别出的文本行进行语义分析,选出符合语义的文本行。
【技术特征摘要】
1.一种英语单词识别方法,其特征在于,包括:对输入的视频图像进行笔画宽度变换;对经笔画宽度变换后输出的图像进行连通域分析,并从分析结果中筛选出是文本区域的连通域;对筛选出的连通域进行合并,得到文本行;利用光学字符识别模型对所述文本行进行识别,其中,所述光学字符识别模型的训练数据为英文字母,每个英文字母都具有多种不同腐蚀度的模板;对识别出的文本行进行语义分析,选出符合语义的文本行。2.根据权利要求1所述的方法,其特征在于,所述对输入图像进行笔画宽度变换,包括:将输入的视频图像解码为RGB图像;把所述RGB图像转化成灰度图;把所述灰度图转化成标准窗口小部件工具箱图像;利用Canny边缘检测算子对所述标准窗口小部件工具箱图像进行边缘检测,得到所有边缘像素点;利用sobel算子分别计算得到各边缘像素点的梯度方向;为每一个所述边缘像素点寻找与其梯度方向相反的边缘像素点,形成边缘像素点对;分别计算由每一个所述边缘像素点对确定的笔画宽度值,其笔画宽度值的大小为本边缘像素对之间的欧式距离。3.根据权利要求1所述的方法,其特征在于,所述从分析结果中筛选出是文本区域的连通域,包括:从分析结果中筛选出是文本区域的连通域,筛选条件包括:连通域的笔划宽度一致;而且与要识别的英语单词的颜色相同的像素点在连通域中所占比例不低于第一预设值。4.根据权利要求1所述的方法,其特征在于,所述从分析结果中筛选出是文本区域的连通域,包括:从分析结果中筛选出是文本区域的连通域,筛选条件包括:连通域的笔划宽度一致;而且连通域的笔画方差不低于第二预设值、笔画均值不低于第三预设值且连通域宽高比不超过第四预设值。5.根据权利要求1-4中任一项所述的方法,其特征在于,所述利用光学字符识别模型对所述文本行进行识别前,还包括:利用最大类间方差二值化过滤所述文本行的背景噪音;对应的,所述利用光学字符识别模型对所述文本行进行识别,为:利用光学字符识别模型对背景噪音过滤后的文本行进行识别。6.一种英语单词识别装置,其特征在于,...
【专利技术属性】
技术研发人员:刁志敏,
申请(专利权)人:珠海迈科智能科技股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。