文本识别模型建立方法和装置制造方法及图纸

技术编号:16129590 阅读:34 留言:0更新日期:2017-09-01 21:14
本发明专利技术提供了一种文本识别模型建立方法和装置。其中,该方法包括:获取文本文件集合;从文本文件集合中选择互不相同的文本文件作为特征文本文件;使用特征文本文件建立文本识别模型,其中,文本识别模型用于识别待识别的文本文件中的文本信息。通过本发明专利技术,解决了现有技术中使用重复获取到的相同的文本文件所建立的文本识别模型的准确性较低的问题,从而实现了提高所建立的文本识别模型的准确性的效果。

【技术实现步骤摘要】
文本识别模型建立方法和装置
本专利技术涉及通信领域,具体而言,涉及一种文本识别模型建立方法和装置。
技术介绍
随着互联网的发展和移动设备的普及,产生了大量含有复杂噪音或者各种变形的网络合成的文本图片,为了从大量公开的多媒体数据中挖掘出有价值的信息,识别这些复杂的网络合成的文本图片的意义十分重大。然而,识别复杂网络合成文本图片具有相当大的挑战性:一方面,复杂的网络合成的文本图片具有多样性,它们可能具有不同的字体、颜色、大小、方向和排列方式;另一方面,复杂的网络合成的文本图片中存在噪声、模糊、光照和遮挡等问题,这给文字的检测和识别带来巨大的困难。若使用传统的光学字符识别(OpticalCharacterRecognition,简称为OCR)方法识别这些网络合成的文本图片,则在识别速率和准确性方面将难以达到预定要求。随着机器学习方法的出现,使得复杂背景文本图片的OCR得到了突破性的进展,但是使用机器学习来进行文字识别之前,需要大量的文本文件作为训练样本来建立文本识别模型。然而,目前在现有的文本识别模型建立过程中,往往会重复获取到相同的文本文件,这样采用相同的文本文件所建立的文本识别模型将无法覆盖所有文本内容,从而使得采用该文本识别模型无法进行准确地文本识别。针对相关技术中使用重复获取到的相同的文本文件所建立的文本识别模型的准确性较低的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术提供了一种文本识别模型建立方法和装置,以至少解决相关技术中使用重复获取到的相同的文本文件所建立的文本识别模型的准确性较低的问题。根据本专利技术的一个方面,提供了一种文本识别模型建立方法,包括:获取文本文件集合;从所述文本文件集合中选择互不相同的文本文件作为特征文本文件;使用所述特征文本文件建立文本识别模型,其中,所述文本识别模型用于识别待识别的文本文件中的文本信息。可选地,从所述文本文件集合中选择所述互不相同的文本文件作为所述特征文本文件包括:根据所述文本文件集合中文本文件的文件标识和/或所述文本文件集合中文本文件的存储位置标识,从所述文本文件集合中选择所述互不相同的文本文件作为所述特征文本文件。可选地,根据所述文本文件集合中文本文件的所述文件标识和/或所述文本文件集合中文本文件的所述存储位置标识从所述文本文件集合中选择所述互不相同的文本文件作为所述特征文本文件包括:根据预设算法获取第一预设数量的所述文本文件集合中的所述文件标识,得到文件标识集合,其中,所述文件标识集合中相同的文本文件标识所对应的文本文件的存储位置标识相同;获取所述文件标识集合中的所述文件标识对应的互不相同的存储位置标识;根据所述互不相同的存储位置标识从所述文件标识集合中筛选出第二预设数量的互不相同的文件标识;从所述文本文件集合中提取所述互不相同的文件标识对应的文本文件作为所述特征文本文件。可选地,所述获取文本文件集合包括:获取文本信息;批量复制所述文本信息,得到多个所述文本信息;分别为多个所述文本信息设置文本参数,得到互不相同的文本文件,其中,所述文本文件集合包括所述互不相同的文本文件。可选地,所述获取文本信息包括:接收输入的第一文本字符串作为所述文本信息;或者读取系统中存储的第二文本字符串;根据预设策略分割所述第二文本字符串,得到文本字符串集合;提取所述文本字符串集合中的一个第三文本字符串作为所述文本信息。可选地,所述文本参数包括以下至少之一:所述文本信息中文字的字体格式参数、所述文本信息中文字的字体显示大小参数、所述文本信息中空白字符大小比例参数、所述文本信息中文字的间隔大小比例参数、所述文本信息中文字的旋转角度参数、所述文本信息中文字的字体颜色参数、所述文本信息中文字的透明度参数、所述文本信息中文字的加粗程度参数、所述文本信息中文字的倾斜程度参数、所述文本信息中文字的下划线绘制参数、背景图片、所述文本信息在所述背景图片中的显示位置参数。根据本专利技术的另一个方面,还提供了一种文本识别模型建立装置,包括:获取模块,用于获取文本文件集合;选择模块,用于从所述文本文件集合中选择互不相同的文本文件作为特征文本文件;建立模块,用于使用所述特征文本文件建立文本识别模型,其中,所述文本识别模型用于识别待识别的文本文件中的文本信息。可选地,所述选择模块用于:根据所述文本文件集合中文本文件的文件标识和/或所述文本文件集合中文本文件的存储位置标识从所述文本文件集合中选择所述互不相同的文本文件作为所述特征文本文件。可选地,所述选择模块包括:第一获取单元,用于根据预设算法获取第一预设数量的所述文本文件集合中的所述文件标识,得到文件标识集合,其中,所述文件标识集合中相同的文本文件标识所对应的文本文件的存储位置标识相同;第二获取单元,用于获取所述文件标识集合中的所述文件标识对应的互不相同的存储位置标识;选择单元,用于根据所述互不相同的存储位置标识从所述文件标识集合中选择第二预设数量的互不相同的文件标识;提取单元,用于从所述文本文件集合中提取所述互不相同的文件标识对应的文本文件作为所述特征文本文件。可选地,所述获取模块包括:第三获取单元,用于获取文本信息;复制单元,用于批量复制所述文本信息,得到多个所述文本信息;设置单元,用于分别为多个所述文本信息设置文本参数,得到互不相同的文本文件,其中,所述文本文件集合包括所述互不相同的文本文件。可选地,所述第三获取单元用于:接收输入的第一文本字符串作为所述文本信息;或者读取系统中存储的第二文本字符串;根据预设策略分割所述第二文本字符串,得到文本字符串集合;提取所述文本字符串集合中的一个第三文本字符串作为所述文本信息。通过本专利技术,在获取文本文件集合后;通过从文本文件集合中选择互不相同的文本文件作为特征文本文件;以实现使用上述特征文本文件建立文本识别模型,其中,文本识别模型用于识别待识别的文本文件中的文本信息。也就是说,通过从文本文件集合中自动选取互不相同的文本文件作为特征文本文件,来建立用于识别文本文件中文本信息的文本识别模型,从而使所建立的文本识别模型可以覆盖不同的文本文件,以保证所建立的文本识别模型的准确性,并克服现有技术中使用重复获取到的相同的文本文件所建立的文本识别模型的准确性较低的问题。进而保证采用本实施例中提供的文本识别模型建立方法所建立的文本识别模型可以准确识别出文本图片中的文本信息。此外,通过从文本文件集合中自动选取互不相同的文本文件来建立文本识别模型的方式,还可以减少作为训练样本,用于建立文本识别模型的文本文件的数量,即减少重复获取到的文本文件的数量,从而实现提高建立文本识别模型的效率,进而避免所获取的文本文件数量过多所导致的建立文本识别模型的效率较低问题。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是根据本专利技术实施例的一种可选的文本识别模型建立方法的流程图;图2是根据本专利技术可选实施例的文本识别模型建立方法的流程图;图3是根据本专利技术可选实施例的新型的改进型线性同余随机数发生器的流程图;图4是根据本专利技术实施例的一种可选的文本识别模型建立装置的结构框图;图5是根据本专利技术实施例的另一种可选的文本识别模型建立装本文档来自技高网...
文本识别模型建立方法和装置

【技术保护点】
一种文本识别模型建立方法,其特征在于,包括:获取文本文件集合;从所述文本文件集合中选择互不相同的文本文件作为特征文本文件;使用所述特征文本文件建立文本识别模型,其中,所述文本识别模型用于识别待识别的文本文件中的文本信息。

【技术特征摘要】
1.一种文本识别模型建立方法,其特征在于,包括:获取文本文件集合;从所述文本文件集合中选择互不相同的文本文件作为特征文本文件;使用所述特征文本文件建立文本识别模型,其中,所述文本识别模型用于识别待识别的文本文件中的文本信息。2.根据权利要求1所述的方法,其特征在于,从所述文本文件集合中选择所述互不相同的文本文件作为所述特征文本文件包括:根据所述文本文件集合中文本文件的文件标识和/或所述文本文件集合中文本文件的存储位置标识,从所述文本文件集合中选择所述互不相同的文本文件作为所述特征文本文件。3.根据权利要求2所述的方法,其特征在于,根据所述文本文件集合中文本文件的所述文件标识和/或所述文本文件集合中文本文件的所述存储位置标识从所述文本文件集合中选择所述互不相同的文本文件作为所述特征文本文件包括:根据预设算法获取第一预设数量的所述文本文件集合中的所述文件标识,得到文件标识集合,其中,所述文件标识集合中相同的文本文件标识所对应的文本文件的存储位置标识相同;获取所述文件标识集合中的所述文件标识对应的互不相同的存储位置标识;根据所述互不相同的存储位置标识从所述文件标识集合中筛选出第二预设数量的互不相同的文件标识;从所述文本文件集合中提取所述互不相同的文件标识对应的文本文件作为所述特征文本文件。4.根据权利要求1所述的方法,其特征在于,所述获取文本文件集合包括:获取文本信息;批量复制所述文本信息,得到多个所述文本信息;分别为多个所述文本信息设置文本参数,得到互不相同的文本文件,其中,所述文本文件集合包括所述互不相同的文本文件。5.根据权利要求4所述的方法,其特征在于,所述获取文本信息包括:接收输入的第一文本字符串作为所述文本信息;或者读取系统中存储的第二文本字符串;根据预设策略分割所述第二文本字符串,得到文本字符串集合;提取所述文本字符串集合中的一个第三文本字符串作为所述文本信息。6.根据权利要求4或5所述的方法,其特征在于,所述文本参数包括以下至少之一:所述文本信息中文字的字体格式参数、所述文本信息中文字的字体显示大小参数、所述文本信息中空白字符大小比例参数、所述文本信息中文字的间隔...

【专利技术属性】
技术研发人员:李洁
申请(专利权)人:中兴通讯股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1