文本识别模型建立方法和装置制造方法及图纸

技术编号：16129590 阅读：34 留言：0更新日期：2017-09-01 21:14

本发明专利技术提供了一种文本识别模型建立方法和装置。其中，该方法包括：获取文本文件集合；从文本文件集合中选择互不相同的文本文件作为特征文本文件；使用特征文本文件建立文本识别模型，其中，文本识别模型用于识别待识别的文本文件中的文本信息。通过本发明专利技术，解决了现有技术中使用重复获取到的相同的文本文件所建立的文本识别模型的准确性较低的问题，从而实现了提高所建立的文本识别模型的准确性的效果。

全部详细技术资料下载

【技术实现步骤摘要】
文本识别模型建立方法和装置
本专利技术涉及通信领域，具体而言，涉及一种文本识别模型建立方法和装置。
技术介绍
随着互联网的发展和移动设备的普及，产生了大量含有复杂噪音或者各种变形的网络合成的文本图片，为了从大量公开的多媒体数据中挖掘出有价值的信息，识别这些复杂的网络合成的文本图片的意义十分重大。然而，识别复杂网络合成文本图片具有相当大的挑战性：一方面，复杂的网络合成的文本图片具有多样性，它们可能具有不同的字体、颜色、大小、方向和排列方式；另一方面，复杂的网络合成的文本图片中存在噪声、模糊、光照和遮挡等问题，这给文字的检测和识别带来巨大的困难。若使用传统的光学字符识别(OpticalCharacterRecognition，简称为OCR)方法识别这些网络合成的文本图片，则在识别速率和准确性方面将难以达到预定要求。随着机器学习方法的出现，使得复杂背景文本图片的OCR得到了突破性的进展，但是使用机器学习来进行文字识别之前，需要大量的文本文件作为训练样本来建立文本识别模型。然而，目前在现有的文本识别模型建立过程中，往往会重复获取到相同的文本文件，这样采用相同的文本文件所建立的文本识别模型将无法覆盖所有文本内容，从而使得采用该文本识别模型无法进行准确地文本识别。针对相关技术中使用重复获取到的相同的文本文件所建立的文本识别模型的准确性较低的问题，目前尚未提出有效的解决方案。
技术实现思路
本专利技术提供了一种文本识别模型建立方法和装置，以至少解决相关技术中使用重复获取到的相同的文本文件所建立的文本识别模型的准确性较低的问题。根据本专利技术的一个方面，提供了一种文本识别模型...

【技术保护点】
一种文本识别模型建立方法，其特征在于，包括：获取文本文件集合；从所述文本文件集合中选择互不相同的文本文件作为特征文本文件；使用所述特征文本文件建立文本识别模型，其中，所述文本识别模型用于识别待识别的文本文件中的文本信息。

【技术特征摘要】
1.一种文本识别模型建立方法，其特征在于，包括：获取文本文件集合；从所述文本文件集合中选择互不相同的文本文件作为特征文本文件；使用所述特征文本文件建立文本识别模型，其中，所述文本识别模型用于识别待识别的文本文件中的文本信息。2.根据权利要求1所述的方法，其特征在于，从所述文本文件集合中选择所述互不相同的文本文件作为所述特征文本文件包括：根据所述文本文件集合中文本文件的文件标识和/或所述文本文件集合中文本文件的存储位置标识，从所述文本文件集合中选择所述互不相同的文本文件作为所述特征文本文件。3.根据权利要求2所述的方法，其特征在于，根据所述文本文件集合中文本文件的所述文件标识和/或所述文本文件集合中文本文件的所述存储位置标识从所述文本文件集合中选择所述互不相同的文本文件作为所述特征文本文件包括：根据预设算法获取第一预设数量的所述文本文件集合中的所述文件标识，得到文件标识集合，其中，所述文件标识集合中相同的文本文件标识所对应的文本文件的存储位置标识相同；获取所述文件标识集合中的所述文件标识对应的互不相同的存储位置标识；根据所述互不相同的存储位置标识从所述文件标识集合中筛选出第二预设数量的互不相同的文件标识；从所述文本文件集合中提取所述互不相同的文件标识对应的文本文件作为所述特征文本文件。4.根据权利要求1所述的方法，其特征在于，所述获取文本文件集合包括：获取文本信息；批量复制所述文本信息，得到多个所述文本信息；分别为多个所述文本信息设置文本参数，得到互不相同的文本文件，其中，所述文本文件集合包括所述互不相同的文本文件。5.根据权利要求4所述的方法，其特征在于，所述获取文本信息包括：接收输入的第一文本字符串作为所述文本信息；或者读取系统中存储的第二文本字符串；根据预设策略分割所述第二文本字符串，得到文本字符串集合；提取所述文本字符串集合中的一个第三文本字符串作为所述文本信息。6.根据权利要求4或5所述的方法，其特征在于，所述文本参数包括以下至少之一：所述文本信息中文字的字体格式参数、所述文本信息中文字的字体显示大小参数、所述文本信息中空白字符大小比例参数、所述文本信息中文字的间隔...

【专利技术属性】
技术研发人员：李洁，
申请(专利权)人：中兴通讯股份有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人