一种获取目标文本的数据处理系统技术方案

技术编号：36167939 阅读：17 留言：0更新日期：2022-12-31 20:18

本发明专利技术提供了一种获取目标文本的数据处理系统，包括：处理器和存储有计算机程序的存储器，当计算机程序被处理器执行时，实现以下步骤：根据初始文本集中任一初始文本，获取初始文本对应的初始文本字符串，根据初始文本字符串获取初始文本字符串对应的初始字向量集，根据初始文本字符串对应的初始图像，获取初始文本字符串对应的关键特征向量，根据初始字向量集和关键特征向量，获取初始文本字符串对应的目标字向量集，根据目标字向量集获取初始文本字符串对应的目标文本。本发明专利技术丰富了向量的特征，避免了文字特征的遗漏，使得自然语言处理的准确度较高，提高了文本分类的准确度，进而使得获取到的目标文本的准确度较高。而使得获取到的目标文本的准确度较高。而使得获取到的目标文本的准确度较高。

全部详细技术资料下载

【技术实现步骤摘要】
一种获取目标文本的数据处理系统

[0001]本专利技术涉及文本处理
，特别是涉及一种获取目标文本的数据处理系统。

技术介绍

[0002]随着互联网的普及和发展，文本数据呈现爆发式增长，面对海量文本数据，如何从其中提取出有意义的信息是自然语言处理的研究热点，文本分类技术是自然语言处理领域和文本识别领域的一大课题，近年来文本分类技术已经应用到信息检索、信息推送、信息过滤等多个领域，通过对文本准确分类能够减少获取文本重要信息的时间。
[0003]目前，现有技术中，获取目标文本的方法为：获取文本的字向量，根据文本中的字对应的字体书写的特征、字根和拼音获取对应的特征向量，将字向量和特征向量结合生成文本向量，对文本向量进行分类获取异常文本。
[0004]综上所述对文本进行分类的方法存在的问题：一方面，文本中的字符局限于中文字符，在进行文本分类时增加了对文本的选择的局限性；另一方面，未考虑文本中文字的图像特征和字符特征信息，遗漏了文本字符的特征，使得自然语言处理的准确度较低，降低了文本分类的准确度，进而使得获取到的目标文本的准确度较低。

技术实现思路

[0005]本专利技术提供了一种获取目标文本的数据处理系统，包括：初始文本集、初始文本集中每一初始文本对应的初始图像、处理器和存储有计算机程序的存储器，当计算机程序被处理器执行时，实现以下步骤：S100，根据所述初始文本集中任一初始文本，获取初始文本对应的初始文本字符串A={A1，A2，
……
，A
i
，
>……
，A
m
},A
i
为初始文本对应的初始字符串中第i个初始文本字符，i=1，2，
……
，m，m为初始文本对应的初始字符串中初始文本字符的数量。
[0006]S200，根据A，获取A对应的初始字向量集B={B1，B2，
……
，B
i
，
……
，B
m
}，B
i
为A
i
对应的初始字向量。
[0007]S300，根据A对应的初始图像，获取A对应的关键特征向量集D={D1，D2，
……
，D
i
，
……
，D
m
}，D
i
为A
i
对应的关键特征向量。
[0008]S400，根据B和D，获取A对应的目标字向量集U={U1，U2，
……
，U
i
，
……
，U
m
}，U
i
={B
i
，D
i
}。
[0009]S500，根据U，获取到A对应的目标文本。
[0010]本专利技术与现有技术相比具有明显的有益效果，借由上述技术方案，本专利技术提供的一种获取目标文本的数据处理系统可达到相当的技术进步性及实用性，并具有产业上的广泛利用价值，其至少具有以下有益效果：本专利技术提供了一种获取目标文本的数据处理系统，系统包括：处理器和存储有计算机程序的存储器，当计算机程序被处理器执行时，实现以下步骤：根据所述初始文本集中任一初始文本，获取初始文本对应的初始文本字符串，其中，初始文本字符至少包括中文字
符、英文字符和标点字符，根据初始文本字符串获取初始文本字符串对应的初始字向量集，根据初始文本字符串对应的初始图像，获取初始文本字符串对应的关键特征向量，其中，关键特征向量包括初始文本的图像特征和字符特征信息，其中图像特征包括文本字符的位置，字号和颜色，字符特征信息包括下划线、斜体等，根据初始字向量集和关键特征向量，获取初始文本字符串对应的目标字向量集，根据目标字向量集获取初始文本字符串对应的目标文本。上述，一方面，文本中的字符不局限于中文字符，在进行文本分类时减少了对文本的选择的局限性；另一方面，考虑了文本中文字的图像特征和字符特征信息，避免了文本字符特征的遗漏，使得自然语言处理的准确度较高，提高了文本分类的准确度，使得获取到的目标文本的准确度较高。
附图说明
[0011]为了更清楚地说明本专利技术实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本专利技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0012]图1为本专利技术实施例提供的一种获取目标文本的数据处理系统的执行计算机程序的流程图。
具体实施方式
[0013]下面将结合本专利技术实施例中的附图，对本专利技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本专利技术一部分实施例，而不是全部的实施例。基于本专利技术中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本专利技术保护的范围。
[0014]需要说明的是，本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包括，例如，包括了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0015]本实施例提供了一种获取目标文本的数据处理系统，所述系统包括：初始文本集、初始文本集中每一初始文本对应的初始图像、处理器和存储有计算机程序的存储器，当所述计算机程序被处理器执行时，实现以下步骤，如图1所示：具体的，所述初始文本集包括若干个初始文本，其中，所述初始文本为包括异常文本字符的文本，例如，异常文本字符为具有广告性质的文本字符。
[0016]具体的，所述初始图像为对初始文本进行处理得到的图像，其中，本领域技术人员知晓，现有技术中任一基于文本生成图像的方法，均属于本专利技术的保护范围，在此不再赘述。
[0017]S100，根据所述初始文本集中任一初始文本，获取初始文本对应的初始文本字符
串A={A1，A2，
……
，A
i
，
……
，A
m
},A
i
为初始文本对应的初始字符串中第i个初始文本字符，i=1，2，
……
，m，m为初始文本对应的初始字符串中初始文本字符的数量。
[0018]具体的，所述初始文本字符至少包括中文字符、英文字符和标点字符。
[0019]上述，文本中的字符不局限于中文字符，在进行文本分类时减少了对文本的选择的局限性。
[0020]S200，根据A，获取A对应的初始字向量集B={B1，B2，
……
，B
i...

【技术保护点】

【技术特征摘要】
1.一种获取目标文本的数据处理系统，其特征在于，所述系统包括：初始文本集、初始文本集中每一初始文本对应的初始图像、处理器和存储有计算机程序的存储器，当所述计算机程序被处理器执行时，实现以下步骤：S100，根据所述初始文本集中任一初始文本，获取初始文本对应的初始文本字符串A={A1，A2，
……
，A
i
，
……
，A
m
},A
i
为初始文本对应的初始字符串中第i个初始文本字符，i=1，2，
……
，m，m为初始文本对应的初始字符串中初始文本字符的数量；S200，根据A，获取A对应的初始字向量集B={B1，B2，
……
，B
i
，
……
，B
m
}，B
i
为A
i
对应的初始字向量；S300，根据A对应的初始图像，获取A对应的关键特征向量集D={D1，D2，
……
，D
i
，
……
，D
m
}，D
i
为A
i
对应的关键特征向量；S400，根据B和D，获取A对应的目标字向量集U={U1，U2，
……
，U
i
，
……
，U
m
}，U
i
={B
i
，D
i
}；S500，根据U，获取到A对应的目标文本。2.根据权利要求1所述的获取目标文本的数据处理系统，其特征在于，所述初始文本字符至少包括中文字符、英文字符和标点字符。3.根据权利要求1所述的获取目标文本的数据处理系统，其特征在于，所述关键特征向量包括第一关键特征向量或第二关键特征向量。4.根据权利要求3所述的获取目标文本的数据处理系统，其特征在于，当关键特征向量为第一关键特征向量时，在S300步骤中还通过如下步骤获取D
i
：S301，将A对应的初始图像输入至预设的OCR模型中，获取A对应的第一待选特征向量集G={G1，G2，
……
，G
i
，
……
，G
m
}，G
i
={G
i1
，G
i2
，G
i3
，G
i4
，G
i5
}，G
i1
为A
i
对应的字符检测框高度，G
i2
为A
i
对应的字符检测框宽度，G
i3
为A
i
对应的字符检测框的第一顶点坐标值，G
i4
为A
i
对应的字符检测框的第二顶点坐标值，G
i5
为A
i
的字符检测框颜色；S303，根据G
i1
和G
i2
，获取第一特征D
i1
；S305，根据G
i3
和G
i4
，获取第二特征D
i2
；S307，对G
i5
进行处理，生成第三特征D
i3
；S309，根据D
i1
，D
i2
和D
i3
，确定出D
i
={D
i1
，D
i2
，D
i3
}。5.根据权利要求4所述的获取目标文本的数据处理系统，其特征在于，在S303步骤中还包括如下步骤：S3031，获取第一预设字号的字号优先级和第二预设字号列表H={H1，H2，
……
，H
x
，
……
，H
p
}，H
x
为第x个第二预设字号对应的字号优先级和第二预设字号对应的字号尺寸信息，x=1，2，

【专利技术属性】
技术研发人员：刘羽，常鸿宇，刘宸，傅晓航，
申请(专利权)人：中科雨辰科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人