文本结构化方法及装置制造方法及图纸

技术编号:28752875 阅读:25 留言:0更新日期:2021-06-09 10:18
本发明专利技术实施例提供一种文本结构化方法及装置,该方法包括:获取第一文件的文本信息,其中,文本信息包括至少一个文本单元以及至少一个文本单元的位置信息,文本单元中包括至少一个字符。根据至少一个文本单元的位置信息,对至少一个文本单元进行排序,得到目标字符串,目标字符串包括各文本单元中的字符。根据目标字符串中各字符的概率信息,在目标字符串中获取预设关注信息对应的字段结果。根据预设关注信息和预设关注信息对应的字段结果,确定第一文件对应的结构化文件。通过基于有序的目标字符串中各字符的概率信息确定预设关注字段对应的字段结果,得到第一文件对应的结构化文件,从而降低了文本结构化的实现难度。从而降低了文本结构化的实现难度。从而降低了文本结构化的实现难度。

【技术实现步骤摘要】
文本结构化方法及装置


[0001]本专利技术实施例涉及计算机技术,尤其涉及一种文本结构化方法及装置。

技术介绍

[0002]随着科学技术的发展,网络投递简历已经成为主流的招聘方式,文本结构化能够快速获取简历文本中的有效信息,从而提升简历的处理效率。
[0003]目前,传统的文本结构化方法通常是预先定义有版块标签匹配规则和标签匹配规则,在匹配规则中对于每个信息(如姓名、手机号)等都采用不同的正则表达式,通过判断文本中的内容是否满足版块标签匹配规则和信息匹配规则的正则表达式从而进行有效信息的提取。
[0004]然而,正则表达式的定义较为复杂,并且在不同的文本之间不具备通用性,则会导致文本结构化的实现较为困难。

技术实现思路

[0005]本专利技术实施例提供一种文本结构化方法及装置,以克服正则表达式的定义导致的文本结构化的实现困难的问题。
[0006]第一方面,本专利技术实施例提供一种文本结构化方法,包括:
[0007]获取第一文件的文本信息,其中,所述文本信息包括至少一个文本单元以及所述至少一个文本单元的位置信息,所述文本单元中包括至少一个字符;
[0008]根据所述至少一个文本单元的位置信息,对所述至少一个文本单元进行排序,得到目标字符串,所述目标字符串包括各所述文本单元中的字符;
[0009]根据所述目标字符串中各所述字符的概率信息,在所述目标字符串中获取预设关注信息对应的字段结果,其中,所述预设关注信息用于指示结构化的第一文件所需求的信息,所述概率信息包括起始概率和结束概率,所述起始概率是指所述字符作为所述预设关注信息的字段结果的起始字符的概率,所述结束概率是指所述字符作为预设关注信息的字段结果的结束字符的概率;
[0010]根据所述预设关注信息和所述预设关注信息对应的字段结果,确定所述第一文件对应的结构化文件。
[0011]在一种可能的设计中,所述根据所述目标字符串中各所述字符的概率信息,在所述目标字符串中获取预设关注信息对应的字段结果,包括:
[0012]根据所述目标字符串中的各所述字符以及预设关注信息,得到各所述字符的起始概率和结束概率;
[0013]根据各所述字符的起始概率和结束概率,获取起始概率最高的第一目标字符和结束概率最高的第二目标字符;
[0014]将所述第一目标字符、所述第二目标字符以及所述第一目标字符和第二目标字符之间所包括的第三目标字符所组成的字符串作为所述预设关注信息的字段结果。
[0015]在一种可能的设计中,所述根据所述目标字符串中的各所述字符以及预设关注信息,得到各所述字符的起始概率和结束概率,包括:
[0016]针对任一个所述字符,获取所述字符的至少一个文本特征数据,以及所述至少一个文本特征数据各自对应于所述预设关注信息的起始概率系数和结束概率系数;
[0017]根据各所述文本特征数据和各所述文本特征数据的起始概率系数进行相乘处理,得到各所述文本特征数据的第一处理结果,以及根据各所述文本特征数据和各所述文本特征数据的结束概率系数进行相乘处理,得到各所述文本特征数据的第二处理结果;
[0018]将各所述文本特征数据的第一处理结果相加,得到第三处理结果,以及将各所述文本特征数据的第二处理结果相加,得到第四处理结果;
[0019]将所述第三处理结果进行归一化处理,得到所述字符的起始概率,以及将所述第四处理结果进行归一化处理,得到所述字符的结束概率。
[0020]在一种可能的设计中,所述根据所述至少一个文本单元的位置信息,对所述至少一个文本单元进行排序,包括:
[0021]根据各所述文本单元的位置信息,获取所述第一文件的版面类型,其中,所述版面类型包括左右版面、上下版面;
[0022]根据所述第一文件的版面类型,确定各所述文本单元的排列顺序;
[0023]根据各所述文本单元的排列顺序,将所述至少一个文本单元进行排序。
[0024]在一种可能的设计中,若所述版面类型为上下版面,则各所述文本单元的排列顺序为从上到下;
[0025]若所述版面类型为左右版面,则各所述文本单元的排列顺序为左侧版面的文本单元、右侧版面的文本单元,其中,所述左侧版面的文本单元、右侧版面的文本单元分别按照从上到下的顺序排列。
[0026]在一种可能的设计中,所述在各所述字符的起始概率和结束概率中,获取起始概率最高的第一目标字符和结束概率最高的第二目标字符之后,所述方法还包括:
[0027]判断所述第一目标字符的起始概率以及所述第二目标字符的结束概率是否大于预设阈值;
[0028]若否,则确定所述目标字符串中不存在所述预设关注信息的字段结果。
[0029]在一种可能的设计中,所述根据所述目标字符串中各所述字符的概率信息,在所述目标字符串中获取预设关注信息对应的字段结果之后,所述方法还包括:
[0030]获取所述预设关注信息对应的预设格式;
[0031]判断所述预设关注信息对应的字段结果是否满足所述预设格式;
[0032]若是,则确定所述字段结果为所述预设关注信息对应的字段结果。
[0033]第二方面,本专利技术实施例提供一种文本结构化装置,包括:
[0034]获取模块,用于获取第一文件的文本信息,其中,所述文本信息包括至少一个文本单元以及所述至少一个文本单元的位置信息,所述文本单元中包括至少一个字符;
[0035]排序模块,用于根据所述至少一个文本单元的位置信息,对所述至少一个文本单元进行排序,得到目标字符串,所述目标字符串包括各所述文本单元中的字符;
[0036]所述获取模块,还用于根据所述目标字符串中各所述字符的概率信息,在所述目标字符串中获取预设关注信息对应的字段结果,其中,所述预设关注信息用于指示结构化
的第一文件所需求的信息,所述概率信息包括起始概率和结束概率,所述起始概率是指所述字符作为所述预设关注信息的字段结果的起始字符的概率,所述结束概率是指所述字符作为预设关注信息的字段结果的结束字符的概率;
[0037]确定模块,用于根据所述预设关注信息和所述预设关注信息对应的字段结果,确定所述第一文件对应的结构化文件。
[0038]在一种可能的设计中,所述获取模块具体用于:
[0039]根据所述目标字符串中的各所述字符以及预设关注信息,得到各所述字符的起始概率和结束概率;
[0040]根据各所述字符的起始概率和结束概率,获取起始概率最高的第一目标字符和结束概率最高的第二目标字符;
[0041]将所述第一目标字符、所述第二目标字符以及所述第一目标字符和第二目标字符之间所包括的第三目标字符所组成的字符串作为所述预设关注信息的字段结果。
[0042]在一种可能的设计中,所述获取模块具体用于:
[0043]针对任一个所述字符,获取所述字符的至少一个文本特征数据,以及所述至少一个文本特征数据各自对应于所述预设关注信息的起始概率系数和结束概率本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本结构化方法,其特征在于,包括:获取第一文件的文本信息,其中,所述文本信息包括至少一个文本单元以及所述至少一个文本单元的位置信息,所述文本单元中包括至少一个字符;根据所述至少一个文本单元的位置信息,对所述至少一个文本单元进行排序,得到目标字符串,所述目标字符串包括各所述文本单元中的字符;根据所述目标字符串中各所述字符的概率信息,在所述目标字符串中获取预设关注信息对应的字段结果,其中,所述预设关注信息用于指示结构化的第一文件所需求的信息,所述概率信息包括起始概率和结束概率,所述起始概率是指所述字符作为所述预设关注信息的字段结果的起始字符的概率,所述结束概率是指所述字符作为预设关注信息的字段结果的结束字符的概率;根据所述预设关注信息和所述预设关注信息对应的字段结果,确定所述第一文件对应的结构化文件。2.根据权利要求1所述的方法,其特征在于,所述根据所述目标字符串中各所述字符的概率信息,在所述目标字符串中获取预设关注信息对应的字段结果,包括:根据所述目标字符串中的各所述字符以及预设关注信息,得到各所述字符的起始概率和结束概率;根据各所述字符的起始概率和结束概率,获取起始概率最高的第一目标字符和结束概率最高的第二目标字符;将所述第一目标字符、所述第二目标字符以及所述第一目标字符和第二目标字符之间所包括的第三目标字符所组成的字符串作为所述预设关注信息的字段结果。3.根据权利要求2所述的方法,其特征在于,所述根据所述目标字符串中的各所述字符以及预设关注信息,得到各所述字符的起始概率和结束概率,包括:针对任一个所述字符,获取所述字符的至少一个文本特征数据,以及所述至少一个文本特征数据各自对应于所述预设关注信息的起始概率系数和结束概率系数;根据各所述文本特征数据和各所述文本特征数据的起始概率系数进行相乘处理,得到各所述文本特征数据的第一处理结果,以及根据各所述文本特征数据和各所述文本特征数据的结束概率系数进行相乘处理,得到各所述文本特征数据的第二处理结果;将各所述文本特征数据的第一处理结果相加,得到第三处理结果,以及将各所述文本特征数据的第二处理结果相加,得到第四处理结果;将所述第三处理结果进行归一化处理,得到所述字符的起始概率,以及将所述第四处理结果进行归一化处理,得到所述字符的结束概率。4.根据权利要求1所述的方法,其特征在于,所述根据所述至少一个文本单元的位置信息,对所述至少一个文本单元进行排序,包括:根据各所述文本单元的位置信息,获取所述第一文件的版面类型,其中,所述版面类型包括左右版面、上下版面;根据所述第一文件的版面类型,确定各所述文...

【专利技术属性】
技术研发人员:张鹏
申请(专利权)人:上海高德威智能交通系统有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1