本发明专利技术公开了一种基于二元化的简历解析方法包括:批量读入简历;把批量读入简历的转换成HTML以及TXT文本格式;判断转换成HTML格式的简历是否可以套用简历精确识别模板;根据正则表达式的方法,利用XPATH对转化成HTML文本格式的简历信息进行解析,并对解析后的简历信息进行评分,判断是否高于预定义的阈值;利用TensorFlow构建的BI‑LSTM‑CRF机器学习模型进行简历信息命名实体提取;利用标签字典及结合命名实体提取识别出简历信息,进行简历信息各个板块切割;遍历各个简历板块内容,利用数据链表存储提取出的简历信息内容;将经过简析的简历信息用JSON或XML结构化数据进行存储。本发明专利技术可以在有限的简历样本的基础上,实现对简历信息的精准识别。
【技术实现步骤摘要】
一种基于二元化的简历解析方法
本专利技术涉及的是简历解析方法,具体而言,尤其涉及一种基于二元化的简历解析方法。
技术介绍
简历解析,可以归类为自然语言处理(NaturalLanguageProcessing)的一个任务集,其中一个重要部分是命名实体识别(NER),在简历分析的任务,需要识别出待处理简历文本中包括:人名,邮件地址,电话号码,籍贯,教育经历中的学校、专业、日期,工作经历中的职位、公司名称、日期等各种信息。现有技术中的同类简历解析技术,主要有如下几种方式:(1)专利CN105787047A公开的一种简历信息的抽取解析转换方法,其包括计算机读入存放简历的文件路径,读取文件流,抽取出文本内容,输出一个大文本字符串,读入抽取的大文本字符串,进行解析,将解析出的简历信息组成简历信息模型;(2)专利CN107145584A公开了一种基于ngram模型的简历解析方法,该方法为:预先收集简历样本,将常用字段关键词划分为不同类别形成分类词典,采用ngram模型统计出每一常用字段关键词转变到各样本关联词的转移概率,查找待解析简历中与常用字段关键词相匹配的目标关键词,如果目标关键词对应的转移概率大于预定阈值,根据目标关键词更新每一常用字段关键词对应的转移概率,并对待解析简历中的有效关键词增加前缀标注和后缀标注,对待解析简历的文本内容进行分段提取并输出;(3)专利CN107392143A公开了一种基于SVM文本分类的简历精确解析方法,其包括:一、在.netframework下操作Microsoftoffice,将各种格式的简历文件转换为PDF格式,再由PDF转换为xml格式文件;二、提取xml格式下各简历文本行的标签并生成相应的特征向量;三、对各简历文本行进行标注,根据标注值和各简历文本行对应的特征向量采用SVM进行分类训练,得到分类器;四、根据得到的分类器对各简历进行切割,并分块解析提取信息,从而完成各简历的精确解析。以上这三种技术都存在着一定的局限性,要想在实用层面达到简历解析的目标存在着一定的障碍,主要是:专利CN105787047A并没有提出信息抽取的具体算法模型,提出的只是概念性的方案:匹配提取过于依赖于强大的字典库和复杂的算法模型,而需要建立这么高水准的字典库和算法模型难度非常大;专利CN107145584A主要针对有明确来源的简历,这种简历往往都是按照预定的标准格式,简历的各大模块都有信息提示前缀关键词,可以依据前缀关键词生成前缀词典,用于协助确认简历关键词的内容分割提取,但对于没有明确来源的简历,而这些往往占据简历的大部分,内容前并没有信息提示前缀关键词,采用此方法,无法有效提取出简历信息;专利CN107392143A利用SVM来尝试识别XML标签内简历信息,但是因为XML模板差异很大,在样本有限的前提下进行解析训练,标签识别成功率较低,这就要求要有海量的样本进行解析训练,这在现实应用中是比较难实现的。因此,鉴于上述多个方案于实际实施过程上的缺失之处,而加以修正、改良,同时本着求好的精神及理念,并由专业的知识、经验的辅助,以及在多方巧思、试验后,方创设出本设计,故提供一种基于二元化的简历解析方法,用于解决在实用层面达到简历解析的目标的问题。
技术实现思路
本专利技术的目的在于提供一种基于二元化的简历解析方法,以便于解决在实用层面达到简历解析的目标的问题。本专利技术一种基于二元化的简历解析方法可以通过下列技术方案来实现:本专利技术一种基于二元化的简历解析方法包括:step1,批量读入简历;step2,把批量读入简历的转换成HTML以及TXT文本格式;Step3,判断转换成HTML文本格式的简历信息是否可以套用简历精确识别模板,如果可以就跳到Step4,如果不可以就跳到Step5;Step4,根据正则表达式的方法,利用XPATH对转化成HTML文本格式的简历信息进行解析,并对解析后的简历信息进行评分,判断是否高于预定义的阈值,若评分高于预定义的阈值,则跳到Step8,若评分低于预定义的阈值,则跳转到Step5;Step5,利用TensorFlow构建的BI-LSTM-CRF机器学习模型进行简历信息命名实体提取;Step6,利用标签字典及结合命名实体提取识别出简历信息,进行简历信息各个板块切割;Step7,遍历各个简历板块内容,利用数据链表存储提取出的简历信息内容;Step8,将经过简析的简历信息用JSON或XML结构化数据进行存储。优选地,在step1中,通过提供WEB接口形式,接受经HTTPPOST请求传入的简历信息。优选地,所述简历信息为单个简历文件时,则读取指定目录内的所述单个简历文件。优选地,所述简历信息为批量简历压缩包时,则读取指定目录内的所述批量简历压缩包,调用相关解压程序,将所述批量简历压缩包发送到解压的队列中进行解压。优选地,在step2中,利用文本转换工具Libreoffice及PDFtoTXT分别将简历源文档转换成HTML以及TXT文本格式。优选地,简历源文档为MHT、docx、doc或者PDF文本格式。优选地,在step5中,采用Python语言下包含GPU加速的TensorFlow版本。优选地,在step5中,基于BI-LSTM-CRF的模型构造一个混合了大量不同类型的简历信息的语料标注库,其采用人工或者半自动方式标注语料库,基于标注好的语料库,生成一个训练模型,在这个训练模型中,采用类似双层长短记忆网络(BI-LSTM)来表示每个词,这个词向量由两部分合并,一部分是基于中文维基语料库并利用GloVe训练的出来的词向量另一部分,是字符级别的向量该训练模型的下面一层是CRF层,进行句子级的序列标注,通过挖掘词与相邻词的标识的相互影响关系。优选地,在step6中,各个板块包括基本信息、求职意向、自我评估、教育经历、工作经历、项目经验、实习经历、培训经历和语言能力。本专利技术一种基于二元化的简历解析方法具有以下技术效果:本专利技术一种基于二元化的简历解析方法通过结合规则类算法和深度学习算法,引入二元解析方法,一方面针对符合相对标准格式的简历,采用正则表达式模板来精确解析;另一方面对于无法明确来源进行匹配的简历,则会使用BI-LSTM-CRF模型的深度学习算法再进行命名实体提取的二元简历信息提取,有效的规避了单纯使用一种算法存在的缺陷,兼具规则类模型的信息识别精确性及深度学习模型的良好适应性两方面的优势,可以达到有效精确提取简历信息的目标,具有良好的实用性;同时通过这种方法,可以在有限的简历样本的基础上,实现对简历信息的精准识别。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1为本专利技术所提供的一种基于二元化的简历解析方法流程图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和展示出的本专利技术实施例的组件可以以各种本文档来自技高网...
【技术保护点】
1.一种基于二元化的简历解析方法,其特征在于,其包括:step1,批量读入简历;step2,把批量读入简历的转换成HTML以及TXT文本格式;Step3,判断转换成HTML文本格式的简历信息是否可以套用简历精确识别模板,如果可以就跳到Step4,如果不可以就跳到Step5;Step4,根据正则表达式的方法,利用XPATH对转化成HTML文本格式的简历信息进行解析,并对解析后的简历信息进行评分,判断是否高于预定义的阈值,若评分高于预定义的阈值,则跳到Step8,若评分低于预定义的阈值,则跳转到Step5;Step5,利用TensorFlow构建的BI‑LSTM‑CRF机器学习模型进行简历信息命名实体提取;Step6,利用标签字典及结合命名实体提取识别出简历信息,进行简历信息各个板块切割;Step7,遍历各个简历板块内容,利用数据链表存储提取出的简历信息内容;Step8,将经过简析的简历信息用JSON或XML结构化数据进行存储。
【技术特征摘要】
1.一种基于二元化的简历解析方法,其特征在于,其包括:step1,批量读入简历;step2,把批量读入简历的转换成HTML以及TXT文本格式;Step3,判断转换成HTML文本格式的简历信息是否可以套用简历精确识别模板,如果可以就跳到Step4,如果不可以就跳到Step5;Step4,根据正则表达式的方法,利用XPATH对转化成HTML文本格式的简历信息进行解析,并对解析后的简历信息进行评分,判断是否高于预定义的阈值,若评分高于预定义的阈值,则跳到Step8,若评分低于预定义的阈值,则跳转到Step5;Step5,利用TensorFlow构建的BI-LSTM-CRF机器学习模型进行简历信息命名实体提取;Step6,利用标签字典及结合命名实体提取识别出简历信息,进行简历信息各个板块切割;Step7,遍历各个简历板块内容,利用数据链表存储提取出的简历信息内容;Step8,将经过简析的简历信息用JSON或XML结构化数据进行存储。2.根据权利要求1所述的一种基于二元化的简历解析方法,其特征在于,在step1中,通过提供WEB接口形式,接受经HTTPPOST请求传入的简历信息。3.根据权利要求2所述的一种基于二元化的简历解析方法,其特征在于,所述简历信息为单个简历文件时,则读取指定目录内的所述单个简历文件。4.根据权利要求2所述的一种基于二元化的简历解析方法,其特征在于,所述简历信息为批量简历压缩包时,则读取指定目录内...
【专利技术属性】
技术研发人员:钟实,陈少燕,潘志锋,
申请(专利权)人:深圳市前海欢雀科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。