一种文本要素完整性审核方法及装置制造方法及图纸

技术编号:22532064 阅读:15 留言:0更新日期:2019-11-13 09:18
本申请实施例提供了一种文本要素完整性审核方法及装置,能够获取要素审核模板,要素审核模板包含多个文本要素模板;对待审核文本进行段落解析,得到每个段落的概要内容;根据词形匹配和语义匹配,计算每个概要内容和各个文本要素模板的综合匹配度;根据综合匹配度确定每个概要内容匹配的目标文本要素模板;根据各个概要内容匹配到的目标文本要素模板,以及预设的要素完整性条件,判断待审核文本的文本要素是否完整。该方法以文本的段落为单位,获取段落的概要内容,并基于词形和语义两个维度,确定概要内容和文本要素模板的匹配关系,最终根据匹配关系确定文本要素是否完整,由此提高了文本要素匹配和审核的准确性。

A method and device for checking the integrity of text elements

The embodiment of the application provides a method and device for reviewing the integrity of text elements, which can obtain the element review template, which contains multiple text element templates; the paragraph analysis of the text to be reviewed can obtain the summary content of each paragraph; the comprehensive matching degree of each summary content and each text element template can be calculated according to the word shape matching and semantic matching; the root According to the comprehensive matching degree, determine the target text element template of each profile content matching; according to the target text element template of each profile content matching, and the preset element integrity conditions, judge whether the text element of the text to be reviewed is complete. This method takes the paragraph of the text as the unit, obtains the summary content of the paragraph, and determines the matching relationship between the summary content and the text element template based on the word form and semantic dimensions, and finally determines whether the text element is complete according to the matching relationship, thus improving the accuracy of the text element matching and auditing.

【技术实现步骤摘要】
一种文本要素完整性审核方法及装置
本申请涉及自然语言处理
,尤其涉及一种文本要素完整性审核方法及装置。
技术介绍
文本匹配是自然语言处理的一项核心内容,自然语言处理的很多任务都可以抽象成文本匹配问题,例如:信息检索可以归结为搜索词和文档资源的匹配,问答系统可以归结为问题和候选答案的匹配,复述问题可以归结为两个同义句的匹配,对话系统可以归结为前一句对话和回复的匹配,机器翻译则可以归结为两种语言的匹配。现有技术中,使用自然语言处理技术解决文本匹配问题,主要有两种方式:第一种方式是利用基于大量的人工定义和抽取的特征建立文本匹配模型,并使用文本匹配模型进行文本匹配。由于建立文本匹配模型使用的特征是根据特定的任务(例如:信息检索或者自动问答)人工设计的,因此文本匹配模型具有专用性,在某个特定任务的匹配准确性很高,但是很难应用到其他的任务上。另一种方式是使用训练数据训练深度学习模型,使用深度学习模型进行文本匹配。这种方法由于可以使用不同的训练数据去训练深度学习模型,因此可以方便的适配到各种文本匹配任务中,具有很好的泛化性。但是,由于深度学习模型质量的好坏受到训练数据等因素的影响,其准确度难以保证。
技术实现思路
本申请实施例提供了一种文本要素完整性审核方法及装置,以提高文本要素匹配和审核的准确性。第一方面,本申请实施例提供了一种文本要素完整性审核方法,该方法包括:获取要素审核模板,所述要素审核模板包含多个文本要素模板;对待审核文本进行段落解析,得到每个段落的概要内容;对于每个所述概要内容,根据词形匹配和语义匹配,分别计算其与各个文本要素模板的综合匹配度;根据所述综合匹配度确定每个所述概要内容匹配的目标文本要素模板,所述目标文本要素模板是与所述概要内容的综合匹配度大于预设阈值的文本要素模板;根据各个所述概要内容匹配到的目标文本要素模板,以及预设的要素完整性条件,判断所述待审核文本的文本要素是否完整。第二方面,本申请实施例提供了一种文本要素完整性审核装置,该装置包括:获取模块,用于获取要素审核模板,所述要素审核模板包含多个文本要素;解析模块,用于对待审核文本进行段落解析,得到每个段落的概要内容;计算模块,用于对于每个所述概要内容,根据词形匹配和语义匹配,分别计算其与各个文本要素模板的综合匹配度;第一分析模块,用于根据所述综合匹配度确定每个所述概要内容匹配的目标文本要素模板,所述目标文本要素模板是与所述概要内容的综合匹配度大于预设阈值的文本要素模板;第二分析模块,用于根据各个所述概要内容匹配到的目标文本要素模板,以及预设的要素完整性条件,判断所述待审核文本的文本要素是否完整。由以上技术方案可知,本申请实施例提供了一种文本要素完整性审核方法及装置,能够获取要素审核模板,要素审核模板包含多个文本要素模板;对待审核文本进行段落解析,得到每个段落的概要内容;根据词形匹配和语义匹配,计算每个概要内容和各个文本要素模板的综合匹配度;根据综合匹配度确定每个概要内容匹配的目标文本要素模板;根据各个概要内容匹配到的目标文本要素模板,以及预设的要素完整性条件,判断待审核文本的文本要素是否完整。该方法以文本的段落为单位,获取段落的概要内容,并基于词形和语义两个维度,获取段落信息和文本要素模板的综合匹配度,以进一步确定概要内容和文本要素模板的匹配关系,最终根据匹配关系确定文本要素是否完整,由此提高了文本要素匹配和审核的准确性。附图说明为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本申请实施例提供的一种文本要素完整性审核方法的流程图;图2是本申请实施例提供的一种文本要素完整性审核方法步骤S103的流程图;图3是本申请实施例提供的计算第一词形相似度的流程图;图4是本申请实施例提供的计算第二词形相似度的流程图;图5是DRCN模型的结构示意图;图6是本申请实施例提供的一种文本要素完整性审核方法步骤S104的流程图;图7是本申请实施例提供的一种文本要素完整性审核装置的结构示意图。具体实施方式为了使本
的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。本申请实施例提供了一种文本要素完整性审核方法及装置,以提高文本要素匹配和审核的准确性。下面是本申请的方法实施例,提供了一种文本要素完整性审核方法,该方法可以应用于服务器、PC(个人电脑)、平板电脑、手机等多种设备中。图1是本申请实施例提供的一种文本要素完整性审核方法的流程图。如图1所示,该方法可以包括以下步骤:步骤S101,获取要素审核模板,所述要素审核模板包含多个文本要素模板。本申请实施例中,文本要素模板用于与待审核文本中的内容进行匹配,以确定待审核文本中包含哪些文本要素,从而一步判断待审核文本中包含的文本要素是否完整。要素审核模板除了包含文本要素模板以外,针对每个要素模板,还可以包括至少一个要素实例,要素实例也可以用于与待审核文本中的内容进行匹配,从而辅助于文本要素模板确定待审核文本中包含哪些文本要素。本申请实施例中对要素实例的内容和格式设置不做具体限定,本领域技术人员可以根据需求,从有利于识别文本要素的角度出发,自由设置要素实例的内容和格式,例如:要素实例可以包括关键词实例、模板实例或句子实例。在一些实施例中,文本要素模板可以包含多个级别,不同级别的文本要素模板之间由高到低具有从属关系,例如:文本要素模板可以包括一级要素和二级要素,二级要素从属于一级要素,二级要素之下设置有关键词实例、模板实例或句子实例等至少一个要素实例。下面以针对合同文本要素完整性审核业务为例,对要素审核模板的结构做进一步解释说明。请参见表1,为合同文本要素完整性审核业务中所使用的一个合同要素审核模板:一级要素二级要素句子标签关键词、模板、句子实例服务要求服务要求项目名称项目名称服务要求服务要求服务内容合作内容服务要求服务要求服务内容服务内容服务要求服务要求服务目标服务目标服务要求服务要求服务方式合作方式服务要求服务要求服务方式服务方式服务要求服务要求服务地点服务地点服务要求服务要求服务期限服务期限服务要求服务要求服务进度安排服务进度安排服务要求服务要求质量要求质量要求服务要求服务要求质量期限要求质量期限要求服务验收服务验收验收地点验收地点服务验收服务验收验收时间验收时间服务验收服务验收验收方式验收方式服务验收服务验收验收标准验收标准报酬和支付方式价款总金额服务费报酬和支付方式价款总金额总额报酬和支付方式价款总金额价格报酬和支付方式价款总金额报酬报酬和支付方式价款总金额总价款报酬和支付方式价款总金额总金额表1合同要素审核模板在表1中,每一行作为一个文本要素模板,每个文本要素模板包含的第一要素和第二要素可以相同,也可以不同,当第一要素和第二要素相同时,可以认为该文本要素模板只包含第一要素。句子标签是该文本要素模板所能够匹配的文本文档来自技高网
...

【技术保护点】
1.一种文本要素完整性审核方法,其特征在于,包括:获取要素审核模板,所述要素审核模板包含多个文本要素模板;对待审核文本进行段落解析,得到每个段落的概要内容;对于每个所述概要内容,根据词形匹配和语义匹配,分别计算其与各个文本要素模板的综合匹配度;根据所述综合匹配度确定每个所述概要内容匹配的目标文本要素模板,所述目标文本要素模板是与所述概要内容的综合匹配度大于预设阈值的文本要素模板;根据各个所述概要内容匹配到的目标文本要素模板,以及预设的要素完整性条件,判断所述待审核文本的文本要素是否完整。

【技术特征摘要】
1.一种文本要素完整性审核方法,其特征在于,包括:获取要素审核模板,所述要素审核模板包含多个文本要素模板;对待审核文本进行段落解析,得到每个段落的概要内容;对于每个所述概要内容,根据词形匹配和语义匹配,分别计算其与各个文本要素模板的综合匹配度;根据所述综合匹配度确定每个所述概要内容匹配的目标文本要素模板,所述目标文本要素模板是与所述概要内容的综合匹配度大于预设阈值的文本要素模板;根据各个所述概要内容匹配到的目标文本要素模板,以及预设的要素完整性条件,判断所述待审核文本的文本要素是否完整。2.根据权利要求1所述的方法,其特征在于,所述对于每个所述概要内容,根据词形匹配和语义匹配,分别计算其与各个文本要素模板的综合匹配度,包括:对于每个所述概要内容,根据词形匹配,分别计算其与各个所述文本要素模板的词形匹配度,以及,根据语义匹配,分别计算其与各个所述文本要素模板的语义匹配度;将所述词形匹配度和所述语义匹配度加权求和,得到所述综合匹配度。3.根据权利要求2所述的方法,其特征在于,所述文本要素模板包含至少一个要素实例,所述要素实例包含关键词实例、模板实例和句子实例中的一种或多种。4.根据权利要求3所述的方法,其特征在于,所述词形匹配度使用以下公式计算得到:tesi词形=Sim词形(title,Elementi)tcsi词形=max(Sim词形(title,Elementij))其中,title表示概要内容;Elementi表示所述要素审核模板中的第i个(i为大于或者等于1的正整数)文本要素模板;Elementij表示所述第i个文本要素模板对应的第j个(j为大于或者等于1的正整数)要素实例;Sim词形(title,Elementi)为概要内容和所述要素审核模板中第i个文本要素模板的第一词形相似度;Sim词形(title,Elementij)为概要内容和所述要素审核模板对应的第j个要素实例的第二词形相似度;max为取结果最大值;Score词形为所述词形匹配度。5.根据权利要求3所述的方法,其特征在于,所述文本要素模板包括一级要素和二级要素;所述综合匹配度包括所述概要内容和所述一级要素的第一综合匹配度,以及,所述概要内容和所述二级要素的第二综合匹配度。6.根据权利要求5所述的方法,其特征在于,所述根据综合匹配度确定每个所述概要内容匹配的目标文本要素模板,包括:当所述第一综合匹配度大于所述第二综合匹配度时,所述概要内容与所述目标文本要素模板的一级要...

【专利技术属性】
技术研发人员:李健铨赵红红晋耀红
申请(专利权)人:中科鼎富北京科技发展有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1