The embodiment of the application provides a method and device for reviewing the integrity of text elements, which can obtain the element review template, which contains multiple text element templates; the paragraph analysis of the text to be reviewed can obtain the summary content of each paragraph; the comprehensive matching degree of each summary content and each text element template can be calculated according to the word shape matching and semantic matching; the root According to the comprehensive matching degree, determine the target text element template of each profile content matching; according to the target text element template of each profile content matching, and the preset element integrity conditions, judge whether the text element of the text to be reviewed is complete. This method takes the paragraph of the text as the unit, obtains the summary content of the paragraph, and determines the matching relationship between the summary content and the text element template based on the word form and semantic dimensions, and finally determines whether the text element is complete according to the matching relationship, thus improving the accuracy of the text element matching and auditing.
【技术实现步骤摘要】
一种文本要素完整性审核方法及装置
本申请涉及自然语言处理
,尤其涉及一种文本要素完整性审核方法及装置。
技术介绍
文本匹配是自然语言处理的一项核心内容,自然语言处理的很多任务都可以抽象成文本匹配问题,例如:信息检索可以归结为搜索词和文档资源的匹配,问答系统可以归结为问题和候选答案的匹配,复述问题可以归结为两个同义句的匹配,对话系统可以归结为前一句对话和回复的匹配,机器翻译则可以归结为两种语言的匹配。现有技术中,使用自然语言处理技术解决文本匹配问题,主要有两种方式:第一种方式是利用基于大量的人工定义和抽取的特征建立文本匹配模型,并使用文本匹配模型进行文本匹配。由于建立文本匹配模型使用的特征是根据特定的任务(例如:信息检索或者自动问答)人工设计的,因此文本匹配模型具有专用性,在某个特定任务的匹配准确性很高,但是很难应用到其他的任务上。另一种方式是使用训练数据训练深度学习模型,使用深度学习模型进行文本匹配。这种方法由于可以使用不同的训练数据去训练深度学习模型,因此可以方便的适配到各种文本匹配任务中,具有很好的泛化性。但是,由于深度学习模型质量的好坏受到训练数据等因素的影响,其准确度难以保证。
技术实现思路
本申请实施例提供了一种文本要素完整性审核方法及装置,以提高文本要素匹配和审核的准确性。第一方面,本申请实施例提供了一种文本要素完整性审核方法,该方法包括:获取要素审核模板,所述要素审核模板包含多个文本要素模板;对待审核文本进行段落解析,得到每个段落的概要内容;对于每个所述概要内容,根据词形匹配和语义匹配,分别计算其与各个文本要素模板的综合匹配度;根据所述综合 ...
【技术保护点】
1.一种文本要素完整性审核方法,其特征在于,包括:获取要素审核模板,所述要素审核模板包含多个文本要素模板;对待审核文本进行段落解析,得到每个段落的概要内容;对于每个所述概要内容,根据词形匹配和语义匹配,分别计算其与各个文本要素模板的综合匹配度;根据所述综合匹配度确定每个所述概要内容匹配的目标文本要素模板,所述目标文本要素模板是与所述概要内容的综合匹配度大于预设阈值的文本要素模板;根据各个所述概要内容匹配到的目标文本要素模板,以及预设的要素完整性条件,判断所述待审核文本的文本要素是否完整。
【技术特征摘要】
1.一种文本要素完整性审核方法,其特征在于,包括:获取要素审核模板,所述要素审核模板包含多个文本要素模板;对待审核文本进行段落解析,得到每个段落的概要内容;对于每个所述概要内容,根据词形匹配和语义匹配,分别计算其与各个文本要素模板的综合匹配度;根据所述综合匹配度确定每个所述概要内容匹配的目标文本要素模板,所述目标文本要素模板是与所述概要内容的综合匹配度大于预设阈值的文本要素模板;根据各个所述概要内容匹配到的目标文本要素模板,以及预设的要素完整性条件,判断所述待审核文本的文本要素是否完整。2.根据权利要求1所述的方法,其特征在于,所述对于每个所述概要内容,根据词形匹配和语义匹配,分别计算其与各个文本要素模板的综合匹配度,包括:对于每个所述概要内容,根据词形匹配,分别计算其与各个所述文本要素模板的词形匹配度,以及,根据语义匹配,分别计算其与各个所述文本要素模板的语义匹配度;将所述词形匹配度和所述语义匹配度加权求和,得到所述综合匹配度。3.根据权利要求2所述的方法,其特征在于,所述文本要素模板包含至少一个要素实例,所述要素实例包含关键词实例、模板实例和句子实例中的一种或多种。4.根据权利要求3所述的方法,其特征在于,所述词形匹配度使用以下公式计算得到:tesi词形=Sim词形(title,Elementi)tcsi词形=max(Sim词形(title,Elementij))其中,title表示概要内容;Elementi表示所述要素审核模板中的第i个(i为大于或者等于1的正整数)文本要素模板;Elementij表示所述第i个文本要素模板对应的第j个(j为大于或者等于1的正整数)要素实例;Sim词形(title,Elementi)为概要内容和所述要素审核模板中第i个文本要素模板的第一词形相似度;Sim词形(title,Elementij)为概要内容和所述要素审核模板对应的第j个要素实例的第二词形相似度;max为取结果最大值;Score词形为所述词形匹配度。5.根据权利要求3所述的方法,其特征在于,所述文本要素模板包括一级要素和二级要素;所述综合匹配度包括所述概要内容和所述一级要素的第一综合匹配度,以及,所述概要内容和所述二级要素的第二综合匹配度。6.根据权利要求5所述的方法,其特征在于,所述根据综合匹配度确定每个所述概要内容匹配的目标文本要素模板,包括:当所述第一综合匹配度大于所述第二综合匹配度时,所述概要内容与所述目标文本要素模板的一级要...
【专利技术属性】
技术研发人员:李健铨,赵红红,晋耀红,
申请(专利权)人:中科鼎富北京科技发展有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。