System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 面向动态文本的增量实体解析方法、可读存储介质及装置制造方法及图纸_技高网

面向动态文本的增量实体解析方法、可读存储介质及装置制造方法及图纸

技术编号:44755411 阅读:4 留言:0更新日期:2025-03-26 12:41
本发明专利技术涉及文本数据处理技术领域,特别涉及一种面向动态文本的增量实体解析方法、可读存储介质及装置,基于神经网络语言模型的粗调过滤模块过滤掉明显不匹配的实体描述文本对,生成候选实体文本对集合;基于深度语义的特征融合模块生成融合上下文信息的实体文本对高阶语义向量;基于深度度量学习的精调解析模块增强对文本中语义关系的捕获能力,获得实体文本对的解析结果。增量实体解析部分对动态文本数据进行增量实体解析,并通过不断利用每个时间步的高可信匹配与不匹配实体文本对来迭代优化精调解析模型的参数。本发明专利技术对动态文本数据进行增量实体解析,且每个时间步的精调解析模型能够利用从上一个时间步的解析结果中分析出高可信标注数据集。

【技术实现步骤摘要】

本专利技术涉及文本数据处理,特别涉及一种面向动态文本的增量实体解析方法、可读存储介质及装置


技术介绍

1、实体解析作为数据融合的关键技术,旨在准确判断两个实体文本描述是否指向真实世界的同一对象,能够为各个领域的智能决策和分析提供高质量的数据保障。整个解析过程通常分为粗调和精调两个阶段。粗调阶段侧重于降低假阴性错误率,精调阶段侧重于降低假阳性错误率。两阶段相辅相成,共同保障整个数据集的实体同一性。粗调阶段的主要任务是从海量的数据中筛选出可能匹配的实体文本对,形成候选实体文本对集合,即使用“较粗的筛子”筛选候选实体文本对,确保所有潜在的匹配对都能被纳入候选集合中。而所谓筛子就是在数据处理过程中所采用的粗略筛选方法,如通过一系列有效的过滤技术或规则,筛选出文本数据集中所有可能匹配的实体文本对。其目的是在保证召回率的前提下,尽可能缩小候选实体文本对集合的规模,从而提升后续精调阶段的处理效率和准确性。精调阶段的主要任务是根据应用需求和数据特征建模精准的实体解析模型来识别出候选集合中真正匹配的实体文本对。这些精调解析方法大多利用智能数据处理技术,如匹配规则、机器学习方法和深度神经网络等技术,对实体的文本语义进行深度分析,确保只有那些真正匹配的实体文本对被标识出来。

2、学术界和工业界提出了一些基于规则的方法(如析取范式和通用布尔公式)、基于机器学习的方法(如svm和随机森林)和基于深度神经网络的方法(如deeper、deepmatcher和ditto)。这些方法在解决实体解析问题方面取得了一定程度的成效,但也存在一些局限性。基于规则的方法通常依赖领域专家事先定义的规则集,较难有效地建模动态变化的复杂语言环境和多样化的实体描述文本;与基于规则的方法相比,基于机器学习的方法具有更强的自适应性和泛化能力,能够通过特征工程构建有效的文本语义或语法特征,更好地处理业务场景中复杂的文本数据。然而,基于机器学习的方法需要大量已标注的实体文本对进行模型训练,且对文本数据分布较为敏感。如果已标注的实体文本对数目不足或存在偏差,此类精调解析方法的泛化能力会受到严重影响。基于深度神经网络的方法能够自动学习文本语义特征表示,从而在处理复杂任务时表现出较好的泛化能力。然而,现有基于深度神经网络的实体解析方法仅能处理静态文本场景,无法有效应对真实场景下动态文本的业务需求。所谓动态文本,是指数据集中实体描述文本会随时间持续不断地累加。为便于陈述,假设和是来自2个异构数据源的增量数据集,且都由n个时间步的增量数据组成,0≤n≤+∞。如由和组成,即其中指第1个数据源在第k个时间步内产生的增量文本数据。增量实体解析问题就是逐时间步来解析这些增量文本数据集(如和),最终预测出和中所有匹配的实体描述对。然而,现有的实体解析方法大多为静态文本处理方法,这些方法在处理科技文献等动态文本时存在显著的局限性。由于科技文献的文本描述具有随时间不断增加的特点,使得动态实体解析模型需要不断地进行自我优化,以适应数据的动态变化所带来的数据集的统计特征变化和概率分布变化,而静态方法通常需要重新训练整个模型以适应新的数据分布。这种做法不仅效率低下,而且成本高昂,特别是在处理大规模数据集时,其局限性尤为突出。

3、为了解决这一问题,亟需深入研究增量实体解析技术。该技术侧重于面向动态文本实现高效的实体解析。该技术能够通过不断更新模型参数和优化解析模型,适应实体描述文本的动态变化和增长,从而显著提升动态实体描述文本的解析效率和解析结果的准确性,为基于动态文本的应用(如科技文献数据集成)提供了更为智能和可靠的高质量数据解决方案。


技术实现思路

1、在科技文献等动态文本场景下,传统的静态实体解析方法往往难以应对动态文本的持续更新和变化,且静态方法通常无法识别已处理的高可信匹配或不匹配对。传统的静态方法在训练过程中可能会“记住”标注文本对所蕴含的噪声。当与训练文本对差异较大的新文本出现时,模型可能会因为受到噪声的干扰而产生错误的解析结果,从而导致解析效果的下降。鉴于此,本专利技术提出一种面向动态文本的增量实体解析方法、可读存储介质及装置,能够对动态文本数据进行增量实体解析,且每个时间步的精调解析模型能够利用基于可信性度量的数据增强策略从上一个时间步的解析结果中分析出高可信标注数据集,用于持续优化精调解析模型的参数,来弥补标注文本对的不足对精调解析模型性能的影响。

2、为实现上述目的,所采取的技术方案是:

3、一种面向动态文本的增量实体解析方法,包含精调解析和增量实体解析两部分;

4、精调解析部分包含基于神经网络语言模型的粗调过滤模块、基于深度语义的特征融合模块和基于深度度量学习的精调解析模块;其中基于神经网络语言模型的粗调过滤模块过滤掉明显不匹配的实体描述文本对,生成候选实体文本对集合;基于深度语义的特征融合模块生成融合上下文信息的实体文本对高阶语义向量;基于深度度量学习的精调解析模块增强对文本中语义关系的捕获能力,获得实体文本对的解析结果;

5、增量实体解析部分对动态文本数据进行增量实体解析,并通过不断利用每个时间步的高可信匹配与不匹配实体文本对来迭代优化精调解析模型的参数。

6、根据本专利技术面向动态文本的增量实体解析方法,进一步地,基于神经网络语言模型的粗调过滤模块的处理过程如下:

7、将两个异构文本集合中每个实体的所有属性值连接成字符串,构建出每个实体的属性签名;

8、利用神经网络语言模型生成属性签名中每个单词的高维向量表示,得到单词嵌入向量序列;

9、采用自动编码器将这些单词嵌入向量序列聚合成两个向量集合;

10、利用基于余弦配对的过滤策略生成候选实体文本对集合。

11、根据本专利技术面向动态文本的增量实体解析方法,进一步地,利用基于余弦配对的过滤策略生成候选实体文本对集合包含:

12、对于一文本集合中任一实体描述文本,计算其嵌入向量与另一文本集合中所有实体嵌入向量的余弦相似度,根据相似度得分选取前k个最相似的实体描述文本作为候选集,将某实体与其候选实体连接起来,构成候选实体文本对集合。

13、根据本专利技术面向动态文本的增量实体解析方法,进一步地,基于深度语义的特征融合模块的处理过程如下:

14、利用神经网络语言模型将某候选实体对p中和构建出相应的单词嵌入向量序列u1和u2;

15、由于u1和u2都能够作为彼此的上下文序列,将u1视为主输入序列,u2视为上下文序列,通过利用带有注意力机制的双向循环神经网络来构建u1的融合上下文信息的高阶语义向量其中d为超参数,m为u1包含的元素数;类似地,将u2视为主输入序列,u1视为上下文序列,重复上述步骤,来构建u2的融合上下文信息的高阶语义向量其中n为u2包含的元素数;

16、对x1、x2采用可学习的距离函数dis(·),通过逐元素比较操作得到一个实体文本对的高阶语义向量xp。

17、根据本专利技术面向动态文本的增量实体解析方法,进一步地,高阶语义向本文档来自技高网...

【技术保护点】

1.一种面向动态文本的增量实体解析方法,其特征在于,包含精调解析和增量实体解析两部分;

2.根据权利要求1所述的面向动态文本的增量实体解析方法,其特征在于,基于神经网络语言模型的粗调过滤模块的处理过程如下:

3.根据权利要求2所述的面向动态文本的增量实体解析方法,其特征在于,利用基于余弦配对的过滤策略生成候选实体文本对集合包含:

4.根据权利要求1所述的面向动态文本的增量实体解析方法,其特征在于,基于深度语义的特征融合模块的处理过程如下:

5.根据权利要求4所述的面向动态文本的增量实体解析方法,其特征在于,高阶语义向量x1的计算过程如下:

6.根据权利要求5所述的面向动态文本的增量实体解析方法,其特征在于,计算每个序列元素的比较向量包含:首先通过Bi-RNN对序列u1进行编码得到u'1;然后使用包含ReLU层的HighwayNet对u'1和b1进行逐元素比较,生成比较向量c1[m],c1[m]是u1[m]∈u1的比较表示;

7.根据权利要求4所述的面向动态文本的增量实体解析方法,其特征在于,基于深度度量学习的精调解析模块的处理过程如下:

8.根据权利要求1所述的面向动态文本的增量实体解析方法,其特征在于,增量实体解析部分的处理过程如下:

9.一种面向动态文本的增量实体解析装置,其特征在于,用于实现如权利要求1-8任一项所述的面向动态文本的增量实体解析方法,该装置包含:

10.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述方法的步骤。

...

【技术特征摘要】

1.一种面向动态文本的增量实体解析方法,其特征在于,包含精调解析和增量实体解析两部分;

2.根据权利要求1所述的面向动态文本的增量实体解析方法,其特征在于,基于神经网络语言模型的粗调过滤模块的处理过程如下:

3.根据权利要求2所述的面向动态文本的增量实体解析方法,其特征在于,利用基于余弦配对的过滤策略生成候选实体文本对集合包含:

4.根据权利要求1所述的面向动态文本的增量实体解析方法,其特征在于,基于深度语义的特征融合模块的处理过程如下:

5.根据权利要求4所述的面向动态文本的增量实体解析方法,其特征在于,高阶语义向量x1的计算过程如下:

6.根据权利要求5所述的面向动态文本的增量实体解析方法,其特征在于,计算每个序列元素的比较向量包含:首先通...

【专利技术属性】
技术研发人员:徐耀丽刘永文梁帅西冯保强黄万伟齐万华段晓宇钱小敏卢海宾李承霖翟浩杰张世征李璞陈锐
申请(专利权)人:郑州轻工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1