System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及语言结构学习技术,特别是一种面向实体关系抽取的语言结构学习方法及系统。
技术介绍
1、随着信息技术的迅猛发展,大量数据呈现为数字形式,包括视频、音频、图像及文本等多样化数据类型。文本数据的结构化处理与存储,因其能够有效代表这些数据类型而显得尤为关键。由此,信息抽取技术应运而生。
2、信息抽取技术广泛应用于知识图谱构建、搜索引擎优化、情感分析等领域。其核心任务是从非结构化或半结构化的自然语言文本中提取结构化信息,涵盖命名实体识别、关系抽取、事件抽取等。关系抽取作为信息抽取的核心组成部分,在自然语言处理技术中扮演着基础且关键的角色。
3、关系抽取的目标是识别文本中的命名实体对之间的语义关系,为问答系统、意见挖掘、语义分析等任务提供理论和技术支撑。文本中的命名实体对指人名、地名、组织名等专有名词。例如,在句子“但是据欧洲安全与合作组织估计,至少还有1000人被关在牢里”中,关系抽取模型需要根据已知内容识别出命名实体“1000人”和“牢”之间存在的地理位置location的语义关系。识别语义关系的关键在于文本中的命名实体对的文本表示,实体对通常已在数据集中进行了标注,并以连续字符形式存在。关系抽取模型利用文本中实体对的上下文内容学习语言结构,以识别它们之间的语义关系。关系抽取技术的研究不仅对自然语言处理技术的发展提供了理论支持,而且对语义角色标注、篇章理解、机器翻译等任务具有重要的研究和应用价值。
4、现有的自然语言处理技术存在以下技术问题:
5、(1)传统关系抽取方法依赖人
6、(2)传统神经网络使用的固定特征关联邻接矩阵,导致实体特征可能与固定特征关联邻接矩阵连接关系不匹配,导致模型无法准确预测真实实体对间的语义关系类别;
7、(3)半监督学习和无监督学习面临语义漂移问题,导致模型在面对新的、未见过的语言结构时,关系抽取性能下降。
技术实现思路
1、本专利技术为解决上述技术问题,提供了一种面向实体关系抽取的语言结构学习方法及系统,对现有自然语言处理技术进行改进,克服了特征稀疏问题,提高了关系抽取性能,并有效利用了语言结构信息。
2、为达到上述目的,本专利技术所采用的技术方案是:首先提供了一种面向实体关系抽取的语言结构学习方法,步骤包括:
3、s1提取关系实例
4、从数据集中提取关系实例;
5、s2特征序列抽取
6、抽取实体特征,得到实体特征序列,使用自然语言处理库,将实体特征序列与实体标记语句组合,得到文本序列s_作为神经网络模型的输入;
7、s3文本序列抽象表示
8、构建神经网络模型词嵌入层的词向量查找表,通过词向量查找表将所述文本序列s_中的词映射成向量,得到抽象表示矩阵m;
9、s4构建特征关联邻接矩阵
10、采用设定区间内的随机数字,构建特征关联邻接矩阵a,与单位矩阵结合,得到增强特征关联邻接矩阵ã,作为神经网络模型训练的可变参数,以语义关系类别作为参数的调整目标,更新增强特征关联邻接矩阵ã;
11、s5学习语言结构特征
12、通过两个图卷积层的卷积操作建立所述抽象表示矩阵m和所述增强特征关联邻接矩阵ã之间的联系,进而从图卷积操作中提取出文本语言结构特征c;其中所述抽象表示矩阵m构成图结构g的节点node,所述增强特征关联邻接矩阵ã中的值表示图结构g中所述节点node之间的关联关系,即边edge,所述图结构g表示为:g=<node,edge>;
13、s6语义关系分类
14、对所述文本语言结构特征c进行全连接操作,调整全局特征,通过激活函数softmax和线性分类操作,输出语义关系分类结果。
15、优选的,步骤s1所述提取关系实例包括:采用python标准库中的xml.etree.elementtree库,从所述数据集中的xml文件中提取所需数据,通过高效编程接口api解析xml文件,得到包括关系提及语句、实体对以及实体对间的语义关系类别的关系实例,存储到json或txt文件中。
16、优选的,步骤s1所述数据集包括:ace2005、semeval-2010-task 8、re-tacred、中文文学文本语料库。
17、优选的,步骤s2所述实体特征从数据集中抽取或通过第三方工具抽取;所述实体特征包括:实体类型et、实体子类型est、实体头名词ehn、实体词性标注epos、实体结构es。
18、优选的,步骤s2所述文本序列s_的运算过程如下:
19、设关系提及语句为s,两个实体分别为和,表示为:,,,其中,,表示关系提及语句中的两个实体;
20、实体的特征序列表示为:;
21、实体 的特征序列表示为:;
22、实体和的共同特征序列为;
23、所述实体特征序列表示为:,实体和的标记特征分别表示为和,将其与关系提及语句s结合,得到所述实体标记语句,表示为:,
24、所述实体特征序列与所述实体标记语句结合,得到所述文本序列s_,表示为:,其中,和表示为实体的边界。
25、优选的,步骤s3所述词向量查找表的初始化方式包括:在一定范围内采用一定的概率分布随机初始化;从预训练文件加载词向量初始化;加载预训练语言模型初始化。
26、优选的,步骤s5所述文本语言结构特征c的运算过程如下:
27、所述抽象表示矩阵m与所述增强特征关联邻接矩阵ã进行第一次图卷积操作,表示为:graphconv(m,ã);
28、第一次图卷积操作的输出与所述抽象表示矩阵m进行第一次残差连接,表示为:residual(graphconv(m,ã),m);
29、第一次残差连接结果与所述增强特征关联邻接矩阵ã进行第二次图卷积操作,表示为:graphconv(residual(graphconv(m,ã),m),ã);
30、第二次图卷积操作的输出与第一次图卷积操作的输出进行第二次残差连接,得到所述文本语言结构特征c,表示为:c=residual(graphconv(residual(graphconv(m,ã),m),ã),graphconv(m,ã)),
31、其中,graphconv表示图卷积操作,residual表示残差连接。
32、本专利技术还提供了一种面向实体关系抽取的语言结构学习系统,包括:
33、关系实例提取模块:用于从数据集中提取关系实例;
34、特征序列抽取模块:用于抽取实体特征,得到实体特征序列,使用自然语言处理库,将实体特征序列与实体标记语句组合,得到文本序列s_作为神经网络模型的输入;
35、文本序列抽象表示模块:用于构建神经网络模型词嵌入层的词向量查找表,通过词向量查找表将所述文本序列s_中的词映射成向量,得到本文档来自技高网...
【技术保护点】
1.一种面向实体关系抽取的语言结构学习方法,其特征在于,步骤包括:
2.如权利要求1所述的一种面向实体关系抽取的语言结构学习方法,其特征在于:步骤S1所述提取关系实例包括:采用Python标准库中的xml.etree.ElementTree库,从所述数据集中的XML文件中提取所需数据,通过高效编程接口API解析XML文件,得到包括关系提及语句、实体对以及实体对间的语义关系类别的关系实例,存储到json或txt文件中。
3.如权利要求1或2所述的一种面向实体关系抽取的语言结构学习方法,其特征在于:步骤S1所述数据集包括:ACE2005、SemEval-2010-task 8、Re-TACRED、中文文学文本语料库。
4.如权利要求1所述的一种面向实体关系抽取的语言结构学习方法,其特征在于:步骤S2所述实体特征从数据集中抽取或通过第三方工具抽取;所述实体特征包括:实体类型ET、实体子类型EST、实体头名词EHN、实体词性标注EPOS、实体结构ES。
5.如权利要求1所述的一种面向实体关系抽取的语言结构学习方法,其特征在于:步骤S2所述文
6.如权利要求1所述的一种面向实体关系抽取的语言结构学习方法,其特征在于:步骤S3所述词向量查找表的初始化方式包括:在一定范围内采用一定的概率分布随机初始化;从预训练文件加载词向量初始化;加载预训练语言模型初始化。
7.如权利要求1所述的一种面向实体关系抽取的语言结构学习方法,其特征在于:步骤S5所述文本语言结构特征C的运算过程如下:
8.一种面向实体关系抽取的语言结构学习系统,其特征在于,包括:
...【技术特征摘要】
1.一种面向实体关系抽取的语言结构学习方法,其特征在于,步骤包括:
2.如权利要求1所述的一种面向实体关系抽取的语言结构学习方法,其特征在于:步骤s1所述提取关系实例包括:采用python标准库中的xml.etree.elementtree库,从所述数据集中的xml文件中提取所需数据,通过高效编程接口api解析xml文件,得到包括关系提及语句、实体对以及实体对间的语义关系类别的关系实例,存储到json或txt文件中。
3.如权利要求1或2所述的一种面向实体关系抽取的语言结构学习方法,其特征在于:步骤s1所述数据集包括:ace2005、semeval-2010-task 8、re-tacred、中文文学文本语料库。
4.如权利要求1所述的一种面向实体关系抽取的语言结构学习方法,其特征在于...
【专利技术属性】
技术研发人员:黄瑞章,杨卫哲,秦永彬,陈艳平,林川,
申请(专利权)人:贵州大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。