System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及人工智能大数据,具体涉及一种构建小规模半结构化数据知识图谱的方法及系统。
技术介绍
1、随着互联网的发展,海量数据的产生和积累已成为常态,这些数据中包含了丰富的信息和知识,但往往以非结构化或半结构化的形式存在,难以直接用于分析和决策,如何有效地组织、管理和利用这些数据,成为一个重要的研究课题。知识图谱是一种用于表示和存储结构化数据的技术,它可以将数据中的实体、属性和关系抽象为图中的节点和边,从而形成一个具有语义信息的数据网络。知识图谱可以支持多种应用场景,如搜索引擎、智能问答、推荐系统等。然而现有的知识图谱的构建都是基于大规模数据样本实现的,目前对于小规模数据的图谱构建缺乏有效的方法。此外,现有的知识抽取方法主要针对文本信息,对于数值型特征的抽取能力有限,导致在小样本半结构化数据领域存在缺陷,这些问题限制了知识图谱在特定领域的应用,尤其是在数据量有限或数据结构复杂的情况下。综上,目前亟需一种构建小规模半结构化数据知识图谱的方法,用于提高构建小规模半结构化数据知识图谱的有效性和准确性。
技术实现思路
1、针对上述存在的缺陷和问题,本专利技术提供一种构建小规模半结构化数据知识图谱的方法及系统,用以提高构建小规模半结构化数据知识图谱的有效性和准确性。
2、本专利技术解决其技术问题所采用的方案是:一种构建小规模半结构化数据知识图谱的方法,包括以下步骤:
3、s1,获取待构建知识图谱的小规模半结构化数据,所述结构化数据中包括多个实体对象和它们对应的属性参
4、s2,通过清洗和切片对数据文本进行预处理,提高文本质量和分割文本;
5、s3,判断该数据是否符合小规模半结构化数据的特征;
6、s4,构建符合文本特征的正则表达式;
7、s5,设定抽取后输出结果的规则;
8、s6,根据最终输出的结果构建知识图谱。
9、进一步的,所述步骤s1中,首先获取待构建知识图谱的源数据,其中源数据可以为多种形式,源数据文本中包括半结构化数据和非结构化数据;若源数据中包括非结构化数据,则可通过对源数据进行处理,得到待构建知识图谱的半结构化数据。
10、进一步的,所述步骤s2中,对数据文本进行预处理采用以下方法:
11、s221,首先对数据文本进行数据清洗,数据清洗的一部分是去除停用词;另一部分内容是对标点符号的去除;
12、s22,接着对清洗好的数据文本进行切片处理,切片原则是按文本原有的“。”进行分割处理,从而获得若干段数据文本。
13、进一步的,所述步骤s3中,采用以下方法判断数据是否符合小规模半结构化数据的特征:
14、s31,取若干段数据文本中的两段进行tf-idf文本相似度计算,得到相似度,以此类推,输出相似度矩阵,相似度矩阵由以下公式表达:
15、,
16、其中,tf表示词语在文件中出现的次数除以文件中总词数的比值;idf表示一个词语在语料库中的重要性,即;
17、s32,对输出的相似度矩阵进行可视化分析,设定小规模半结构化数据的相似度阈值为60%,判断整体相似度是否大于60%,若大于,则符合小规模半结构化数据的特征;若小于,则不符合小规模半结构化数据的特征。
18、进一步的,所述步骤s4中,根据文本数据的具体特征构建对应的正则表达式:,
19、其中,因变量regex表示构建后的正则表达式,re.mid表示正则表达式构建函数,自变量a表示开始匹配的字符串,自变量b表示结束匹配的字符串;
20、并将表达式代入中进行匹配,
21、其中,因变量match表示匹配结果,自变量regex表示正则表达式,自变量text表示待匹配文本,re. search表示匹配函数。
22、进一步的,所述步骤s5中,设定抽取后输出结果的规则为:用正则表达式进行文本的实体和关系抽取,若符合正则表达式规则,则输出抽取结果;若不符合正则表达式规则,则输出空值。
23、一种构建小规模半结构化数据知识图谱的系统,包括以下模块:
24、获取模块,用于获取待构建知识图谱的小规模半结构化数据;
25、数据预处理模块,用于对数据文本进行清洗和切片,提高文本质量和分割文本;
26、数据特征判别模块,用于判断该数据是否符合小规模半结构化数据的特征;
27、抽取规则构建模块,用于构建符合文本特征的正则表达式;
28、输出结果处理模块,用于设定抽取后输出结果的规则;
29、图谱构建模块,用于根据最终输出的结果构建知识图谱。
30、本专利技术的有益效果:通过获取待构建知识图谱的小规模半结构化数据,确定实体对象和属性参数,根据对数据的预处理和文本相似度计算,得到数据文本的相似度,进而判断该数据是否符合小规模半结构化数据的特征,先根据需要抽取的文本类型进行分析,并找出其特点和规律,然后根据这些特点和规律构建对应的正则表达式,根据文本数据的具体特征构建对应的抽取正则表达式,运用构建的正则表达式进行实体和关系的抽取,进而得到抽取结果,根据最终的抽取输出结果,最后进行小规模半结构化数据的图谱构建;
31、本专利技术在构建小规模半结构化数据的知识图谱时,通过数据清洗、切片和相似度计算,提高了对半结构化数据处理的能力,使得数据更加适合知识图谱的构建,并且通过tf-idf文本相似度计算和可视化分析,有效识别小规模半结构化数据的特征,为知识图谱的构建提供了准确的数据特征支持;通过正则表达式进行实体和关系的抽取,尤其增强了对数值型特征值的抽取能力,提高了小规模半结构化数据图谱构建的有效性,相较于现有直接使用模型抽取构建知识图谱来说,弥补了知识图谱在小样本半结构化数据领域的缺陷,增强了对数值型特征值的抽取的能力,从而提高构建小规模半结构化数据图谱的有效性和准确性。
本文档来自技高网...【技术保护点】
1.一种构建小规模半结构化数据知识图谱的方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种构建小规模半结构化数据知识图谱的方法,其特征在于,所述步骤S1中,首先获取待构建知识图谱的源数据,其中源数据可以为多种形式,源数据文本中包括半结构化数据和非结构化数据;若源数据中包括非结构化数据,则可通过对源数据进行处理,得到待构建知识图谱的半结构化数据。
3.根据权利要求1所述的一种构建小规模半结构化数据知识图谱的方法,其特征在于,所述步骤S2中,对数据文本进行预处理采用以下方法:
4.根据权利要求1所述的一种构建小规模半结构化数据知识图谱的方法,其特征在于,所述步骤S3中,采用以下方法判断数据是否符合小规模半结构化数据的特征:
5.根据权利要求1所述的一种构建小规模半结构化数据知识图谱的方法,其特征在于,所述步骤S4中,根据文本数据的具体特征构建对应的正则表达式:,
6.根据权利要求1所述的一种构建小规模半结构化数据知识图谱的方法及系统,其特征在于,所述步骤S5中,设定抽取后输出结果的规则为:用正则表达式进行文本的实
7.一种构建小规模半结构化数据知识图谱的系统,其特征在于,包括以下模块:
...【技术特征摘要】
1.一种构建小规模半结构化数据知识图谱的方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种构建小规模半结构化数据知识图谱的方法,其特征在于,所述步骤s1中,首先获取待构建知识图谱的源数据,其中源数据可以为多种形式,源数据文本中包括半结构化数据和非结构化数据;若源数据中包括非结构化数据,则可通过对源数据进行处理,得到待构建知识图谱的半结构化数据。
3.根据权利要求1所述的一种构建小规模半结构化数据知识图谱的方法,其特征在于,所述步骤s2中,对数据文本进行预处理采用以下方法:
4.根据权利要求1所述的一种构建小规模半结构化数据知识图谱...
【专利技术属性】
技术研发人员:冉云龙,郭磊,李东阳,赵纪为,王现勋,王浩,
申请(专利权)人:天津大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。