System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请主要涉及知识图谱,具体涉及一种小区楼栋知识图谱的构建方法及装置。
技术介绍
1、随着改革开放的不断深入和经济的不断发展,尤其是2000年后电子商务的蓬勃发展,物流业已逐渐成为我国的支柱产业,物流已经成了企业发展、居民生活不可或缺的重要部分。现有技术通过抽取的实体和实体之间的关系构建知识图谱并运用于物流中。但初步抽取的实体关系因受噪声干扰,抽取的关系准确度不够,造成构建的小区楼栋知识图谱的准确度不高。
2、也即,现有技术中构建的小区楼栋知识图谱的准确度不高。
技术实现思路
1、本申请提供一种小区楼栋知识图谱的构建方法及装置,旨在解决现有技术中构建的小区楼栋知识图谱的准确度不高的问题。
2、第一方面,本申请提供一种小区楼栋知识图谱的构建方法,所述小区楼栋知识图谱的构建方法包括:
3、获取历史寄递数据;
4、对所述历史寄递数据进行关系抽取,得到各个小区实体和各个楼栋实体之间的多个第一小区楼栋实体关系;
5、将所述历史寄递数据中包含所述第一小区楼栋实体关系的目标地址文本对应的地址坐标确定为所述第一小区楼栋实体关系对应的多个目标地址坐标,得到各个所述第一小区楼栋实体关系对应的多个目标地址坐标;
6、分别判断各个所述第一小区楼栋实体关系对应的多个目标地址坐标的离散度参数是否超过预设值;
7、将所述离散度参数不超过预设值的所述第一小区楼栋实体关系确定为多个所述第二小区楼栋实体关系;
8、基于多个
9、可选地,所述分别判断各个所述第一小区楼栋实体关系对应的多个目标地址坐标的离散度参数是否超过预设值之前,包括:
10、获取所述第一小区楼栋实体关系对应的多个目标地址坐标的平均坐标值;
11、计算各个所述目标地址坐标与所述平均坐标值的差值平方和;
12、将所述差值平方和确定为所述第一小区楼栋实体关系对应的多个目标地址坐标的离散度参数。
13、可选地,所述对所述历史寄递数据进行关系抽取,得到各个小区实体和各个楼栋实体之间的多个第一小区楼栋实体关系,包括:
14、获取所述历史寄递数据中的多个目标地址文本;
15、对各个所述目标地址文本进行分词,得到多个地址分词;
16、对所述多个地址分词进行命名实体识别,得到多个小区实体和多个楼栋实体;
17、将出现在同一目标地址文本的小区实体和楼栋实体之间建立第三小区楼栋实体关系;
18、基于各个所述第三小区楼栋实体关系确定多个所述第一小区楼栋实体关系。
19、可选地,所述基于各个所述第三小区楼栋实体关系确定多个所述第一小区楼栋实体关系,包括:
20、获取多个所述第三小区楼栋实体关系中包含目标小区实体的多个目标小区楼栋实体关系,其中,所述目标小区实体为多个所述小区实体中的任意一个;
21、获取多个目标小区楼栋实体关系中的楼栋实体数量;
22、判断所述楼栋实体数量是否超过所述目标小区实体的预存实际楼栋数量;
23、若所述楼栋实体数量超过所述目标小区实体的预存实际楼栋数量,则将多个所述第三小区楼栋实体关系中的多个目标小区楼栋实体关系剔除,得到多个所述第一小区楼栋实体关系。
24、可选地,所述获取所述历史寄递数据中的多个目标地址文本,包括:
25、获取所述历史寄递数据中的多个初始地址文本;
26、对所述多个初始地址文本进行预处理标准化,得到所述多个目标地址文本,其中,所述预处理标准化包括繁简转换、中文数字转阿拉伯数字、小写字母转化为大写字母。
27、可选地,所述对所述多个地址分词进行命名实体识别,得到多个小区实体和多个楼栋实体,包括:
28、将所述多个地址分词分别与预设小区实体识别模板进行匹配,将与预设小区实体识别模板匹配的地址分词确定为多个小区实体;
29、将所述多个地址分词分别与预设楼栋实体识别模板进行匹配,将与预设楼栋实体识别模板匹配的地址分词确定为多个楼栋实体。
30、可选地,所述小区楼栋知识图谱的构建方法,包括:
31、从预设网站上爬取多个网页内容;
32、对所述网页内容解析,得到网页数据;
33、对所述网页数据进行数据清洗,得到小区数据;
34、基于所述小区数据确定所述预设小区实体识别模板。
35、第二方面,本申请提供一种小区楼栋知识图谱的构建装置,所述小区楼栋知识图谱的构建装置包括:
36、获取单元,用于获取历史寄递数据;
37、关系抽取单元,用于对所述历史寄递数据进行关系抽取,得到各个小区实体和各个楼栋实体之间的多个第一小区楼栋实体关系;
38、第一确定单元,用于将所述历史寄递数据中包含所述第一小区楼栋实体关系的目标地址文本对应的地址坐标确定为所述第一小区楼栋实体关系对应的多个目标地址坐标,得到各个所述第一小区楼栋实体关系对应的多个目标地址坐标;
39、判断单元,用于分别判断各个所述第一小区楼栋实体关系对应的多个目标地址坐标的离散度参数是否超过预设值;
40、第二确定单元,用于将所述离散度参数不超过预设值的所述第一小区楼栋实体关系确定为多个所述第二小区楼栋实体关系;
41、构建单元,用于基于多个所述第二小区楼栋实体关系构建小区楼栋知识图谱。
42、可选地,所述分别判断各个所述第一小区楼栋实体关系对应的多个目标地址坐标的离散度参数是否超过预设值之前,包括:
43、获取所述第一小区楼栋实体关系对应的多个目标地址坐标的平均坐标值;
44、计算各个所述目标地址坐标与所述平均坐标值的差值平方和;
45、将所述差值平方和确定为所述第一小区楼栋实体关系对应的多个目标地址坐标的离散度参数。
46、可选地,所述对所述历史寄递数据进行关系抽取,得到各个小区实体和各个楼栋实体之间的多个第一小区楼栋实体关系,包括:
47、获取所述历史寄递数据中的多个目标地址文本;
48、对各个所述目标地址文本进行分词,得到多个地址分词;
49、对所述多个地址分词进行命名实体识别,得到多个小区实体和多个楼栋实体;
50、将出现在同一目标地址文本的小区实体和楼栋实体之间建立第三小区楼栋实体关系;
51、基于各个所述第三小区楼栋实体关系确定多个所述第一小区楼栋实体关系。
52、可选地,所述基于各个所述第三小区楼栋实体关系确定多个所述第一小区楼栋实体关系,包括:
53、获取多个所述第三小区楼栋实体关系中包含目标小区实体的多个目标小区楼栋实体关系,其中,所述目标小区实体为多个所述小区实体中的任意一个;
54、获取多个目标小区楼栋实体关系中的楼栋实体数量本文档来自技高网...
【技术保护点】
1.一种小区楼栋知识图谱的构建方法,其特征在于,所述小区楼栋知识图谱的构建方法包括:
2.根据权利要求1所述的小区楼栋知识图谱的构建方法,其特征在于,所述分别判断各个所述第一小区楼栋实体关系对应的多个目标地址坐标的离散度参数是否超过预设值之前,包括:
3.根据权利要求1所述的小区楼栋知识图谱的构建方法,其特征在于,所述对所述历史寄递数据进行关系抽取,得到各个小区实体和各个楼栋实体之间的多个第一小区楼栋实体关系,包括:
4.根据权利要求3所述的小区楼栋知识图谱的构建方法,其特征在于,所述基于各个所述第三小区楼栋实体关系确定多个所述第一小区楼栋实体关系,包括:
5.根据权利要求3所述的小区楼栋知识图谱的构建方法,其特征在于,所述获取所述历史寄递数据中的多个目标地址文本,包括:
6.根据权利要求3所述的小区楼栋知识图谱的构建方法,其特征在于,所述对所述多个地址分词进行命名实体识别,得到多个小区实体和多个楼栋实体,包括:
7.根据权利要求6所述的小区楼栋知识图谱的构建方法,其特征在于,所述小区楼栋知识图谱的构建方法,
8.一种小区楼栋知识图谱的构建装置,其特征在于,所述小区楼栋知识图谱的构建装置包括:
9.一种计算机设备,其特征在于,所述计算机设备包括:
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器进行加载,以执行权利要求1至7中任一项所述的小区楼栋知识图谱的构建方法的步骤。
...【技术特征摘要】
1.一种小区楼栋知识图谱的构建方法,其特征在于,所述小区楼栋知识图谱的构建方法包括:
2.根据权利要求1所述的小区楼栋知识图谱的构建方法,其特征在于,所述分别判断各个所述第一小区楼栋实体关系对应的多个目标地址坐标的离散度参数是否超过预设值之前,包括:
3.根据权利要求1所述的小区楼栋知识图谱的构建方法,其特征在于,所述对所述历史寄递数据进行关系抽取,得到各个小区实体和各个楼栋实体之间的多个第一小区楼栋实体关系,包括:
4.根据权利要求3所述的小区楼栋知识图谱的构建方法,其特征在于,所述基于各个所述第三小区楼栋实体关系确定多个所述第一小区楼栋实体关系,包括:
5.根据权利要求3所述的小区楼栋知识图谱的构建方法,其特征在...
【专利技术属性】
技术研发人员:陈华涓,余小六,张定棋,
申请(专利权)人:丰图科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。