【技术实现步骤摘要】
提取地理位置点空间关系的方法、训练提取模型的方法及装置
本申请涉及计算机应用
,特别涉及大数据
技术介绍
地图主要的目标就是刻画真实世界,让用户的出行更简单。地理位置点的高精知识图谱是满足用户在地图找点和出行等核心诉求的基础。而地理位置点空间关系是知识图谱的必备要素之一,可以实现更准确的逻辑推理查询。目前,挖掘地理位置点空间关系的一种方法是利用地理位置点的坐标自动生成,但是该方法依赖坐标的准确度,而地理位置点的坐标误差一般在几十米甚至百米以上,导致该方法生成的地理位置点空间关系不准确。特别是楼层关系,无法通过坐标自动生成。
技术实现思路
有鉴于此,本申请通过以下技术方案解决现有技术中的上述技术问题。第一方面,本申请提供了一种训练地理位置点空间关系提取模型的方法,该方法包括:获取第二训练数据,所述第二训练数据包括:文本以及对文本中地理位置点、地理位置点空间关系信息的标注;利用所述第二训练数据训练地理位置点空间关系提取模型,所述地理位置点空间关系提取模型包括嵌入层、Transformer层和映射层;所述地理位置点空间关系提取模型用于从输入的互联网文本中提取地理位置点空间关系信息。第二方面,本申请还提供了一种提取地理位置点空间关系的方法,该方法包括:从互联网获取包含地理位置点信息的文本;将所述文本输入预先训练得到的地理位置点空间关系提取模型,获取所述地理位置点空间关系提取模型输出的空间关系的信息;其中所述地理位置空间 ...
【技术保护点】
1.一种训练地理位置点空间关系提取模型的方法,包括:/n获取第二训练数据,所述第二训练数据包括:文本以及对文本中地理位置点、地理位置点空间关系信息的标注;/n利用所述第二训练数据训练地理位置点空间关系提取模型,所述地理位置点空间关系提取模型包括嵌入层、Transformer层和映射层;/n其中,训练得到的地理位置点空间关系提取模型用于从输入的互联网文本中提取地理位置点空间关系信息。/n
【技术特征摘要】
1.一种训练地理位置点空间关系提取模型的方法,包括:
获取第二训练数据,所述第二训练数据包括:文本以及对文本中地理位置点、地理位置点空间关系信息的标注;
利用所述第二训练数据训练地理位置点空间关系提取模型,所述地理位置点空间关系提取模型包括嵌入层、Transformer层和映射层;
其中,训练得到的地理位置点空间关系提取模型用于从输入的互联网文本中提取地理位置点空间关系信息。
2.根据权利要求1所述的方法,其中,所述嵌入层包括:用于对文本中各Token进行字符编码的第一嵌入层、用于对各Token进行位置编码的第二嵌入层、用于对各Token所属语句标识进行编码的第三嵌入层;
所述映射层包括条件随机场CRF,用于利用所述Transformer层输出的隐向量,预测所述文本包含的空间关系的信息。
3.根据权利要求1所述的方法,其中,所述地理位置点空间关系提取模型的训练目标包括:所述映射层对所述文本的标签预测符合所述第二训练数据中的标注。
4.根据权利要求1至3中任一项所述的方法,在利用所述第二训练数据训练地理位置点空间关系提取模型之前,该方法还包括:
获取第一训练数据,所述第一训练数据包括:文本以及对文本中地理位置点、地理位置点空间关系的标注;
利用所述第一训练数据,训练预训练模型,所述预训练模型包括:所述嵌入层、所述Transformer层和至少一个任务层;所述嵌入层还包括:用于对输入文本所用于的任务层标识进行编码的第四嵌入层;
在利用所述第二训练数据训练地理位置点空间提取模型时,基于所述预训练模型训练得到的所述嵌入层和所述Transformer层。
5.根据权利要求4所述的方法,其中,所述至少一个任务层包括:掩码预测任务层、空间关系预测任务层和地理位置点预测任务层中的至少一种;
所述掩码预测任务层,用于基于所述Transformer层输出的隐向量,预测所述第一训练数据的文本中掩码部分的内容,训练目标为预测结果符合掩码部分对应实际内容;
所述空间关系预测任务层,用于基于所述Transformer层输出的隐向量,预测所述第一训练数据的文本描述的空间关系,训练目标为预测结果符合对应空间关系标注;
所述地理位置点预测任务层,用于基于所述Transformer层输出的隐向量,预测所述第一训练数据的文本包含的地理位置点,训练目标为预测结果符合对应地理位置点标注。
6.根据权利要求4所述的方法,其中,所述至少一个任务层交替训练或同时训练,利用被训练的任务层的训练目标对应的损失函数,优化所述嵌入层、Transformer层和被训练的任务层的模型参数。
7.根据权利要求4所述的方法,其中,在利用所述第二训练数据训练地理位置点空间提取模型时,基于所述预训练模型训练得到的所述嵌入层和所述Transformer层包括:
在利用所述第二训练数据训练地理位置点空间提取模型时,采用所述与训练模型训练得到的所述嵌入层和所述Transformer层的模型参数并保持不变,优化所述映射层的模型参数,直至达到所述地理位置点空间提取模型的训练目标。
8.一种提取地理位置点空间关系的方法,包括:
从互联网获取包含地理位置点信息的文本;
将所述文本输入预先训练得到的地理位置点空间关系提取模型,获取所述地理位置点空间关系提取模型输出的空间关系的信息;其中所述地理位置空间关系提取模型包括嵌入层、Transformer层和映射层。
9.根据权利要求8所述的方法,其中,所述嵌入层包括:用于对文本中各Token进行字符编码的第一嵌入层、用于对各Token进行位置编码的第二嵌入层、用于对各Token所属语句标识进行编码的第三嵌入层;
所述映射层包括条件随机场CRF,用于利用所述Transformer层输出的隐向量,预测所述文本包含的空间关系的信息。
10.根据权利要求8或9所述的方法,其中,所述空间关系的信息包括:空间关系的类型和取值。
11.一种训练地理位置点空间关系提取模型的装置,包括:
第二获取单元,用于获取第二训练数据,所述第二训练数据包括:文本以及对文本中地理位...
【专利技术属性】
技术研发人员:黄际洲,王海峰,张伟,范淼,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。