提取地理位置点空间关系的方法、训练提取模型的方法及装置制造方法及图纸

技术编号:25835358 阅读:20 留言:0更新日期:2020-10-02 14:16
本申请公开了一种提取地理位置点空间关系的方法、训练提取模型的方法及装置,涉及大数据技术领域。具体实现方案为:获取第二训练数据,所述第二训练数据包括:文本以及对文本中地理位置点、地理位置点空间关系信息的标注;利用所述第二训练数据训练地理位置点空间关系提取模型,所述地理位置点空间关系提取模型包括嵌入层、Transformer层和映射层;所述地理位置点空间关系提取模型用于从输入的文本中提取地理位置点空间关系信息。本申请能够从互联网文本中提取地理位置点空间关系信息,解决了因地理位置点的坐标误差或楼层关系而导致的空间关系不准确或无法自动生成的问题。

【技术实现步骤摘要】
提取地理位置点空间关系的方法、训练提取模型的方法及装置
本申请涉及计算机应用
,特别涉及大数据

技术介绍
地图主要的目标就是刻画真实世界,让用户的出行更简单。地理位置点的高精知识图谱是满足用户在地图找点和出行等核心诉求的基础。而地理位置点空间关系是知识图谱的必备要素之一,可以实现更准确的逻辑推理查询。目前,挖掘地理位置点空间关系的一种方法是利用地理位置点的坐标自动生成,但是该方法依赖坐标的准确度,而地理位置点的坐标误差一般在几十米甚至百米以上,导致该方法生成的地理位置点空间关系不准确。特别是楼层关系,无法通过坐标自动生成。
技术实现思路
有鉴于此,本申请通过以下技术方案解决现有技术中的上述技术问题。第一方面,本申请提供了一种训练地理位置点空间关系提取模型的方法,该方法包括:获取第二训练数据,所述第二训练数据包括:文本以及对文本中地理位置点、地理位置点空间关系信息的标注;利用所述第二训练数据训练地理位置点空间关系提取模型,所述地理位置点空间关系提取模型包括嵌入层、Transformer层和映射层;所述地理位置点空间关系提取模型用于从输入的互联网文本中提取地理位置点空间关系信息。第二方面,本申请还提供了一种提取地理位置点空间关系的方法,该方法包括:从互联网获取包含地理位置点信息的文本;将所述文本输入预先训练得到的地理位置点空间关系提取模型,获取所述地理位置点空间关系提取模型输出的空间关系的信息;其中所述地理位置空间关系提取模型包括嵌入层、Transformer层和映射层。第三方面,本申请提供了一种训练地理位置点空间关系提取模型的装置,该装置包括:第二获取单元,用于获取第二训练数据,所述第二训练数据包括:文本以及对文本中地理位置点、地理位置点空间关系信息的标注;第二训练单元,用于利用所述第二训练数据训练地理位置点空间关系提取模型,所述地理位置点空间关系提取模型包括嵌入层、Transformer层和映射层;所述地理位置点空间关系提取模型用于从输入的文本中提取地理位置点空间关系信息。第四方面,本申请还提供了一种提取地理位置点空间关系的装置,该装置包括:获取单元,用于从互联网获取包含地理位置点信息的文本;提取单元,用于将所述文本输入预先训练得到的地理位置点空间关系提取模型,获取所述地理位置点空间关系提取模型输出的空间关系的信息;其中所述地理位置空间关系提取模型包括嵌入层、Transformer层和映射层。第五方面,本申请提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述任一项所述的方法。第六方面,本申请还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行上述任一项所述的方法。由以上技术方案可以看出,本申请能够从互联网文本中提取地理位置点空间关系信息,解决了因地理位置点的坐标误差而导致的空间关系不准确的问题,或楼层关系无法自动生成的问题。上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。附图说明附图用于更好地理解本方案,不构成对本申请的限定。其中:图1示出了可以应用本申请实施例的方法或装置的示例性系统架构;图2为本申请实施例一提供的提取地理位置点空间关系的方法流程图;图3为本申请实施例一提供的地理位置点空间关系提取模型的结构示意图;图4为本申请实施例二提供的训练地理位置点空间关系提取模型的方法流程图;图5为本申请实施例三提供的训练地理位置点空间关系提取模型的方法流程图;图6a为本申请实施例三提供的预训练模型的结构示意图;图6b为基本申请实施例三提供的地理位置点空间关系提取模型的结构示意图;图7为本申请实施例四提供的训练地理位置点空间关系提取模型的装置结构图;图8为本申请实施例五提供的提取地理位置点空间关系的装置结构图;图9是用来实现本申请实施例的方法的电子设备的框图。具体实施方式以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。图1示出了可以应用本申请实施例的方法或装置的示例性系统架构。如图1所示,该系统架构可以包括终端设备101和102,网络103和服务器104。网络103用以在终端设备101、102和服务器104之间提供通信链路的介质。网络103可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。用户可以使用终端设备101和102通过网络103与服务器104交互。终端设备101和102上可以安装有各种应用,例如地图类应用、网页浏览器应用、通信类应用等。终端设备101和102可以是能够运行地图类应用的各类用户设备。包括但不限于智能手机、平板电脑、PC、智能电视等等。本申请所提供的提取地理位置点空间关系的装置可以设置并运行于上述服务器104中,也可以运行于独立于服务器104的设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块,在此不做具体限定。服务器104可以与地图数据库105之间进行交互,具体地,服务器104可以从地图数据库105中获取数据,也可以将数据存储于地图数据库105中。地图数据库105中存储有包括POI信息的地图数据。例如,提取地理位置点空间关系的装置设置并运行于上述服务器104中,服务器104采用本申请实施例提供的方法进行地理位置点空间关系的提取,然后利用获取的地理位置点的空间关系更新地图数据库105。服务器104能够响应于终端设备101、102的查询请求,查询地图数据库105,并向终端设备101、102返回所查询地理位置点的相关信息,包括基于地理位置点空间关系所产生的信息。服务器104可以是单一服务器,也可以是多个服务器构成的服务器群组。另外104除了以服务器的形式存在之外,也可以是具有较高计算性能的其他计算机系统或处理器。应该理解,图1中的终端设备、网络、服务器和数据库的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络、服务器和数据库。互联网中存在与地理位置相关的大量情报,这些情报里面会提到对应的地理位置与其他地理位置的空间关系,我们可以利用文本解析技术,从这些情报中自动的构建地理位置间的地理空间位置关系。下面分别结合实施例对这两个部分进行详细描述。本申请中涉及的地理位置点指的是地图类应用中的地理位置点,该地理位置点可以供用户查询、浏览,本文档来自技高网...

【技术保护点】
1.一种训练地理位置点空间关系提取模型的方法,包括:/n获取第二训练数据,所述第二训练数据包括:文本以及对文本中地理位置点、地理位置点空间关系信息的标注;/n利用所述第二训练数据训练地理位置点空间关系提取模型,所述地理位置点空间关系提取模型包括嵌入层、Transformer层和映射层;/n其中,训练得到的地理位置点空间关系提取模型用于从输入的互联网文本中提取地理位置点空间关系信息。/n

【技术特征摘要】
1.一种训练地理位置点空间关系提取模型的方法,包括:
获取第二训练数据,所述第二训练数据包括:文本以及对文本中地理位置点、地理位置点空间关系信息的标注;
利用所述第二训练数据训练地理位置点空间关系提取模型,所述地理位置点空间关系提取模型包括嵌入层、Transformer层和映射层;
其中,训练得到的地理位置点空间关系提取模型用于从输入的互联网文本中提取地理位置点空间关系信息。


2.根据权利要求1所述的方法,其中,所述嵌入层包括:用于对文本中各Token进行字符编码的第一嵌入层、用于对各Token进行位置编码的第二嵌入层、用于对各Token所属语句标识进行编码的第三嵌入层;
所述映射层包括条件随机场CRF,用于利用所述Transformer层输出的隐向量,预测所述文本包含的空间关系的信息。


3.根据权利要求1所述的方法,其中,所述地理位置点空间关系提取模型的训练目标包括:所述映射层对所述文本的标签预测符合所述第二训练数据中的标注。


4.根据权利要求1至3中任一项所述的方法,在利用所述第二训练数据训练地理位置点空间关系提取模型之前,该方法还包括:
获取第一训练数据,所述第一训练数据包括:文本以及对文本中地理位置点、地理位置点空间关系的标注;
利用所述第一训练数据,训练预训练模型,所述预训练模型包括:所述嵌入层、所述Transformer层和至少一个任务层;所述嵌入层还包括:用于对输入文本所用于的任务层标识进行编码的第四嵌入层;
在利用所述第二训练数据训练地理位置点空间提取模型时,基于所述预训练模型训练得到的所述嵌入层和所述Transformer层。


5.根据权利要求4所述的方法,其中,所述至少一个任务层包括:掩码预测任务层、空间关系预测任务层和地理位置点预测任务层中的至少一种;
所述掩码预测任务层,用于基于所述Transformer层输出的隐向量,预测所述第一训练数据的文本中掩码部分的内容,训练目标为预测结果符合掩码部分对应实际内容;
所述空间关系预测任务层,用于基于所述Transformer层输出的隐向量,预测所述第一训练数据的文本描述的空间关系,训练目标为预测结果符合对应空间关系标注;
所述地理位置点预测任务层,用于基于所述Transformer层输出的隐向量,预测所述第一训练数据的文本包含的地理位置点,训练目标为预测结果符合对应地理位置点标注。


6.根据权利要求4所述的方法,其中,所述至少一个任务层交替训练或同时训练,利用被训练的任务层的训练目标对应的损失函数,优化所述嵌入层、Transformer层和被训练的任务层的模型参数。


7.根据权利要求4所述的方法,其中,在利用所述第二训练数据训练地理位置点空间提取模型时,基于所述预训练模型训练得到的所述嵌入层和所述Transformer层包括:
在利用所述第二训练数据训练地理位置点空间提取模型时,采用所述与训练模型训练得到的所述嵌入层和所述Transformer层的模型参数并保持不变,优化所述映射层的模型参数,直至达到所述地理位置点空间提取模型的训练目标。


8.一种提取地理位置点空间关系的方法,包括:
从互联网获取包含地理位置点信息的文本;
将所述文本输入预先训练得到的地理位置点空间关系提取模型,获取所述地理位置点空间关系提取模型输出的空间关系的信息;其中所述地理位置空间关系提取模型包括嵌入层、Transformer层和映射层。


9.根据权利要求8所述的方法,其中,所述嵌入层包括:用于对文本中各Token进行字符编码的第一嵌入层、用于对各Token进行位置编码的第二嵌入层、用于对各Token所属语句标识进行编码的第三嵌入层;
所述映射层包括条件随机场CRF,用于利用所述Transformer层输出的隐向量,预测所述文本包含的空间关系的信息。


10.根据权利要求8或9所述的方法,其中,所述空间关系的信息包括:空间关系的类型和取值。


11.一种训练地理位置点空间关系提取模型的装置,包括:
第二获取单元,用于获取第二训练数据,所述第二训练数据包括:文本以及对文本中地理位...

【专利技术属性】
技术研发人员:黄际洲王海峰张伟范淼
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1