本申请实施例公开了一种兴趣点判重方法、装置、设备和存储介质,涉及地图数据处理技术领域。具体实现方案为:根据至少两个兴趣点的候选语种名称,从候选语种中确定目标语种以及所述至少两个兴趣点的目标语种名称;基于所述目标语种的相似度计算模型,根据所述至少两个兴趣点的目标语种名称,确定所述至少两个兴趣点是否属于同一兴趣点。通过对待比较的多个兴趣点的名称进行所属语种的区分,综合确定兴趣点名称在不同语种下的相似度,提高相似度计算的准确率以及地图国际化数据中跨语种处理的泛化能力,为兴趣点判重提供了有效依据。
【技术实现步骤摘要】
兴趣点判重方法、装置、设备和存储介质
本申请实施例涉及数据处理
,尤其涉及地图数据处理
,具体涉及一种兴趣点判重方法、装置、设备和存储介质。
技术介绍
在处理海量的地图兴趣点情报数据时,需要判别不同的情报数据是否描述为同一个兴趣点。目前对于地图国际化数据,现有技术对于跨语言兴趣点判重的适用性较差,相似度计算的准确率较低。
技术实现思路
本申请实施例提供了一种兴趣点判重方法、装置、设备和存储介质,能够提高跨语言地图兴趣点判重的准确性。第一方面,本申请实施例提供了一种兴趣点判重方法,包括:根据至少两个兴趣点的候选语种名称,从候选语种中确定目标语种以及所述至少两个兴趣点的目标语种名称;基于所述目标语种的相似度计算模型,根据所述至少两个兴趣点的目标语种名称,确定所述至少两个兴趣点是否属于同一兴趣点。上述申请中的一个实施例具有如下优点或有益效果:通过对待比较的多个兴趣点的名称进行所属语种的区分,综合确定兴趣点名称在不同语种下的相似度,提高相似度计算的准确率以及地图国际化数据中跨语种处理的泛化能力,为兴趣点判重提供了有效依据。可选的,所述根据至少两个兴趣点的候选语种名称,从候选语种中确定目标语种,包括:对所述至少两个兴趣点的候选语种名称进行语种识别,确定所述候选语种名称所属的候选语种;若所述至少两个兴趣点中包括相同候选语种的候选语种名称,则确定所述相同候选语种作为待比较的目标语种。上述申请中的一个实施例具有如下优点或有益效果:通过对待比较的多个兴趣点的候选语种名称进行语种识别,有利于区分待比较的目标语种,为多语种下兴趣点名称的比较提供依据。可选的,所述对所述至少两个兴趣点的候选语种名称进行语种识别,确定所述候选语种名称所属的候选语种,包括:确定所述候选语种名称的统一码,以及所述统一码在统一码表中的编码区域;根据所述统一码表中编码区域与语种之间的映射关系,将所述编码区域所属的语种,确定为所述候选语种名称所属的候选语种。上述申请中的一个实施例具有如下优点或有益效果:通过对候选语种名称的统一码,借助于统一码表中编码区域与语种之间的映射关系,有利于快速对多个兴趣点的候选语种名称进行语种识别。可选的,所述基于所述目标语种的相似度计算模型,根据所述至少两个兴趣点的目标语种名称,确定所述至少两个兴趣点是否属于同一兴趣点,包括:基于所述目标语种的相似度计算模型,根据所述至少两个兴趣点的目标语种名称,确定所述目标语种下所述至少两个兴趣点之间的相似度;根据不同目标语种下所述至少两个兴趣点之间的相似度,确定所述至少两个兴趣点之间的整体名称相似度;根据所述至少两个兴趣点之间的整体名称相似度,确定所述至少两个兴趣点是否属于同一兴趣点。上述申请中的一个实施例具有如下优点或有益效果:通过综合确定兴趣点名称在不同语言下的相似度,提高相似度计算的准确率以及地图国际化数据中跨语言处理的泛化能力,为兴趣点判重提供了有效依据。可选的,所述基于所述目标语种的相似度计算模型,根据所述至少两个兴趣点的目标语种名称,确定所述目标语种下所述至少两个兴趣点之间的相似度,包括:确定所述目标语种名称的向量表示;基于所述目标语种的相似度计算模型,根据所述目标语种名称的向量表示,确定所述目标语种下所述至少两个兴趣点之间的相似度。上述申请中的一个实施例具有如下优点或有益效果:通过将目标语种名称的向量表示输入至相似度计算模型中进行计算,能够学习得到兴趣点名称内部字符之间的相关性,以及不同兴趣点之间字符的相关性,从而对兴趣点名称中各字符的权重进行很好的区分,提高相似度计算的准确率。可选的,所述根据所述至少两个兴趣点之间的整体名称相似度,确定所述至少两个兴趣点是否属于同一兴趣点,包括:根据所述至少两个兴趣点的地址、电话以及距离中的至少一项,确定所述至少两个兴趣点之间的辅助信息比较结果;基于决策树模型,根据所述整体名称相似度和所述辅助信息比较结果,确定所述至少两个兴趣点之间的综合相似度;根据所述至少两个兴趣点之间的综合相似度,确定所述至少两个兴趣点是否属于同一兴趣点。上述申请中的一个实施例具有如下优点或有益效果:基于决策树模型,能够综合考虑兴趣点各维度信息之间的比较结果,进一步提高相似度计算的准确率。第二方面,本申请实施例提供了一种兴趣点判重装置,包括:语种确定模块,用于根据至少两个兴趣点的候选语种名称,从候选语种中确定目标语种以及所述至少两个兴趣点的目标语种名称;兴趣点判重模块,用于基于所述目标语种的相似度计算模型,根据所述至少两个兴趣点的目标语种名称,确定所述至少两个兴趣点是否属于同一兴趣点。第三方面,本申请实施例提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请任意实施例所述的兴趣点判重方法。第四方面,本申请实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本申请任意实施例所述的兴趣点判重方法。上述申请中的一个实施例具有如下优点或有益效果:对于待比较的至少两个兴趣点,其可能包含多语种下的候选语种名称,进而从候选语种中确定待比较的目标语种,以及各兴趣点在目标语种下的目标语种名称,从而基于目标语种的相似度计算模型,根据各兴趣点的目标语种名称,判别该至少两个兴趣点是否属于同一兴趣点。本申请实施例通过对待比较的多个兴趣点的名称进行所属语种的区分,综合确定兴趣点名称在不同语种下的相似度,提高相似度计算的准确率以及地图国际化数据中跨语种处理的泛化能力,为兴趣点判重提供了有效依据。上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。附图说明附图用于更好地理解本方案,不构成对本申请的限定。其中:图1是根据本申请第一实施例的一种兴趣点判重方法的流程图;图2是根据本申请第二实施例的一种兴趣点判重方法的流程图;图3是根据本申请第二实施例的相似度计算模型的结构示例图;图4是根据本申请第二实施例的基于多语种确定整体名称相似度的示例图;图5是根据本申请第三实施例的一种兴趣点判重装置的结构示意图;图6是用来实现本申请实施例的兴趣点判重方法的电子设备的框图。具体实施方式以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。第一实施例图1是根据本申请第一实施例的一种兴趣点判重方法的流程图,本实本文档来自技高网...
【技术保护点】
1.一种兴趣点判重方法,其特征在于,包括:/n根据至少两个兴趣点的候选语种名称,从候选语种中确定目标语种以及所述至少两个兴趣点的目标语种名称;/n基于所述目标语种的相似度计算模型,根据所述至少两个兴趣点的目标语种名称,确定所述至少两个兴趣点是否属于同一兴趣点。/n
【技术特征摘要】
1.一种兴趣点判重方法,其特征在于,包括:
根据至少两个兴趣点的候选语种名称,从候选语种中确定目标语种以及所述至少两个兴趣点的目标语种名称;
基于所述目标语种的相似度计算模型,根据所述至少两个兴趣点的目标语种名称,确定所述至少两个兴趣点是否属于同一兴趣点。
2.根据权利要求1所述的方法,其特征在于,所述根据至少两个兴趣点的候选语种名称,从候选语种中确定目标语种,包括:
对所述至少两个兴趣点的候选语种名称进行语种识别,确定所述候选语种名称所属的候选语种;
若所述至少两个兴趣点中包括相同候选语种的候选语种名称,则确定所述相同候选语种作为待比较的目标语种。
3.根据权利要求2所述的方法,其特征在于,所述对所述至少两个兴趣点的候选语种名称进行语种识别,确定所述候选语种名称所属的候选语种,包括:
确定所述候选语种名称的统一码,以及所述统一码在统一码表中的编码区域;
根据所述统一码表中编码区域与语种之间的映射关系,将所述编码区域所属的语种,确定为所述候选语种名称所属的候选语种。
4.根据权利要求1所述的方法,其特征在于,所述基于所述目标语种的相似度计算模型,根据所述至少两个兴趣点的目标语种名称,确定所述至少两个兴趣点是否属于同一兴趣点,包括:
基于所述目标语种的相似度计算模型,根据所述至少两个兴趣点的目标语种名称,确定所述目标语种下所述至少两个兴趣点之间的相似度;
根据不同目标语种下所述至少两个兴趣点之间的相似度,确定所述至少两个兴趣点之间的整体名称相似度;
根据所述至少两个兴趣点之间的整体名称相似度,确定所述至少两个兴趣点是否属于同一兴趣点。
5.根据权利要求4所述的方法,其特征在于,所述基于所述目标语种的相似度计算模型,根据所述至少两个兴趣点的目标语种名称,确定所述目标语种下所述至少两个兴趣点之间的相似度,包括:
确定所述目标语种名称...
【专利技术属性】
技术研发人员:沈潋,宋宽,谢红伟,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。