本申请提供了一种识别地址的方法和装置,可以通过基于分类模型和分词模型的置信阈值标注体系对恶意地址进行识别,有利于提高恶意地址识别的准确率。该方法包括:将待识别地址信息输入至分类模型,获取第一数值,该第一数值用于表示该待识别地址信息为恶意地址的概率;若该第一数值小于或等于第一置信阈值,且该第一数值大于或等于第二置信阈值,将该待识别地址信息输入至分词模型,得到结构化地址信息,该分词模型用于将该待识别地址信息进行结构化划分,并对划分后的该待识别地址信息进行标注;基于该结构化地址信息,对该待识别地址信息进行识别。
【技术实现步骤摘要】
识别地址的方法和装置
本申请涉及人工智能领域,更具体地,涉及一种识别地址的方法和装置。
技术介绍
恶意地址源于黑色产业链冒充正常客户对运营商产品进行恶意订购的行为。恶意地址可以为不存在的虚假地址、行政区划分错乱的干扰地址以及无地址意义的垃圾地址等。恶意地址占用终端用户的网络资源,扰乱正常的信息技术(internettechnology,IT)流程,使得IT系统的功能产生错误和偏差,无法对恶意地址进行解析和分词处理,因此需要在恶意地址进入正常IT流程之前将其识别并进行屏蔽。目前,可以采用模板匹配的方法对恶意地址进行识别,该方法可以基于待识别地址信生成目标地址,并判断至少一个恶意地址模板中是否存在与该目标地址对应的恶意地址模板。然而,由于恶意地址的随意性较强,采用上述方法进行恶意地址识别的准确率不高。
技术实现思路
本申请提供一种识别地址的方法和装置,可以通过基于分类模型和分词模型的置信阈值标注体系对恶意地址进行识别,有利于提高恶意地址识别的准确率。第一方面,提供了一种识别地址的方法,包括:将待识别地址信息输入至分类模型,获取第一数值,该第一数值用于表示该待识别地址信息为恶意地址的概率,该分类模型包括位置嵌入层、分段嵌入层和词嵌入层,该位置嵌入层用于表示该待识别地址信息中词语的位置关系,该分段嵌入层用于区分该待识别地址信息中不同的语句,该词嵌入层用于将该待识别地址信息向量化;若该第一数值小于或等于第一置信阈值,且该第一数值大于或等于第二置信阈值,将该待识别地址信息输入至分词模型,得到结构化地址信息,该分词模型用于将该待识别地址信息进行结构化划分,并对划分后的该待识别地址信息进行标注;基于该结构化地址信息,对该待识别地址信息进行识别。应理解,上述第一置信阈值大于或等于第二置信阈值。本申请实施例采用分类模型结合第一置信阈值和第二置信阈值对待识别地址信息进行初步分类,并基于模型得分,即第一数值进一步采用分词模型对该待识别地址信息进行识别。由于分类模型可以保留相对完整意义上的待识别地址的语义信息,且分词模型可以完整实现对待识别地址信息的划分和标注,最大限度地保留了地理位置相关的完整实体信息,因此,有利于提高识别地址的准确率。结合第一方面,在第一方面的某些实现方式中,基于该结构化地址信息,对该待识别地址信息进行识别,包括:基于该结构化地址信息,确定第一地址信息;将该第一地址信息与地址库中的地址信息进行匹配,以对该待识别地址信息进行识别。结合第一方面,在第一方面的某些实现方式中,该地址库包括第一地址库,将该第一地址信息与地址库中的地址信息进行匹配,以对该待识别地址信息进行识别,包括:若该第一地址信息与该第一地址库中的地址信息匹配成功,确定该待识别地址信息为正常地址。结合第一方面,在第一方面的某些实现方式中,该地址库还包括第二地址库,将该第一地址信息与地址库中的地址信息进行匹配,以对该待识别地址信息进行识别,包括:若该第一地址信息与该第一地址库中的地址信息匹配失败,获取该第一地址信息中的多个关键词;将该多个关键词与该第二地址库中的地址信息进行匹配,得到第二数值;基于该第二数值,对该待识别地址信息进行识别。结合第一方面,在第一方面的某些实现方式中,基于上述第二数值,对该待识别地址信息进行识别,包括:若该第二数值大于或等于第三置信阈值,确定该待识别地址信息为正常地址;或者,若该第二数值小于或等于第三置信阈值,确定该待识别地址信息为恶意地址。结合第一方面,在第一方面的某些实现方式中,在将待识别地址信息输入至分类模型,获取第一数值之后,若该第一数值大于或等于该第一置信阈值,确定该待识别地址信息为恶意地址;或者,若该第一数值小于或等于所述第二置信阈值,确定该待识别地址信息为正常地址。第二方面,提供了一种识别地址的装置,用于执行上述第一方面中任一种可能的实现方式中的方法。具体地,该装置包括用于执行上述第一方面中任一种可能的实现方式中的方法的模块。第三方面,提供了一种提供了另一种识别地址的装置,包括处理器,该处理器与存储器耦合,可用于执行存储器中的指令,以实现上述第一方面中任一种可能实现方式中的方法。可选地,该装置还包括存储器。可选地,该装置还包括通信接口,处理器与通信接口耦合。在一种实现方式中,该识别地址的装置为地址识别设备。当该识别地址的装置为地址识别设备时,通信接口可以是收发器,或,输入/输出接口。在另一种实现方式中,该基站开站装置为配置于地址识别设备中的芯片。当该识别地址的装置为配置于地址识别设备中的芯片时,通信接口可以是输入/输出接口。第四方面,提供了一种处理器,包括:输入电路、输出电路和处理电路。处理电路用于通过输入电路接收信号,并通过输出电路发射信号,使得处理器执行上述第一方面中任一种可能实现方式中的方法。在具体实现过程中,上述处理器可以为芯片,输入电路可以为输入管脚,输出电路可以为输出管脚,处理电路可以为晶体管、门电路、触发器和各种逻辑电路等。输入电路所接收的输入的信号可以是由例如但不限于接收器接收并输入的,输出电路所输出的信号可以是例如但不限于输出给发射器并由发射器发射的,且输入电路和输出电路可以是同一电路,该电路在不同的时刻分别用作输入电路和输出电路。本申请实施例对处理器及各种电路的具体实现方式不做限定。第五方面,提供了一种处理装置,包括处理器和存储器。该处理器用于读取存储器中存储的指令,并可通过接收器接收信号,通过发射器发射信号,以执行上述第一方面中任一种可能实现方式中的方法。可选地,处理器为一个或多个,存储器为一个或多个。可选地,存储器可以与处理器集成在一起,或者存储器与处理器分离设置。在具体实现过程中,存储器可以为非瞬时性(non-transitory)存储器,例如只读存储器(readonlymemory,ROM),其可以与处理器集成在同一块芯片上,也可以分别设置在不同的芯片上,本申请实施例对存储器的类型以及存储器与处理器的设置方式不做限定。应理解,相关的数据交互过程例如发送指示信息可以为从处理器输出指示信息的过程,接收能力信息可以为处理器接收输入能力信息的过程。具体地,处理输出的数据可以输出给发射器,处理器接收的输入数据可以来自接收器。其中,发射器和接收器可以统称为收发器。上述第五方面中的处理装置可以是一个芯片,该处理器可以通过硬件来实现也可以通过软件来实现,当通过硬件实现时,该处理器可以是逻辑电路、集成电路等;当通过软件来实现时,该处理器可以是一个通用处理器,通过读取存储器中存储的软件代码来实现,该存储器可以集成在处理器中,可以位于该处理器之外,独立存在。第六方面,提供了一种计算机程序产品,计算机程序产品包括:计算机程序(也可以称为代码,或指令),当计算机程序被运行时,使得计算机执行上述第一方面中任一种可能实现方式中的方法。第七方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序(也可以称为代码,或指令)当其在计算机上运行本文档来自技高网...
【技术保护点】
1.一种识别地址的方法,其特征在于,包括:/n将待识别地址信息输入至分类模型,获取第一数值,所述第一数值用于表示所述待识别地址信息为恶意地址的概率,所述分类模型包括位置嵌入层、分段嵌入层和词嵌入层,所述位置嵌入层用于表示所述待识别地址信息中词语的位置关系,所述分段嵌入层用于区分所述待识别地址信息中不同的语句,所述词嵌入层用于将所述待识别地址信息向量化;/n若所述第一数值小于或等于第一置信阈值,且所述第一数值大于或等于第二置信阈值,将所述待识别地址信息输入至分词模型,得到结构化地址信息,所述分词模型用于将所述待识别地址信息进行结构化划分,并对划分后的所述待识别地址信息进行标注;/n基于所述结构化地址信息,对所述待识别地址信息进行识别。/n
【技术特征摘要】
1.一种识别地址的方法,其特征在于,包括:
将待识别地址信息输入至分类模型,获取第一数值,所述第一数值用于表示所述待识别地址信息为恶意地址的概率,所述分类模型包括位置嵌入层、分段嵌入层和词嵌入层,所述位置嵌入层用于表示所述待识别地址信息中词语的位置关系,所述分段嵌入层用于区分所述待识别地址信息中不同的语句,所述词嵌入层用于将所述待识别地址信息向量化;
若所述第一数值小于或等于第一置信阈值,且所述第一数值大于或等于第二置信阈值,将所述待识别地址信息输入至分词模型,得到结构化地址信息,所述分词模型用于将所述待识别地址信息进行结构化划分,并对划分后的所述待识别地址信息进行标注;
基于所述结构化地址信息,对所述待识别地址信息进行识别。
2.根据权利要求1所述的方法,其特征在于,所述基于所述结构化地址信息,对所述待识别地址信息进行识别,包括:
基于所述结构化地址信息,确定第一地址信息;
将所述第一地址信息与地址库中的地址信息进行匹配,以对所述待识别地址信息进行识别。
3.根据权利要求2所述的方法,其特征在于,所述地址库包括第一地址库,所述将所述第一地址信息与地址库中的地址信息进行匹配,以对所述待识别地址信息进行识别,包括:
若所述第一地址信息与所述第一地址库中的地址信息匹配成功,确定所述待识别地址信息为正常地址。
4.根据权利要求3所述的方法,其特征在于,所述地址库还包括第二地址库,所述将所述第一地址信息与地址库中的地址信息进行匹配,以对所述待识别地址信息进行识别,包括:
若所述第一地址信息与所述第一地址库中的地址信息匹配失败,获取所述第一地址信息中的多个关键词;
将所述多个关键词与所述第二地址库中的地址信息进行匹配,得到第二数值;
基于所述第二数值,对所述待识别地址信息进行识别。
5.根据权利要求4所述的方法,其特征在于,所述基于所述第二数值,对所述待识别地址信息进行识别,包括:
若所述第二数值大于或等于第...
【专利技术属性】
技术研发人员:周雪,张少华,李娜,赵锡成,孟琳琳,
申请(专利权)人:中国联合网络通信集团有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。