一种基于搜索引擎获取IP地址归属地的方法和装置制造方法及图纸

技术编号:8934528 阅读:156 留言:0更新日期:2013-07-18 03:06
本发明专利技术提供了一种基于搜索引擎获取IP地址归属地的方法和装置,其中方法包括:S1.获取一段时间内的用户搜索记录,所述用户搜索记录包括用户ID、查询词和用户IP地址,并识别所述用户搜索记录的查询词中的地名词以及带有地域属性的词;S2.利用预先标注IP地址归属地的用户搜索记录作为样本训练得到所述带有地域属性的词的置信度;S3.根据所述用户搜索记录中的用户ID、所识别出的查询词中的地名词以及带有地域属性的词和所述带有地域属性的词的置信度,确定该IP地址的归属地。本发明专利技术能够基于搜索引擎准确获取用户IP地址的归属地。

【技术实现步骤摘要】
一种基于搜索引擎获取IP地址归属地的方法和装置
本专利技术涉及互联网协议(IP)地址定位技术,尤其涉及一种基于搜索引擎获取IP地址归属地的方法和装置。
技术介绍
随着搜索引擎技术的不断发展,搜索引擎的地域扩展功能也越来越受到人们的重视。“地域扩展功能”即搜索引擎指根据用户所在的地理位置向用户返回具有地域特性的搜索结果,例如,位于北京的用户搜索查询词为“天气”,则搜索引擎会向其返回北京的天气预报信息,与此类似的“地域扩展功能”能够智能地更加准确地满足用户需求。而实现“地域扩展功能”的关键点之一就是确定用户IP地址的归属地。现有的方法中,通常只有网络运营商能够掌握其所辖IP地址的归属地,即需要IP地址归属地信息的公司只能通过商业合作向网络运营商等第三方来获取,增加了一定的成本。
技术实现思路
有鉴于此,本专利技术提供了一种基于搜索引擎获取IP地址归属地的方法和装置,能够准确获得IP地址所在的地理位置信息。具体技术方案如下:一种基于搜索引擎获取IP地址归属地的方法,该方法包括:S1、获取一段时间内的用户搜索记录,所述用户搜索记录包括用户标识(ID)、查询词和用户IP地址,并识别所述用户搜索记录的查询词中的地名词以及带有地域属性的词;S2、利用预先标注IP地址归属地的用户搜索记录作为样本训练得到所述带有地域属性的词的置信度;S3、根据所述用户搜索记录中的用户ID、所识别出的查询词中的地名词以及带有地域属性的词和所述带有地域属性的词的置信度,确定该IP地址的归属地。根据本专利技术一优选实施示例,步骤SI中识别所述用户搜索记录的查询词中的地名词以及带有地域属性的词具体包括:S11、对所述用户搜索记录中的查询词进行分词,识别其中的地名词;S12、提取查询词中的非地名分词,将与地名词在查询词中的共现率高于预设阈值的非地名分词作为带有地域属性的词。根据本专利技术一优选实施例,所述步骤S12后还包括:S13、对所述带有地域属性的词进行词义分析,提取词义权重值高于预设阈值的带有地域属性的词。根据本专利技术一优选实施例,所述步骤S13后还包括:S14、根据带有地域属性的词的所属类别,对所述步骤S13提取出的带有地域属性的词进行归一化处理。根据本专利技术一优选实施例,所述步骤S2具体包括:根据公式权利要求1.一种基于搜索引擎获取互联网协议IP地址归属地的方法,其特征在于,该方法包括: 51、获取一段时间内的用户搜索记录,所述用户搜索记录包括用户标识ID、查询词和用户IP地址,并识别所述用户搜索记录的查询词中的地名词以及带有地域属性的词; 52、利用预先标注IP地址归属地的用户搜索记录作为样本训练得到所述带有地域属性的词的置信度; 53、根据所述用户搜索记录中的用户ID、所识别出的查询词中的地名词以及带有地域属性的词和所述带有地域属性的词的置信度,确定该IP地址的归属地。2.根据权利要求1所述的方法,其特征在于,步骤SI中识别所述用户搜索记录的查询词中的地名词以及带有地域属性的词具体包括: 511、对所述用户搜索记录中的查询词进行分词,识别其中的地名词; 512、提取查询词中的非地名分词,将与地名词在查询词中的共现率高于预设阈值的非地名分词作为带有地域属性的词。3.根据权利要求2所述的方法,其特征在于,所述步骤S12后还包括: 513、对所述带有地域属性的词进行词义分析,提取词义权重值高于预设阈值的带有地域属性的词。4.根据权利要求3所述的方法,其特征在于,所述步骤S13后还包括: 514、根据带有地域属性的词的所属类别,对所述步骤S13提取出的带有地域属性的词进行归一化处理。5.根据权利要求1所述的方法,其特征在于,所述步骤S2具体包括: 根据公式6.根据权利要求1至5任一权项所述的方法,其特征在于,步骤S3中所述确定该IP地址的归属地为: 按照预先设定的规则计算用户IP地址归属于所述地名词对应的各地域的第一权重值,根据该第一权重值确定该IP地址的归属地。7.根据权利要求6所述的方法,其特征在于,在所述按照预先设定的规则计算用户IP地址归属于所述地名词对应的各地域的第一权重值时,具体包括: 根据公式8.根据权利要求6所述的方法,其特征在于,所述根据该第一权重值确定该IP地址的归属地为: 将用户IP地址归属于所述地名词对应的各地域的第一权重值中,第一权重值最高的地域作为该IP地址的归属地。9.根据权利要求6所述的方法,其特征在于,该方法还包括: S4、根据预先获取的一段时间内的用户在地图搜索引擎中设置的默认城市信息以及用户ID,按照预先设定的规则计算IP地址归属于各个地域的第二权重值; 所述根据该第一权重值确定该IP地址的归属地具体为: 整合IP地址归属于各个地域的第一权重值和第二权重值,得到IP地址的最终归属地。10.根据权利要求9所述的方法,其特征在于,所述计算IP地址归属于各个地域的第二权重值,具体包括: 将所述预先获取的用户在地图搜索引擎中设置的默认城市属于某一地域的用户ID数与总的用户ID数的比例作为IP地址归属于所述某一地域的第二权重值。11.根据权利要求9所述的方法,其特征在于,所述整合IP地址归属于各个地域的第一权重值和第二权重值,得到IP地址的最终归属地具体包括: 将IP地址归属于各个地域的第一权重值和第二权重值相乘,得到IP地址归属于各个地域的综合权重值,并将综合权重值最高的地域作为IP地址的归属地。12.一种基于搜索 引擎获取IP地址归属地的装置,其特征在于,该装置包括: 预处理单元,用于获取一段时间内的用户搜索记录,所述用户搜索记录包括用户ID、查询词和用户IP地址,并识别所述用户搜索记录的查询词中的地名词以及带有地域属性的词; 训练单元,用于利用预先标注IP地址归属地的用户搜索记录作为样本训练得到所述带有地域属性的词的置信度; 判别单元,用于根据所述用户搜索记录中的用户ID、所识别出的查询词中的地名词以及带有地域属性的词和所述带有地域属性的词的置信度,确定该IP地址的归属地。13.根据权利要求12所述的装置,其特征在于,所述预处理单元在识别所述用户搜索记录的查询词中的地名词以及带有地域属性的词时,具体执行: 521、对所述用户搜索记录中的查询词进行分词,识别其中的地名词; 522、提取查询词中的非地名分词,将与地名词在查询词中的共现率高于预设阈值的非地名分词作为带有地域属性的词。14.根据权利要求13所述的装置,其特征在于,所述预处理单元在执行S22后,还执行: 523、对所述带有地域属性的词进行词义分析,提取词义权重值高于预设阈值的带有地域属性的词。15.根据权利要求14所述的装置,其特征在于,所述预处理单元在执行S23后,还执行: 524、根据带有地域属性的词的所属类别,对所述步骤S23提取出的带有地域属性的词进行归一化处理。16.根据权利要求12所述的装置,其特征在于,所述训练单元具体执行:根据公式17.根据权利要求12至16任一权项所述的装置,其特征在于,所述判别单元在确定该IP地址的归属地时,具体执行: 按照预先设定的规则计算用户IP地址归属于所述地名词对应的各地域的第一权重值,根据该第一权重值确定该IP地址的归属地。18.根据权利要求17所述的装置,其特征在本文档来自技高网...

【技术保护点】
一种基于搜索引擎获取互联网协议IP地址归属地的方法,其特征在于,该方法包括:S1、获取一段时间内的用户搜索记录,所述用户搜索记录包括用户标识ID、查询词和用户IP地址,并识别所述用户搜索记录的查询词中的地名词以及带有地域属性的词;S2、利用预先标注IP地址归属地的用户搜索记录作为样本训练得到所述带有地域属性的词的置信度;S3、根据所述用户搜索记录中的用户ID、所识别出的查询词中的地名词以及带有地域属性的词和所述带有地域属性的词的置信度,确定该IP地址的归属地。

【技术特征摘要】

【专利技术属性】
技术研发人员:阮星华才鑫
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1