【技术实现步骤摘要】
基于人工智能的地域性信息确定方法和装置
本申请涉及计算机
,具体涉及互联网
,尤其涉及基于人工智能的地域性信息确定方法和装置。
技术介绍
人工智能(ArtificialIntelligence,简称AI)技术的快速发展为人们的日常工作和生活提供了便利。人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能越来越多地融入到应用中,结合人工智能的应用可以准确地确定出信息的种类,并按照不同用户的需求将不同种类的信息推送给相应的用户。新闻一般是指通过报纸、电台、广播、电视台、互联网等媒体途径传播信息的一种称谓,是记录社会、传播信息、反映时代的一种文体。根据不同的分类方式,新闻可以被划分为不同的种类,例如,新闻可以被划分为地域性新闻和非地域性新闻。对于地域性新闻来说,因其具有较强的地域性特征,通常只适合推送给特定地区的用户。对于非地域性新闻来说,因对其感兴趣的用户并不局限于是某些特定地区的用户,通常适合推送给所有的用户。现有的地域性新闻确定方式仅仅是通过确定新闻中是否存在地名词汇来确定的。如果存在,则确定是地域性新闻;如果不存在,则确定是非地域性新闻。现有的地域性新闻确定方式较粗糙,其准确率较低。
技术实现思路
本申请实施例的目的在于提出一种改进的基于人工智能的地域性信息确定方法和装置,来解决以上
技术介绍
部分提到的技术问题。第一方 ...
【技术保护点】
一种基于人工智能的地域性信息确定方法,其特征在于,所述方法包括:获取待确定信息,并提取所述待确定信息的关键词集合;将所述待确定信息的关键词集合输入至预先训练的主题分类模型进行分类,得到所述待确定信息的主题类别,其中,所述主题分类模型用于表征信息的关键词集合和信息的主题类别的对应关系;从预先存储的地名词汇集合中选取出与所述待确定信息的主题类别相对应的地名词汇作为目标地名词汇集合;将所述目标地名词汇集合在所述待确定信息中进行匹配;根据匹配结果,确定所述待确定信息是否属于地域性信息。
【技术特征摘要】
1.一种基于人工智能的地域性信息确定方法,其特征在于,所述方法包括:获取待确定信息,并提取所述待确定信息的关键词集合;将所述待确定信息的关键词集合输入至预先训练的主题分类模型进行分类,得到所述待确定信息的主题类别,其中,所述主题分类模型用于表征信息的关键词集合和信息的主题类别的对应关系;从预先存储的地名词汇集合中选取出与所述待确定信息的主题类别相对应的地名词汇作为目标地名词汇集合;将所述目标地名词汇集合在所述待确定信息中进行匹配;根据匹配结果,确定所述待确定信息是否属于地域性信息。2.根据权利要求1所述的方法,其特征在于,所述地名词汇集合存储在地名数据表中,且所述地名数据表中的各行或各列分别用于存储归属于各行政等级的地名词汇;以及所述从预先存储的地名词汇集合中选取出与所述待确定信息的主题类别相对应的地名词汇作为目标地名词汇集合,包括:基于预设的主题类别与行政等级的对应关系,获取与所述待确定信息的主题类别相对应的行政等级;从所述地名数据表中选取出归属于与所述待确定信息的主题类别相对应的行政等级的地名词汇作为目标地名词汇集合。3.根据权利要求1所述的方法,其特征在于,所述将所述目标地名词汇集合在所述待确定信息中进行匹配,包括:在所述待确定信息的预设位置截取信息片段;对所述信息片段进行分词,获取所述信息片段的关键词集合;将所述目标地名词汇集合与所述信息片段的关键词集合进行匹配,获取匹配成功的关键词的数量。4.根据权利要求3所述的方法,其特征在于,所述根据匹配结果,确定所述待确定信息是否属于地域性信息,包括:若匹配成功的关键词的数量大于第一预设阈值,则确定所述待确定信息属于地域性信息;若匹配成功的关键词的数量不大于所述第一预设阈值,则确定所述待确定信息不属于地域性信息。5.根据权利要求3所述的方法,其特征在于,所述方法还包括:响应于匹配成功的关键词的数量大于第一预设阈值,则进一步将预设的热点词汇集合在所述待确定信息中进行匹配。6.根据权利要求5所述的方法,其特征在于,所述根据匹配结果,确定所述待确定信息是否属于地域性信息,包括:若所述待确定信息中不存在所述热点词汇集合中的热点词汇,则确定所述待确定信息属于地域性信息;若所述待确定信息中存在所述热点词汇集合中的热点词汇,则确定所述待确定信息不属于地域性信息。7.根据权利要求5所述的方法,其特征在于,所述方法还包括:响应于确定所述待确定信息中不存在所述热点词汇集合中的热点词汇,则进一步将所述待确定信息的关键词集合输入至预先训练的信息分类模型进行分类,得到所述待确定信息的类别,其中,所述信息分类模型用于表征信息的关键词集合和信息的类别的对应关系,信息的类别包括热点信息类别和非热点信息类别。8.根据权利要求7所述的方法,其特征在于,所述根据匹配结果,确定所述待确定信息是否属于地域性信息,包括:若所述待确定信息的类别是非热点信息类别,则确定所述待确定信息属于地域性信息;若所述待确定信息的类别是热点信息类别,则确定所述待确定信息不属于地域性信息。9.根据权利要求7所述的方法,其特征在于,所述方法还包括建立信息分类模型的步骤,所述建立信息分类模型的步骤包括:获取样本信息,并提取所述样本信息的关键词集合;统计所述样本信息在预设时间段内的历史点击次数;将历史点击次数大于第二预设阈值的样本信息作为正样本信息,并将历史点击次数不大于第二预设阈值的样本信息作为负样本信息,其中,所述正样本信息的类别是热点信息类别,所述负样本信息的类别是非热点信息类别;利用机器学习方法,将所述正样本信息的关键词集合和所述负样本信息的关键词集合分别作为输入,将所述热点信息类别和所述非热点信息类别分别作为输出,训练得到信息分类模型。10.根据权利要求1-9之一所述的方法,其特征在于,所述方法还包括:响应于确定所述待确定信息属于地域性信息,获取目标用户所在的地理位置信息,确定所述地理位置信息与所述待确定信息对应的地域信息是否匹配,若是,则将所述待确定信息推送给所述目标用户;响应于确定所述待确定信息不属于地域性信息,将所述待确定信息推送给所述目标用户。11.一种基于人工智能的地域性信息确定装置,其特征在于,所述装置包括:提取单元,配置用于获取待确定信息,并提取所述待确定信息的关键词集合;第一分类单元,配置用于将所述待确定信息的关键词集合输入至预先训练的主题分类模型进行分类,得到所述待确定信息的主题类别,...
【专利技术属性】
技术研发人员:陈亮宇,肖欣延,吕雅娟,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。