一种搜索信息的方法及系统技术方案

技术编号:2832539 阅读:451 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种通信领域中搜索信息的方法及系统,用以解决现有技术中存在搜索的信息偏离主题较远,且搜索引擎负担过重,速度较慢的问题。本发明专利技术对用户输入的关键词与主题关键词库中的词语进行匹配,确定主题关键词,根据主题关键词搜索出与用户意图较接近的相关信息,并将所述信息排序,使用户清楚看到最接近其意图的信息。同时定期或不定期的更新主题关键词库。搜索系统包括用户浏览器、搜索装置、主题关键词库、信息索引库以及信息投放装置;其中搜索装置包括通信接口、分词模块、过滤模块和搜索引擎。

【技术实现步骤摘要】

本专利技术涉及计算机及通信领域,特别是一种搜索信息的方法及系统。技术背景随着互联网的发展,网络已成为人们获取信息的主要来源之一。用户大都 使用搜索引擎来获得想要查找的相关信息。目前现有技术是,请参阅图1,用户在浏览器上输入欲获取信息的关键词,例如输入我送什么生日礼物给好朋友,发送到搜索引擎;搜索引擎对用户输入的关键词进行分词,将上例分成我/送/什么/生日/ 礼物/给/好/朋友;然后剔除少量的常见过滤词,如我、好等,将剩下 的词进行搜索,上例中剩下的词有生日、礼物和朋友;将剩下的词进行或运算关系处理,可能出现的结果包括生日/礼物、 生日/朋友或生日/礼物/朋友,根据运算结果到信息索引库中进行搜索, 显然根据生日/礼物搜索到的结果较贴近主题,根据生曰/朋友得到的 结果距离主题较远。运营商通过信息乾故装置来进行信息的拔故,并且为了可以有较多的用户 搜索到此信息,需要列举大量的可能性关键词发送到信息索引库,其中大量关 键词与此信息主题无关。可见,采用上述方案会搜索到大量偏离主题的信息,并且这些信息可能被 排在信息序列的前面,而用户最关心的信息被排在后面,给用户带来很大不便; 同时搜索这些信息给搜索引擎带来较大的负担,并且影响搜索速度,占用大量 网络资源。由于目前技术会将搜索到的结果直接以网页的形式展现给用户,如 果是偏离主题的信息会给用户带来很大困扰。运营商需要列举大量用户可能输 入的与信息主题无关的词语,每个词都需要繳纳一笔费用,增加了运营商的运营成本。
技术实现思路
本专利技术提供一种搜索方法及系统,用以解决现有技术中存在搜索的大量信 息偏离主题,以及搜索引擎负担过重,速度较慢的问题。本专利技术提供以下技术方案 一种搜索信息的方法,包括步骤 根据词性对用户输入的信息进行分词;将分词后得到的各词语与主题关键词库中预定义的主题关键词进行匹配, 并将所述分词后得到的词语中匹配成功的词语确定为主题关键词; 根据所述主题关键词搜索信息,并输出搜索结果。在进行匹配前,根据词语的词性从分词后得到的词语中过滤掉与主题无关 的词语,再将保留的各词语与所述主题关键词库中的词语进行匹配。进一步将部分或全部未能与所述主题关键词库中预定义的主题关键词匹 配成功的词语补充到该主题关键词库中。在匹配成功后,进一步确定主题关键词的同义词,并将该同义词加入到主 题关键词中。在搜索信息时,对各主题关键词按或,,运算关系进行处理。搜索信息时,将主题关键词与信息库中的关键词匹配,获取所有匹配成功 的关键词所对应的信息。在搜索到信息后,根据主题相关性对所述搜索到的各信息排序,将包含全 部所述主题关键词的信息排在信息序列的前面。一种用于搜索信息的装置,包括分词4莫块,用于才艮据词性对用户输入的信息进行分词;过滤模块,用于将所述分词模块分词后得到的各词语与主题关键词库中预 定义的主题关键词进行匹配,并将所述分词后得到的词语中匹配成功的词语确 定为主题关键词; 搜索引擎,用于根据所述过滤模块确定的主题关键词搜索信息,并输出搜 索结果。所述过滤模块根据词语的词性从分词后得到的词语中过滤掉与主题无关配。所述过滤模块进一步确定所述主题关键词的同义词,将同义词加入到主题 关键词中。所述搜索引擎在搜索信息时,对各主题关键词按或,,运算关系进行处理。一种用于搜索信息的系统,其特征在于,包括 主题关键词库,用于存储主题关键词;浏览器,用于为用户提供搜索界面和信息展示,将用户输入的信息发送到 搜索装置和从搜索装置获取搜索结果;搜索装置,用于对接收到的信息分词,将分词后的各词语与所述主题关键 词库中预定义的主题关键词进行匹配,并将所述分词后得到的词语中匹配成功 的词语确定为主题关键词,根据所述主题关键词搜索信息。该系统还包括信息投放装置,用于控j文信息内容和对应的关键词; 信息库,用于存储所述信息内容和对应的关键词,并将关键词传送给所述 主题关键词库,以及为所述搜索装置提供信息资源和搜索接口 。 所述搜索装置包括分词模块,用于根据词性对用户输入的信息进行分词;过滤模块,用于将分词后得到的各词语与主题关键词库中预定义的主题关 键词进行匹配,并将所述分词后得到的词语中匹配成功的词语确定为主题关键 词;搜索引擎,用于根据所述过滤模块确定的主题关键词搜索信息,并输出搜 索结果。本专利技术有益效果如下本专利技术利用主题关键词库对用户输入的关键词进行预处理,筛选出主题关 键词,搜索出与用户期望主题接近的相关信息,避免搜索出较多偏离主题的信 息,减少了对用户的干扰,同时也减少了搜索引擎的负担,进而提高了搜索速 度。本专利技术进一步将搜索出的信息根据主题相关性进行排序,使用户清楚看到 最贴近主题的信息,用户体验较好。相应的,运营商不再需要列举大量主题无 关词来吸引用户搜索,从而降低了其运营成本,同时也为信息索引库节省大量 空间。本专利技术定期更新主题关键词库,使用户能够更方便的搜索到其关注的相 关信息。附图说明图1为现有技术中搜索系统结构图;图2A为本专利技术实施例中搜索系统结构图;图2B为本专利技术实施例中搜索方法的基本流程图;图3为本专利技术实施例中搜索装置的结构示意图;图4为本专利技术实施例中搜索方法的具体流程图;图5为本专利技术实施例中更新主题关键词库的方法流程图。具体实施方式本专利技术通过对用户输入的关键词进行分词,过滤掉与主题无关的词,再将 剩下的关键词与主题关键词库中的词语匹配,4艮据筛选出主题关键词搜索信 息,使搜索时的关键词更加贴近主题,减少无关信息。参见图2A,本实施例中用于搜索信息的系统结构包括用户浏览器21、搜 索装置22、主题关键词库23、信息索引库24和信息投放装置25。主题关键词库23存储主题关键词,并保持定期更新。用户浏览器21为用 户提供搜索界面和信息展示,将用户输入的关键词发送到搜索装置22。搜索装 置22对接收到的关键词分词,将分解后的关键词与主题关键词库23中的主题关键词进行匹配,并将匹配后的主题关键词进行或,,运算关系处理,根据处理结果到信息索引库24中搜索信息,以及定期或不定期将匹配失败的词补充 到主题关键词库23中作为主题关键词。信息索引库24为搜索装置22提供资 源和搜索接口,以及接收信息投放装置25发送的信息内容和对应的信息关键 词;信息索引库24将所述信息关键词与主题关键词库23中的主题关键词进行 匹酉己,保留匹配成功的信息关键词,每个匹配后的信息关键词与信息建立链接; 同时信息索引库24还会对信息投放装置25发送的信息关键词进行分词提取, 确定新的主题关键词并将其定期和不定期的补充到主题关键词库23。信息投放 装置25为运营商提供信息投放的平台,并向信息索引库24发送运营商招〕故的 信息内容,以及为信息内容设定的信息关键词。参见图2B,本实施例中搜索信息的基本流程如下步骤210:根据词性,将用户输入的关键词进行分词。步骤220:从分得的词中过滤掉明显与搜索信息主题无关的词。步骤230:将剩余的保留词与主题关键词库23中的词进行匹配,确定匹配 成功的词为主题关键词。步骤240:在主题关键词库23中查询主题关键词的同义词,并将同义词加 入到主题关键词中。步骤250:根据确定的所有主题关键词在信息索引库24中搜索信息,并将 搜索结果输出到用户浏览器21。参见图3,本实施例本文档来自技高网...

【技术保护点】
一种搜索信息的方法,其特征在于,包括以下步骤:根据词性对用户输入的信息进行分词;将分词后得到的各词语与主题关键词库中预定义的主题关键词进行匹配,并将所述分词后得到的词语中匹配成功的词语确定为主题关键词;根据所述主题关键词搜索信息,并输出搜索结果。

【技术特征摘要】
1、 一种搜索信息的方法,其特征在于,包括以下步骤 根据词性对用户输入的信息进行分词;将分词后得到的各词语与主题关键词库中预定义的主题关键词进行匹配,并将所述分词后得到的词语中匹配成功的词语确定为主题关键词; 根据所述主题关键词搜索信息,并输出搜索结果。2、 如权利要求1所述的搜索信息的方法,其特征在于,在进行匹配前, 根据词语的词性从分词后得到的词语中过滤掉与主题无关的词语,再将保留的 各词语与所述主题关键词库中的词语进行匹配。3、 如权利要求2所述的搜索信息的方法,其特征在于,进一步将部分或 全部未能与所述主题关键词库中预定义的主题关键词匹配成功的词语补充到 该主题关键词库中。4、 如权利要求1所述的搜索信息的方法,其特征在于,在匹配成功后, 进一步确定主题关键词的同义词,并将该同义词加入到主题关键词中。5、 如权利要求1至4任一项所述的搜索信息的方法,其特征在于,在搜 索信息时,对各主题关键词按或运算关系进行处理。6、 如权利要求5所述的搜索信息的方法,其特征在于,搜索信息时,将主题关键词与信息库中的关键词匹配,获取所有匹配成功的关键词所对应的信 自7、 如权利要求6所述的搜索信息的方法,其特征在于,在搜索到信息后, 根据主题相关性对所述搜索到的各信息排序,将包含全部所述主题关键词的信 息排在信息序列的前面。8、 一种用于搜索信息的装置,其特征在于,包括 分词模块,用于根据词性对用户输入的信息进行分词;过滤模块,用于将所述分词模块分词后得到的各词语与主题关键词库中预 定义的主题关键词进行匹配,并将所述分词后得到的词语中匹配成功的词语确定为主题关键词;搜索引擎,用于根据所述过滤模块确...

【专利技术属性】
技术研发人员:余斯恒孔维青张立中王磊
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:KY[开曼群岛]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1