一种同义词的挖掘方法和装置制造方法及图纸

技术编号：7935442 阅读：374 留言：0更新日期：2012-11-01 05:13

本发明专利技术提供了一种同义词的挖掘方法和装置，其中方法包括：从搜索日志中，搜索请求(query)及其对应的搜索结果中被点击或浏览的网页标题，或者，被点击或浏览的网页标题对应的不同query，获取由短语对构成的同义词的候选资源；从候选资源的各短语对中抽取同义词对，其中抽取的同义词对在所属的短语对中具有相同的上下文。通过本发明专利技术能够提高同义词挖掘的效率和准确性，也使挖掘出的同义词更符合搜索引擎的语言特点。

全部详细技术资料下载

【技术实现步骤摘要】
一种同义词的挖掘方法和装置
本专利技术涉及计算机
，特别涉及一种同义词的挖掘方法和装置。背景技木当用户在使用搜索引擎进行搜索时，为了能够将与用户所输入query的同义词相匹配的网页也包含在捜索结果中召回，会用到基于同义词的搜索请求(query)扩展，即在利用query进行搜索的同时也利用query的同义词进行捜索。为了在搜索引擎中应用该技木，同义词的挖掘是非常重要的基础工作。现有的同义词挖掘方式通过计算语料库中各词语之间的相关概率来进行同义词挖掘，但这种方式需要对语料库中的词语两两进行计算，效率很低。
技术实现思路
有鉴于此，本专利技术提供了一种同义词的挖掘方法和装置，以便于提高同义词挖掘的效率。具体技术方案如下一种同义词的挖掘方法，该方法包括A、从搜索日志中，搜索请求query及其对应的搜索结果中被点击或浏览的网页标题，或者，被点击或浏览的网页标题对应的不同query，获取由短语对构成的同义词的候选资源；B、从候选资源的各短语对中抽取同义词对，其中抽取的同义词对在所属的短语对中具有相同的上下文。步骤A中所述候选资源的获取具体包括以下所列任一方式或任意方式的组合从搜索日志中获取query对应的搜索结果中被点击或浏览的网页标题，得到query与标题构成的短语对；从搜索日志中获取相同query对应的搜索结果中被点击或浏览的网页标题，得到标题与标题构成的短语对；以及，从搜索日志中获取被点击或浏览的相同网页标题对应的不同query，得到query与query构成的短语对。所述步骤B具体包括BI、对同义词的候选资源的各短语对进行相似性过滤，得到候选同义短语对...

【技术保护点】
一种同义词的挖掘方法，其特征在于，该方法包括：A、从搜索日志中，搜索请求query及其对应的搜索结果中被点击或浏览的网页标题，或者，被点击或浏览的网页标题对应的不同query，获取由短语对构成的同义词的候选资源；B、从候选资源的各短语对中抽取同义词对，其中抽取的同义词对在所属的短语对中具有相同的上下文。

【技术特征摘要】

【专利技术属性】
技术研发人员：徐文智，赵世奇，呼大为，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人