本发明专利技术提供了一种同义词的挖掘方法和装置,其中方法包括:从搜索日志中,搜索请求(query)及其对应的搜索结果中被点击或浏览的网页标题,或者,被点击或浏览的网页标题对应的不同query,获取由短语对构成的同义词的候选资源;从候选资源的各短语对中抽取同义词对,其中抽取的同义词对在所属的短语对中具有相同的上下文。通过本发明专利技术能够提高同义词挖掘的效率和准确性,也使挖掘出的同义词更符合搜索引擎的语言特点。
【技术实现步骤摘要】
一种同义词的挖掘方法和装置
本专利技术涉及计算机
,特别涉及一种同义词的挖掘方法和装置。背景技木当用户在使用搜索引擎进行搜索时,为了能够将与用户所输入query的同义词相匹配的网页也包含在捜索结果中召回,会用到基于同义词的搜索请求(query)扩展,即在利用query进行搜索的同时也利用query的同义词进行捜索。为了在搜索引擎中应用该技木,同义词的挖掘是非常重要的基础工作。现有的同义词挖掘方式通过计算语料库中各词语之间的相关概率来进行同义词 挖掘,但这种方式需要对语料库中的词语两两进行计算,效率很低。
技术实现思路
有鉴于此,本专利技术提供了一种同义词的挖掘方法和装置,以便于提高同义词挖掘的效率。具体技术方案如下一种同义词的挖掘方法,该方法包括A、从搜索日志中,搜索请求query及其对应的搜索结果中被点击或浏览的网页标题,或者,被点击或浏览的网页标题对应的不同query,获取由短语对构成的同义词的候选资源;B、从候选资源的各短语对中抽取同义词对,其中抽取的同义词对在所属的短语对中具有相同的上下文。步骤A中所述候选资源的获取具体包括以下所列任一方式或任意方式的组合从搜索日志中获取query对应的搜索结果中被点击或浏览的网页标题,得到query与标题构成的短语对;从搜索日志中获取相同query对应的搜索结果中被点击或浏览的网页标题,得到标题与标题构成的短语对;以及,从搜索日志中获取被点击或浏览的相同网页标题对应的不同query,得到query与query构成的短语对。所述步骤B具体包括BI、对同义词的候选资源的各短语对进行相似性过滤,得到候选同义短语对;B2、从候选同义短语对中抽取同义词对,其中抽取的同义词对在所属的候选同义短语对中具有相同的上下文。具体地,所述步骤BI中将满足以下所列相似性过滤条件中的任一或任意组合的短语对过滤掉,得到候选同义短语对短语对在候选资源中出现的次数在设定次数阈值NI以下;短语对中短语之间的编辑距离在设定距离阈值L以下;短语对中短语之间的字重合度小于预设的字重合度阈值;短语对中短语之间的词重合度小于预设的词重合度阈值;以及,短语对中短语之间的TF-IDF相似度小于预设的相似度阈值。短语对中短语之间的字重合度采用 公式C1(P1,P2) = C(°i(p(^ L1(丨2))计算,其中,Cl (P1,P2)为短语对中短语Pl和短语P2之间的字重合度,Coml (Pl,P2)为Pl和P2间相同的字数目,LUX)为短语X包含的字数目;短语对中短语之间的词重合度采用公式C2(P1,P2) = ~ゴL20^P: L2(p2))'计算,其中,C2 (PI, P2)为短语对中短语Pl和短语P2之间的词重合度,Com2 (PI, P2)为Pl和P2间相同的词数目,LUX)为短语X包含的词数目。具体地,短语对中短语之间的TF-IDF相似度的计算方法为对由短语Pl和短语P2构成的短语对,分别计算Pl中各词语的TF-IDF值构成Pl的特征向量以及P2中各词语的TF-IDF值构成P2的特征向量;计算Pl的特征向量和P2的特征向量的余弦距离作为Pl和P2的TF-IDF相似度。较优地,在所述步骤A和步骤B之间进一歩包括E、对候选资源的各短语对中来源于标题的短语进行预处理,以删除所述来源于标题的短语中的噪声数据;其中,所述预处理包括E1、基于预设的符号对所述来源于标题的短语进行分割;E2、将分割后得到的各部分中满足预设删除位置要求的部分删除;或者,如果所述短语对中的另ー个短语来源于query,则将步骤El分割后得到的各部分中,与所述来源于query的短语之间字重合度不满足预设字重合度要求的部分删除。更优地,在所述步骤BI和B2之间还包括将其中一个短语包含另ー个短语的全部内容的候选短语对删除。更进一歩地,在所述步骤B之后还包括C、将抽取出的同义词对进行整合,将同一个词语对应的所有同义词构成该词语对应的同义词集合。更进一歩地,在所述步骤C之后还包括D、对同义词集合进行噪声过滤,具体为将词语Wl对应的同义词集合中满足以下所列过滤条件中的任一或任意组合的词语w2从词语Wl对应的同义词集合中过滤掉词语《2与词语wl构成的同义词对在候选资源中出现的次数在预设的次数阈值N2以下;词语w2与词语wl构成的同义词对在所述词语wl对应的同义词集合中的相对词频在预设的相对词频阈值N3以下,其中,词语《2与词语wl构成的同义词对在所述词语wl对应的同义词集合中的相对词频的计算方式为词语《2与词语wl构成的同义词对在候选资源中出现的次数除以词语对应的同义词集合中各词语与词语分别构成的同义词对在候选资源中出现次数的最大值;词语w2对应的同义词集合与词语wl对应的同义词集合的重合度小于预设的重合度阈值Ol ;在捜索日志中,词语w2与词语wl在同一个query中共现的次数超过预设的次数阈值N4 ;以及,词语w2与词语wl对应同一语种的翻译词语重合度小于预设的重合度阈值02。一种同义词的挖掘装置,该装置包括候选资源获取单元和同义词抽取単元;所述候选资源获取単元,用于从搜索日志中,搜索请求query及其对应的搜索结果中被点击或浏览的网页标题,或者,被点击或浏览的网页标题对应的不同query,获取由短语对构成的同义词的候选资源;所述同义词抽取単元,用于从候选资源的各短语对中抽取同义词对,其中抽取的 同义词对在所属的短语对中具有相同的上下文。具体地,所述候选资源获取单元采用以下所列任一方式或任意方式的组合获取所述候选资源从搜索日志中获取query对应的搜索结果中被点击或浏览的网页标题,得到query与标题构成的短语对;从搜索日志中获取相同query对应的搜索结果中被点击或浏览的网页标题,得到标题与标题构成的短语对;以及,从搜索日志中获取被点击或浏览的相同网页标题对应的不同query,得到query与query构成的短语对。其中,所述同义词抽取単元具体包括相似性过滤子単元和同义词抽取子単元;所述相似性过滤子単元,用于对同义词的候选资源的各短语对进行相似性过滤,得到候选同义短语对;所述同义词抽取子単元,用于从候选同义短语对中抽取同义词对,其中抽取的同义词对在所属的候选同义短语对中具有相同的上下文。所述相似性过滤子単元具体将满足以下所列相似性过滤条件中的任一或任意组合的短语对过滤掉,得到候选同义短语对短语对在候选资源中出现的次数在设定次数阈值NI以下;短语对中短语之间的编辑距离在设定距离阈值L以下;短语对中短语之间的字重合度小于预设的字重合度阈值;短语对中短语之间的词重合度小于预设的词重合度阈值;以及,短语对中短语之间的TF-IDF相似度小于预设的相似度阈值。当所述相似性过滤条件包括短语对中短语之间的字重合度小于预设的字重合度阈值时,所述同义词抽取单元还包括字重合度计算子単元,用于采用公式C1(P1,P2) =L1(^>2))计算所述候选资源的短语对中短语之间的字重合度,并将计算结果提供给所述相似性过滤子単元;其中,C1(P1,P2)为短语对中短语Pl和短语P2之间的字重合度,Coml (PI,P2)为Pl和P2间相同的字数目,LI⑴为短语X包含的字数目。当所述相似性过滤条件包括短语对中短语之间的词重合度小于预设的词重合度阈值时,所述本文档来自技高网...
【技术保护点】
一种同义词的挖掘方法,其特征在于,该方法包括:A、从搜索日志中,搜索请求query及其对应的搜索结果中被点击或浏览的网页标题,或者,被点击或浏览的网页标题对应的不同query,获取由短语对构成的同义词的候选资源;B、从候选资源的各短语对中抽取同义词对,其中抽取的同义词对在所属的短语对中具有相同的上下文。
【技术特征摘要】
【专利技术属性】
技术研发人员:徐文智,赵世奇,呼大为,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。