本申请公开了一种识别中文同义词的方法和装置以及利用其进行搜索的方法和装置,所述方法包括:a、获得需要识别的任意两个中文词;b、确定所述两个中文词之间的最小编辑距离小于等于编辑距离阈值后,执行步骤c;c、判断所述需要识别的两个中文词是否都存在于预设的知识库中,若是,则在所述知识库中分别查找每个中文词的权重最大的最小粒度类型;d、若查询到的每个中文词的权重最大的最小粒度类型相等,则判定所述两个中文词为同义词,否则判定所述两个中文词为非同义词。应用本申请实施例,使得识别出的同义词准确率大大提高,保证了同义词的识别效果。
【技术实现步骤摘要】
本申请涉及计算机数据处理
,特别涉及一种识别中文同义词的方法和装 置及利用其进行搜索的方法和装置。
技术介绍
现有的搜索一般是基于关键词的搜索,即用户输入关键词让搜索引擎进行查询, 搜索引擎返回包含有这些关键词的结果网页。比如用户输入“数码照相机”,现有的中文搜 索引擎会对输入的关键词先进行分词,通常将“数码照相机”分词为“数码照相机”两个词 条,之后返回的结果网页中包含有“数码”和“照相机”两个词条。而实际上,不同的用户背景不同,习惯不同,很有可能他们意图相似而压缩表达出 来的用于查询的关键词却不一样。比如,查询“数码照相机”和“数码相机”的用户潜在意图 是完全一致的,而对于“数码照相机”,现有的搜索引擎返回的结果网页中包含有“数码”和 “照相机”两个词条,而有一些很有价值的结果网页,因为包含有“数码”和“相机”两个词却 没有被返回或者由于其他技术因素返回却没有排在很靠前的位置。如果搜索引擎能发现这 对词是组同义词,同时合并返回两个词组的结果网页,那么对于提高搜索的准确度,以及用 户搜索体验是非常有效的。同义词是自然语言中的一个独特现象,同义词挖掘在自然语言处理中也是一个非 常有意义的工作,它的实现对于搜索查询重写,丰富搜索结果以使得用户得到很好的查询 体验有很大的帮助。但是,搜索应用中所涉及的同义词替换必须把握的恰如其分,并不是 使用任何一个近义词表就可以解决的。因为用户已经习惯于关键词搜索,习惯于输入查询 后,和查询相同的字、词在结果条目中标红;那么即使是完全同义的不同字、词替换,也不是 每个用户都能接受的。例如“土豆”和“马铃薯”是完全同义,但用户输入“土豆”,而“马铃 薯”却赫然出现在结果条目中被标红,猛一看还以为搜索引擎出问题了,如果不被标红又很 容易被用户的眼睛跳过。所以本文所涉及的同义词是指应该适合搜索应用的同义词。目前存在的汉语同义词自动识别方法是,将每个词表示成一个网页,词典中对该 词解释的其他词和这个词形成一种链接关系,给每个词赋予一个分值,这个分值就代表了 词之间的相似度,也就是说,把词汇之间解释与被解释的关系看成是一种超链接,把页面等 级(PageRank)值看成是体现词汇之间语义相似性的衡量指标,然后根据语义相似度的大 小识别同义词。这种方法主要是通过PageRank值作为衡量同义词的指标,而PageRank值的 确定是依赖于其所能获得的资源的,而这种资源又有很大的随意性难以控制,例如,对“土 豆”的解释,如果所用的资源着重解释土豆的植物特性,外形特征等,那么很有可能“土豆” 会和“根茎”,“椭圆”等词建立近义词关系。因而这种体现链接关系的PageRank值是非常 不可靠的,并且这种不可靠信息很难自动检测,从而导致不能准确识别所需的同义词,使得 识别的效果很难得到保证。
技术实现思路
本申请实施例一方面在于提供一种识别中文同义词的方法和装置,以解决中文同 义词识别效果不能得到保证的问题。本申请实施例另一方面在于提供一种搜索方法及装置,以丰富搜索结果信息。本申请实施例提供了一种识别中文同义词的方法,包括a、计算服务器获得需要识别的任意两个中文词;b、确定所述两个中文词之间的最小编辑距离小于等于编辑距离阈值后,执行步骤c ;C、判断所述需要识别的两个中文词是否都存在于预设的知识库中,若是,则在所 述知识库中分别查找每个中文词的权重最大的最小粒度类型;d、若查询到的每个中文词的权重最大的最小粒度类型相等,则判定所述两个中文 词为同义词,否则判定所述两个中文词为非同义词。其中,若需要识别的两个中文词是否不都存在于预设的知识库中,则进一步包 括e、计算服务器对不能查到的中文词进行分词,再判断所述分词后的中文词是否都 存在于所述知识库中,若是,则再在所述知识库中分别查找每个中文词的权重最大的最小 粒度类型,并继续后续步骤e。其中,当判断出每个中文词的权重最大的最小粒度类型相等后,进一步包括计算服务器判断两个中文词中有变化的字或词是否属于已设置的普义字表中可 以改变的字,若是,再判定所述需要识别的两个中文词为同义词,否则判定所述两个中文词 为非同义词。其中,所述知识库包括词条和概念,每个词条或概念至少对应一个类型,且每个 词条或概念对应的每个类型具有权重值。其中,所述在所述知识库中分别查找每个中文词的权重最大的最小粒度类型包 括在所述知识库中查到与每个中文词对应的词条或概念,根据每个词条或概念对应 的至少一个类型,及每个词条或概念具有的权重值,查到每个中文词的权重最大的最小粒 度类型。其中,若判定所述两个中文词为同义词,则将所述识别出的同义词存入同义词库。本申请实施例还提供了一种搜索方法,包括搜索引擎接收来自用户的查询请求,所述查询请求中包括待查询词条;搜索引擎根据所述待查询词条查询预先设置的同义词库,找到该待查询词条的同 义词;搜索引擎应用所述待查询词条和该待查询词条的同义词进行搜索,返回包括该待 查询词条和该待查询词条同义词的搜索结果给用户。本申请实施例还提供了一种识别中文同义词的装置,包括获取单元,用于获得需要识别的任意两个中文词;第一判断单元,用于确定所述两个中文词之间的最小编辑距离小于等于编辑距离 阈值后,通知第二判断单元;第二判断单元,用于判断所述需要识别的两个中文词都存在于预设的知识库中时,通知查询单元;查询单元,用于在所述知识库中分别查找每个中文词的权重最大的最小粒度类 型;第三判断单元,用于确定查询到的每个中文词的权重最大的最小粒度类型相等 时,判定所述两个中文词为同义词,确定查询到的每个中文词的权重最大的最小粒度类型 不相等时,判定所述两个中文词为非同义词。其中,还所述装置包括分词单元,用于对不能在所述知识库中查到的中文词进行 分词,之后通知第二判断单元;所述第二判断单元,还用于判断出所述分词后的中文词都存在于所述知识库中 时,再通知查询单元,判断出所述分词后的中文词不都存在于所述知识库中时,再通知分词单元。其中,所述装置还包括普义字表查询单元,用于确定两个中文词中有变化的字或 词属于已设置的普义字表中可以改变的字时,通知第三判断单元判定所述两个中文词为同 义词,确定两个中文词中有变化的字或词不属于已设置的普义字表中可以改变的字时,通 知第三判断单元判定所述两个中文词为非同义词。其中,所述知识库包括词条和概念,每个词条或概念至少对应一个类型,且每个 词条或概念对应的每个类型具有权重值。其中,所述识别中文同义词的装置为计算服务器或搜索引擎。本申请实施例还提供了 一种搜索装置,包括接收单元,用于收来自用户的查询请求,所述查询请求中包括待查询词条;同义词查询单元,用于根据所述待查询词条查询预先设置的同义词库,找到该待 查询词条的同义词;搜索单元,用于应用所述待查询词条和该待查询词条的同义词进行搜索;反馈单元,用于将所述搜索结果返回给用户。应用本申请实施例提供的识别中文同义词的方法及装置,由于首先确定待识别中 文词之前的最小编辑距离,因而使得同义词对之间的字词表达差异不大,在搜索应用中能 够提高搜索结果的准确性,并且不会给用户带来突兀的感觉,再有,本申请实施例利用知识 库对待识别的中文词进行语义的验证,使得识别出的同义词准确率大大提高,保证了同义 词的识别效本文档来自技高网...
【技术保护点】
一种识别中文同义词的方法,其特征在于,包括:a、计算服务器获得需要识别的任意两个中文词;b、确定所述两个中文词之间的最小编辑距离小于等于编辑距离阈值后,执行步骤c;c、判断所述需要识别的两个中文词是否都存在于预设的知识库中,若是,则在所述知识库中分别查找每个中文词的权重最大的最小粒度类型;d、若查询到的每个中文词的权重最大的最小粒度类型相等,则判定所述两个中文词为同义词,否则判定所述两个中文词为非同义词。
【技术特征摘要】
【专利技术属性】
技术研发人员:董静,邢飞,郭宁,侯磊,张勤,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:KY[开曼群岛]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。