识别同义词的方法、装置及利用其进行搜索的方法和装置制造方法及图纸

技术编号：3900299 阅读：384 留言：0更新日期：2012-04-11 18:40

本申请公开了一种识别中文同义词的方法和装置以及利用其进行搜索的方法和装置，所述方法包括：ａ、获得需要识别的任意两个中文词；ｂ、确定所述两个中文词之间的最小编辑距离小于等于编辑距离阈值后，执行步骤ｃ；ｃ、判断所述需要识别的两个中文词是否都存在于预设的知识库中，若是，则在所述知识库中分别查找每个中文词的权重最大的最小粒度类型；ｄ、若查询到的每个中文词的权重最大的最小粒度类型相等，则判定所述两个中文词为同义词，否则判定所述两个中文词为非同义词。应用本申请实施例，使得识别出的同义词准确率大大提高，保证了同义词的识别效果。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机数据处理
，特别涉及一种识别中文同义词的方法和装置及利用其进行搜索的方法和装置。
技术介绍
现有的搜索一般是基于关键词的搜索，即用户输入关键词让搜索引擎进行查询，搜索引擎返回包含有这些关键词的结果网页。比如用户输入“数码照相机”，现有的中文搜索引擎会对输入的关键词先进行分词，通常将“数码照相机”分词为“数码照相机”两个词条，之后返回的结果网页中包含有“数码”和“照相机”两个词条。而实际上，不同的用户背景不同，习惯不同，很有可能他们意图相似而压缩表达出来的用于查询的关键词却不一样。比如，查询“数码照相机”和“数码相机”的用户潜在意图是完全一致的，而对于“数码照相机”，现有的搜索引擎返回的结果网页中包含有“数码”和 “照相机”两个词条，而有一些很有价值的结果网页，因为包含有“数码”和“相机”两个词却没有被返回或者由于其他技术因素返回却没有排在很靠前的位置。如果搜索引擎能发现这对词是组同义词，同时合并返回两个词组的结果网页，那么对于提高搜索的准确度，以及用户搜索体验是非常有效的。同义词是自然语言中的一个独特现象，同义词挖掘在自然语言处理中也是一个非常有意义的工作，它的实现对于搜索查询重写，丰富搜索结果以使得用户得到很好的查询体验有很大的帮助。但是，搜索应用中所涉及的同义词替换必须把握的恰如其分，并不是使用任何一个近义词表就可以解决的。因为用户已经习惯于关键词搜索，习惯于输入查询后，和查询相同的字、词在结果条目中标红；那么即使是完全同义的不同字、词替换，也不是每个用户都能接受的。例如“土豆”和“马铃薯”是完全同义...

【技术保护点】
一种识别中文同义词的方法，其特征在于，包括：ａ、计算服务器获得需要识别的任意两个中文词；ｂ、确定所述两个中文词之间的最小编辑距离小于等于编辑距离阈值后，执行步骤ｃ；ｃ、判断所述需要识别的两个中文词是否都存在于预设的知识库中，若是，则在所述知识库中分别查找每个中文词的权重最大的最小粒度类型；ｄ、若查询到的每个中文词的权重最大的最小粒度类型相等，则判定所述两个中文词为同义词，否则判定所述两个中文词为非同义词。

【技术特征摘要】

【专利技术属性】
技术研发人员：董静，邢飞，郭宁，侯磊，张勤，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：KY[开曼群岛]

全部详细技术资料下载我是这个专利的主人