语义化的智能搜索方法技术

技术编号:8215667 阅读:212 留言:0更新日期:2013-01-17 13:20
本发明专利技术涉及搜索算法的相关技术,具体是一种理解自然语义的、可以广泛应用在不同领域(如购物、音乐、图书等)的通用智能搜索方法。本发明专利技术主要解决当前关键词搜索算法只是将切好的关键词,基于索引匹配目标内容;当语义化的多个关键字连在一起时,匹配结果就会混乱不堪。所要达到的技术目的是:主动地分析、理解一句自然语义的搜索句子,将这个句子拆分成有语义的若干本体,而非关键词;利用本体和句式的匹配来代替关键词的索引匹配,最终达到一种理解自然语义的效果;进而为自然语言搜索,尤其是语音交互搜索提供一种更便捷更精确的搜索方式。

【技术实现步骤摘要】

本专利技术涉及搜索算法的相关技术,具体是一种理解自然语义的、可以广泛应用在不同领域(如购物、音乐、图书等)的通用智能搜索方法。
技术介绍
目前主流的基于关键词匹配的搜索技术,限制了计算机在检索中的语义分析能力。其搜索返回的结果中,包含大量的无关信息,查准率低下,不能切中用户的真正意图。t匕如“买黑色的手机”,其中“买”字和“的”字都会对关键字搜索的结果造成影响,而且可能只要带有“黑色”字样的产品全都成为搜索结果,比如黑色的袜子、黑色的手机等。显而易见,关键词搜索很难理解自然语言形式的一句话,比如“黑色的电脑”,“买安卓的手机”等。因为关键词索引是基于词库的,是词语的大杂汇,标注出的结果缺乏语义信息,缺乏知识的理解和推理能力。主流搜索技术的这些缺点,在移动互联网时代,就显得更为突出。在移动设备上,由于屏幕比较小,所以对搜索结果有更精准的要求。此外,“语音输入”要比“打字”方便快捷,从而对自然语言形式的搜索更为迫切。下面以实例来分析当前关键字搜索方法的局限性及不足之处。不足一复合关键字不能语义关联 如搜索“浦东新区的健身会所”,某知名网站网上的结果中第一页给出的结果,没有一家是“健身会所”。可以明显地看出关键字匹配的痕迹,即商家名称中只要有“的”字的,全都算作搜索结果,地址中只要有“浦东新区”的全都算作搜索结果,没有语义化的理解和关联。换成“找浦东新区的健身会所”,如果用这种更符合自然语义的交互方式来搜的话,现行网站的结果是完全没有找到任何结果,搜索引擎没有自然语义的理解能力。再如“黑色的电脑”,某知名购物网站的结果 第一页的结果只有两个“学生平板电脑”,其他的20多个产品,没有一个是电脑。“找黑色的电脑”,用更符合自然语义的交互方式来搜,某购物网的结果效果会更差,提示没有找到相关商品,只能给出“电脑”的结果,根本不能识别“黑色”。不足二 只有特定的“语义化”搜索,没有通用的语义化效果 不足三勾选太复杂,不适应移动设备的小屏幕 不足四现在的电商不能充份发挥移动设备语音的价值点 现在的各大电商,都有手机客户端,而手机客户端都有一个功能就是接受“语音搜索”。就算是电商主页的搜索框里面,都有一个小话筒,代表着语音输入。不管是手机也好,网站也好,他们接收来的语音,仅仅是变成了文字,然后进行了一次传统的字符串匹配。效果跟我在前面举的关键字匹配例子是一样的。设备的硬件条件得到迅猛发展的同时,软件方面却跟不上步伐。当前语音设备的价值点没有发挥出来,语音的作用就是代替打字,缺乏后台智能计算、自然语义的技术支持。
技术实现思路
本专利技术主要解决当前关键词搜索算法只是将切好的关键词,基于索引匹配目标内容;当语义化的多个关键字连在一起时,匹配结果就会混乱不堪。所要达到的技术目的是主动地分析、理解一句自然语义的搜索句子,将这个句子拆分成有语义的若干本体,而非关键词;利用本体和句式的匹配来代替关键词的索引匹配,最终达到一种理解自然语义的效果;进而为自然语言搜索,尤其是语音交互搜索提供一种更便捷更精确的搜索方式。为完成上述专利技术目的,本专利技术是这样实现的 Cl)以通用本体结构化领域知识; 所述的通用本体,包括事物、事物的分类、事物的特征,基于这三种基本的概念可以结构化全部的领域知识; (2)建立领域知识库; 所述的领域知识库是在某个领域,基于上述步骤的结构化分析,通过三张固定的表格,将所有事物及关系表达清楚;这三张表分别为事物表,事物的类表和事物的特征表;同时建立三表之间的关联关系; (3)建立固定句式库; 根据人类语言的特点,基于事物与事物的特征进行不同的排列组合,形成特定的表达自然语言的句式结构;建立起固定格式的能够用来理解自然语言意图的句式库,以及根据该意图提取领域知识的规则库; (4)概念切分; 根据句式结构对自然语言的句子进行词语切分,将词语与领域知识库对比进行概念标注;进而理解和识别自然语言的意 (5)根据搜索规则实现知识提取; 了解自然语言的意图后,利用相应意图的搜索规则在领域知识库内进行匹配提取,给出贴近意图的精确的知识和答案。 本专利是以有限的几个标准概念,构成适用于众多具体领域(如购物、团购、图书、视频等)的通用本体,形成具体领域的本体概念体系。对于目前有所有领域都有他特殊的地方,但同样他们都具有同样的特性,例如,事物,事物的类别,事物的特点、特性、特征等;当涉及到我们要去找到具体事一物时,无非是运用一系列的限定词从群体,到类别,到个体,再到具有特性的个体这样一个查找顺序来进行;而这种顺序的运用恰是本专利的主体思想。,本专利利用领域知识库这样一个自身就具有结构化特征的这种关系的数据库,。基于句式结构进行通过切词,并在领域知识在库中进行对比,从而起到了解输入者真实意图的作用。例如,你输入黑色苹果,这时因为在库内有对应的苹果手机,颜色属性是黑色,这时,通过在领域知识库的匹配,计算机知道,这时的输入者,真实意图是要找的手机;而不是人吃的水果。如果你输入的是红色苹果,那么系统就会主动提供给你关于水果的内容,而不会涉及到手机,因为从领域库中的特征,已经反应出客户端的真实意图是找水果,而不是手机;真正的苹果手机,他没有出红色的。可能上述情况对于一般的购物网说不定会给出一大堆的关于红色手机壳的结果,而利用本专利的检索方法,基本不会给出错误的结论。对上述技术方案作进一步的细化,所述的物表是指在某一领域中,所有具有实质意义概念词汇表;所述的物的分类表是指将物按照本领域中惯常分类方法给物分类,从而为物建立表;所述的物的特征表是指该物在本领域中所应当具有属性与属性值的表格。本专利所指的事物,不仅是指某个具体的实物,在某些行业中也可以是一个有意义的概念;例如,它可以是一个品牌名字。本专利利用归纳的办法,把所有事物都按这种方式来建表,建立领域知识库,从而给检索带来便利;达到真正的让电脑理解客户端的主旨的目的。对上述技术方案作进一步的改进,所述的结构化句式是由一个谓语动词加上宾语或加上限定了的宾语构成。所述的句式结构是由谓语动词加上物或物的关系和物构成;或者是单纯的物与物的特征关系构成。基于物与物的关系进行不同的排列组合,形成特定的句式结构;这种基于本体概念的、语序相关的句式结构,可以用于句子的有效匹配,实现对自然语句的理解。对于搜索来说,人们习惯性的会对想要的结果加一定的限定词,我们正是抓住客户这一特性,采用固定式的结构,从而实现了概念的切分,而非是词的切分,因为有了领域知识库,所以,计算机能正确的理解这哪些词应该与哪些词相组合的问题。组成的句式结构如下(包括但不限于)权利要求1.一种,其包括以下步骤 (I)以通用本体结构化领域知识; 所述的通用本体,包括事物、事物的分类、事物的特征,基于这三种基本的概念可以结构化全部的领域知识; (2)建立领域知识库; 所述的领域知识库是在某个领域,基于上述步骤的结构化分析,通过三张固定的表格,将所有事物及关系表达清楚;这三张表分别为事物表,事物的类表和事物的特征表;同时建立三表之间的关联关系; (3)建立固定句式库; 根据人类语言的特点,基于事物与事物的特征进行不同的排列组合,形成特定的表达自然语言的句式结构;建立起固定格式的能够用来理解自然语言意图的句式本文档来自技高网
...

【技术保护点】
一种语义化的智能搜索方法,其包括以下步骤:?(1)以通用本体结构化领域知识;所述的通用本体,包括事物、事物的分类、事物的特征,基于这三种基本的概念可以结构化全部的领域知识;(2)建立领域知识库;所述的领域知识库是在某个领域,基于上述步骤的结构化分析,通过三张固定的表格,将所有事物及关系表达清楚;这三张表分别为事物表,事物的类表和事物的特征表;同时建立三表之间的关联关系;?(3)建立固定句式库;根据人类语言的特点,基于事物与事物的特征进行不同的排列组合,形成特定的表达自然语言的句式结构;建立起固定格式的能够用来理解自然语言意图的句式库,以及根据该意图提取领域知识的规则库;?(4)概念切分;根据句式结构对自然语言的句子进行词语切分,将词语与领域知识库对比进行概念标注;进而理解和识别自然语言的意图;?(5)根据搜索规则实现知识提取;了解自然语言的意图后,利用相应意图的搜索规则在领域知识库内进行匹配提取,给出贴近意图的精确的知识和答案。

【技术特征摘要】

【专利技术属性】
技术研发人员:陈绪平
申请(专利权)人:上海云叟网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1