一种用于信息检索的查询语句分析方法,其步骤为: 1)对输入的中文查询语句进行自动分词、命名实体识别和词性标注; 2)对分词后的句子进行句法结构分析,得到句法结构树;对词性标注后的句子采用知网的义原表示体系来确定每个词的词义; 3)根据句子的句法结构和每个词的词义,对句子中目标动词进行语义角色标注; 4)根据识别的命名实体、目标动词的语义角色标注结果分别进行关键词扩展,得到扩展后的关键词。
【技术实现步骤摘要】
本专利技术涉及信息检索
,具体涉及一种基于自然语言理解的查询语句分析方法 与系统。
技术介绍
随着互联网在全球范围内的迅速发展与成熟,网络上的信息资源不断丰富,信息数据 量也在飞速膨胀。在当今社会中,通过搜索引擎上网査信息己成为现代人的主要信息获取 方式。于是,为用户提供更加便捷而有效的査询服务,便成为搜索引擎技术在当今和未来 的发展方向。目前大多数搜索引擎所接受的査询方式仍是关键词查询。这种査询方式要求用户将个 人的查询意图概括为几个最有效的词汇,这不仅增加了用户的负担,而且会带来一定的査 询歧义。例如,现如今当用户在某一搜索引擎中输入关键词"苹果",返回的检索结果中 排在前几位的条目很可能都是关于苹果电脑的信息。如果用户想购买苹果笔记本,那么检 索结果会符合他的期望。然而,如果用户想了解"苹果的营养价值",那么这些结果则明 显地"答非所问"了。未来更具智能化的搜索引擎应支持用户以自然语言方式进行语句査询。这种像日常对 话一样的查询方式不仅能使用户感到方便自然,而且还能够根据上下文语境判断用户的査 询意图,克服査询歧义问题。基于当前的自然语言处理技术,可以通过对用户输入的査询语句进行自动分析,在理 解用户信息需求的基础上,确定出合适的无歧义的关键词检索项。近年来,自然语言处理 的研究取得了很多突破性的进展。词法、句法和语义分析技术的进步使得自然语言处理技 术在机器翻译、信息检索等领域得到了广泛的应用。目前已经有一些基于自然语言理解的 查询分析系统(参考申请号200810046936、申请日2008-02-26、申请人华中科技大学、专利技术名称基于自然语言的全文检索系统,的中国专利申请),这些系统通过对査询语句的分析,得到语句中的词义,再利用外部词典或本体库进行关键词的扩展。然而, 这些系统仅仅在词汇的层次上进行词义分析,这还不足以明确用户的查询需求,还应进一 步从句子的层次上进行句法和语义的分析。
技术实现思路
本专利技术的目的在于提供一种用于信息检索的査询语句分析方法与系统。 本专利技术用于中文信息检索系统的用户查询分析中。专利技术中所阐述的方法通过对用户输 入的查询语句进行分析,在理解用户査询意图的基础上,提取有效且无歧义的检索关键词。 与当前主流的关键词査询方式相比,本专利技术能够为信息搜索用户提供更加便捷自然的査询 方式,而且能够克服关键词检索的査询歧义问题。对自然语言描述的查询进行分析理解,存在着很多技术难点,而这些技术难点正是本 专利技术要重点解决的问题,同时,将这些技术结合在一起,进一步的引入语义角色标注技术, 来理解用户的检索査询需求,最终找到合适的检索关键词是本专利技术的创新和贡献之所在。本专利技术基于自然语言处理技术,设计了面向自然语言式信息査询语句的分析系统。系 统的整体框架见附图1。系统主要包括词法分析、句法分析、语义分析和关键词提取四个模块,下面将分别予 以介绍1、词法分析该模块对输入的中文査询语句进行自动分词、命名实体识别和词性标注。 分词是对查询语句进行自动分析和理解的基础。分词的同时还要识别人名、地名、机 构名这些命名实体,它们不仅含有事件的关键信息,同时还和汉语分词有着紧密的联系。 很多命名实体恰为分词中很难处理的未登录词,而分词的结果也很大程度地影响着命名实 体识别的性能。目前大多采取将分词和命名体识别视为一个序列标注任务同时实现,因而可以采用统计机器学习中的最大熵(Maximum Entropy, ME)、最大熵马尔科夫(Maximum Entropy Markov Models, MEMM)或条件随机场(Conditional Random Fields, CRF)等序列 标注模型,给句子中的每个字标记字在词中的位置和实体类别,进而转化成分词结果并识 别出命名实体。词性标注,即将词语进行分类,可以将句子中具体词的组合关系抽象成词类之间的组 合关系,进而可能更容易得到句法结构的规律。 一个词的不同词性往往对应不同的含义, 所以确定词的词性对于分析词和句子的语义也是很重要的。词性标注也可视为序列标注问 题,故可以采用上述的分类器或序列标注模型。模型通过带词性标注的语料训练参数,再 对输入的词序列识别词性。2、 句法分析该模块以分词后的句子作为输入,对句子的句法结构进行分析。句法分析是保证各种应用系统能够在内容层面处理自然语言的核心技术。所谓句法分 析,就是指根据给定的语法,自动地识别出句子所包含的句法单位和这些句法单位之间的 关系。句法分析对于理解整句的含义有着非常重要的作用。本专利技术实现了基于概率上下文无关文法(Probabilistic Context Free Grammar, PCFG)的 句法分析系统(参考文献Slav Petrov and Dan Klein. Improved Inference for Unlexicalized Parsing. In Proceedings of HLT/NAACL, 2007.),它通过统计得到一套描述句法结构的文法 模型,其中包括文法规则和规则的概率分布,从而利用得到的文法模型对于输入的句子进 行分析,得到句法结构树。模型需要利用人工标注的标准树库资源进行训练。目前,用于 中文句法分析的标准树库有美国宾州大学的中文树库和中国清华大学的中文树库。3、 语义分析该模块包括词义消歧和语义角色标注两个子模块。由于自然语言中一词多义现象普遍存在,因此,要让计算机正确地分析和理解自然语 言, 一个重要的前提条件就是能够在某个特定上下文中,自动排除歧义,确定多义词的意 义,即所谓的词义消歧。词义消歧子模块以词性标注后的句子作为输入,采用知网(HowNet)的义原表示体系 (参考Dong Z, Dong Q. HowNet, http:〃www.keenage.com/zhiwang/e—zhiwang.html) , >|每 每个词的词义用义原,以及义原和义原之间的关系来进行描述。 一个句子的每个词有一个 或多个含义,这样就存在多个可能的语义的组合,从而形成了一个类似于词网的结构。我 们把网中节点之间的距离定义为相应的义原之间的距离,距离越短,说明这两个义原之间 的相关性越大。这样,我们通过动态规划算法,搜索到一条距离最短的路径。这样一种搜 索策略反映的是基于整句的词与词之间的语义关系,来确定每个词的意义。词义消歧仅仅是在词汇层上进行语义分析,对于査询理解而言,还需要在句子层面上 进行正确的语义分析,才能更准确的理解査询意图。为此,本专利技术对句法分析后的句子进 行语义角色标注。语义角色标注,指的是根据句子的句法结构和句中每个实词的词义,标 注句子中的一些成分作为目标动词(谓词)的语义角色,这些成分作为谓词的参数被赋予 一定的语义含义。在此基础之上可以推导出能够反映句子意义的形式化表示,从而实现句 子层的分析和理解。例如,对于句子"张三吃了苹果"和"苹果被张三吃了",虽然它 们的表述形式不同,但表示成语义的形式就统一为"吃(张三,苹果)"。本专利技术采用基于分类器的语义角色标注方法。该子模块建立在完全句法分析基础之上, 以句子中的动词作为目标谓词,把句法成分作为语义标注的基本单元,用最大熵、支持向 量机等分类器对句子中谓词的语义角色同时进行识别本文档来自技高网...
【技术保护点】
一种用于信息检索的查询语句分析方法,其步骤为: 1)对输入的中文查询语句进行自动分词、命名实体识别和词性标注; 2)对分词后的句子进行句法结构分析,得到句法结构树;对词性标注后的句子采用知网的义原表示体系来确定每个词的词义; 3)根据句子的句法结构和每个词的词义,对句子中目标动词进行语义角色标注; 4)根据识别的命名实体、目标动词的语义角色标注结果分别进行关键词扩展,得到扩展后的关键词。
【技术特征摘要】
...
【专利技术属性】
技术研发人员:吴玺宏,迟惠生,罗定生,林小俊,张猛,
申请(专利权)人:北京大学,
类型:发明
国别省市:11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。