歧义消解的方法和系统技术方案

技术编号:10443000 阅读:142 留言:0更新日期:2014-09-17 19:05
本发明专利技术实施例公开了一种语言处理技术,尤其涉及一种歧义消解的方法和系统,用以通过新的方式实现在人机交互过程中处理器对语言的歧义消解。本发明专利技术实施例利用静态知识和动态知识之间的关系,对自然语言歧义进行动态分析,首先在词法分析阶段采用回溯试探切词算法进行歧义消解,对于未消除歧义的切词结果进行句法、语义、以及篇章分析。根据切词结果中的各个切词词组在知识库中进行匹配,在匹配到对应的歧义格式或多义词后,对具体的多义词引起的歧义和歧义结构引起的歧义进行重点分析,选取优先度最高的实例化表示作为正确的语义表示,由此可以快速将存在歧义的语句进行实例化表示,并在这些实例化表示中选取正确的语义表示,快速准确地消除歧义。

【技术实现步骤摘要】
歧义消解的方法和系统
本专利技术涉及语言处理技术,尤其涉及一种歧义消解的方法和系统。
技术介绍
随着电子信息技术的发展,越来越多的智能电视具备语音交互的功能,因此需要使智能电视能够准确识别语言的语义。而歧义问题是语言中普遍存在的现象,主要包括由多义词引起的歧义以及由歧义结构引起的歧义。其中,歧义结构是指由多个词语或者短语组合的构成形式,由于各个词语或者短语之间能够形成多种内部关系,由此所引起的歧义,例如“了解中国的留学生”、“咬死了猎人的狗”等。 现有技术中采用的方法是以语句中的某一动词作为语句核心,将切词出现的动词歧义结果上升到句法分析的层面,通过句子全局语义核心的预期知识对歧义结构进行判断,得到歧义结构的合理语义表示。而除了上述方法外,目前还没有其它能够应用于人机交互的歧义消解方法。
技术实现思路
本专利技术实施例提供一种歧义消解的方法和系统,用以通过新的方式实现在人机交互过程中处理器对语言的歧义消解。 本专利技术实施例提供的一种歧义消解的方法,该方法包括: 确定语句的切词结果中的切词词组的词性; 根据所述切词词组的词性,将所述切词结果与知识库中的歧义格式进行匹配,确定所述切词结果中存在歧义的切词词组的组合; 在知识库中查找与存在歧义的切词词组的组合匹配的歧义格式对应的单义式,并根据所述存在歧义的切词词组的组合中各个切词词组的搭配限制关系,对所述单义式进行实例化表示; 选取优先度最高的实例化表示作为所述存在歧义的切词词组的组合的语义表示。 较佳地,在确定语句的切词结果中的切词词组的词性之前,还包括: 根据切分标志和固定词对所述语句进行预切分,其中所述切分标志包括字母、数字和符号; 对预切分后的语句进行切词处理,获得所述语句的切词结果。 较佳地,根据所述存在歧义的切词词组的组合中各个切词词组的搭配限制关系,对所述单义式进行实例化表示,包括: 根据所述存在歧义的切词词组的组合中各个切词词组的搭配限制关系,对单义式的语序及结构进行调整; 将所述存在歧义的切词词组的组合中的切词词组,代入所述调整后的单义式中,获得所述单义式的实例化表示。 较佳地,选取优先度最高的实例化表示作为所述存在歧义的切词词组的组合的语义表示,包括: 进行对所述实例化表示进行语句内的语义消歧和/或篇章消歧,保留符合语义的实例化表示; 若保留的实例化表示的数量为一个,则将所述实例化表示确定为优先度最高的实例化表示; 若保留的实例化表示的数量大于一个,则将认知频率最高的实例化表示确定为优先度最高的实例化表示; 将所述优先度最高的实例化表示作为所述存在歧义的切词词组的组合的语义表 /Jn ο 本专利技术实施例提供的另一种歧义消解的方法,该方法包括: 将语句的切词结果中的切词词组与知识库中的多义词组进行匹配,确定所述切词结果中存在的多义词组; 在知识库中查找所述多义词组对应的词项变体,并根据所述词项变体与其它切词词组的搭配限制关系,对所述切词结果进行实例化表示,其中所述词项变体记录有所述多义词组的词义及词性; 选取优先度最高的实例化表示作为所述切词结果的语义表示。 较佳地,在将语句的切词结果中的切词词组与知识库中的多义词组进行匹配之前,还包括: 根据切分标志和固定词对所述语句进行预切分,其中所述切分标志包括字母、数字和符号; 对预切分后的语句进行切词处理,获得所述语句的切词结果。 较佳地,选取优先度最高的实例化表示作为所述切词结果的语义表示,包括: 进行对所述实例化表示进行语句内的语义消歧和/或篇章消歧,保留符合语义的实例化表示; 若保留的实例化表示的数量为一个,则将所述实例化表示确定为优先度最高的实例化表示; 若保留的实例化表示的数量大于一个,则将认知频率最高的实例化表示确定为优先度最高的实例化表示; 将所述优先度最高的实例化表示作为所述切词结果的语义表示。 较佳地,上述方法还包括: 将所述将语句的切词结果与知识库中预设的词组组合关系进行匹配,若所述知识库中未匹配到所述切词结果中多个连续的切词词组的组合关系,则将所述多个连续的切词词组的组合确定为未登录词; 根据所述未登录词中各个切词词组的搭配限制关系,确定所述未登录词的词性; 记录所述未登录词被识别为该词性的频率和次数; 当所述频率和次数超过阈值时,将所述未登录词添加至知识库中。 本专利技术实施例提供的一种歧义消解的系统,该系统包括: 词性确定模块,用于确定语句的切词结果中的切词词组的词性; 第一匹配模块,用于根据所述切词词组的词性,将所述切词结果与知识库中的歧义格式进行匹配,确定所述切词结果中存在歧义的切词词组的组合; [0041 ] 第一实例化模块,用于在知识库中查找与存在歧义的切词词组的组合匹配的歧义格式对应的单义式,并根据所述存在歧义的切词词组的组合中各个切词词组的搭配限制关系,对所述单义式进行实例化表示; 第一语义确定模块,用于选取优先度最高的实例化表示作为所述存在歧义的切词词组的组合的语义表示。 较佳地,该系统还包括: 第一切词模块,用于在确定语句的切词结果中的切词词组的词性之前,根据切分标志和固定词对所述语句进行预切分,其中所述切分标志包括字母、数字和符号;以及对预切分后的语句进行切词处理,获得所述语句的切词结果。 较佳地,所述第一实例化模块,具体用于: 在知识库中查找与存在歧义的切词词组的组合匹配的歧义格式对应的单义式; 根据所述存在歧义的切词词组的组合中各个切词词组的搭配限制关系,对单义式的语序及结构进行调整; 将所述存在歧义的切词词组的组合中的切词词组,代入所述调整后的单义式中,获得所述单义式的实例化表示。 较佳地,所述第一语义确定模块,具体用于: 进行对所述实例化表示进行语句内的语义消歧和/或篇章消歧,保留符合语义的实例化表示; 若保留的实例化表示的数量为一个,则将所述实例化表示确定为优先度最高的实例化表示; 若保留的实例化表示的数量大于一个,则将认知频率最高的实例化表示确定为优先度最高的实例化表示; 将所述优先度最高的实例化表示作为所述存在歧义的切词词组的组合的语义表 /Jn ο 本专利技术实施例提供的另一种歧义消解的系统,该系统包括: 第二匹配模块,用于将语句的切词结果中的切词词组与知识库中的多义词组进行匹配,确定所述切词结果中存在的多义词组; 第二实例化模块,用于在知识库中查找所述多义词组对应的词项变体,并根据所述词项变体与其它切词词组的搭配限制关系,对所述切词结果进行实例化表示,其中所述词项变体记录有所述多义词组的词义及词性; 第二语义确定模块,用于选取优先度最高的实例化表示作为所述切词结果的语义表不。 较佳地,该系统还包括: 第二切词模块,用于在将语句的切词结果中的切词词组与知识库中的多义词组进行匹配之前,根据切分标志和固定词对所述语句进行预切分,其中所述切分标志包括字母、数字和符号;以及对预切分后的语句进行切词处理,获得所述语句的切词结果。 较佳地,所述第二语义确定模块,具体用于: 进行对所述实例化表示进行语句内的语义消歧和/或篇章消歧,保留符合语义的实例化表示; 若保留的实例化表示的数量为一个,则将所述实例化表示本文档来自技高网...

【技术保护点】
一种歧义消解的方法,其特征在于,该方法包括:确定语句的切词结果中的切词词组的词性;根据所述切词词组的词性,将所述切词结果与知识库中的歧义格式进行匹配,确定所述切词结果中存在歧义的切词词组的组合;在知识库中查找与存在歧义的切词词组的组合匹配的歧义格式对应的单义式,并根据所述存在歧义的切词词组的组合中各个切词词组的搭配限制关系,对所述单义式进行实例化表示;选取优先度最高的实例化表示作为所述存在歧义的切词词组的组合的语义表示。

【技术特征摘要】
1.一种歧义消解的方法,其特征在于,该方法包括: 确定语句的切词结果中的切词词组的词性; 根据所述切词词组的词性,将所述切词结果与知识库中的歧义格式进行匹配,确定所述切词结果中存在歧义的切词词组的组合; 在知识库中查找与存在歧义的切词词组的组合匹配的歧义格式对应的单义式,并根据所述存在歧义的切词词组的组合中各个切词词组的搭配限制关系,对所述单义式进行实例化表示; 选取优先度最高的实例化表示作为所述存在歧义的切词词组的组合的语义表示。2.如权利要求1所述的方法,其特征在于,在确定语句的切词结果中的切词词组的词性之前,还包括: 根据切分标志和固定词对所述语句进行预切分,其中所述切分标志包括字母、数字和符号; 对预切分后的语句进行切词处理,获得所述语句的切词结果。3.如权利要求1所述的方法,其特征在于,根据所述存在歧义的切词词组的组合中各个切词词组的搭配限制关系,对所述单义式进行实例化表示,包括: 根据所述存在歧 义的切词词组的组合中各个切词词组的搭配限制关系,对单义式的语序及结构进行调整; 将所述存在歧义的切词词组的组合中的切词词组,代入所述调整后的单义式中,获得所述单义式的实例化表示。4.如权利要求1所述的方法,其特征在于,选取优先度最高的实例化表示作为所述存在歧义的切词词组的组合的语义表示,包括: 进行对所述实例化表示进行语句内的语义消歧和/或篇章消歧,保留符合语义的实例化表示; 若保留的实例化表示的数量为一个,则将所述实例化表示确定为优先度最高的实例化表不; 若保留的实例化表示的数量大于一个,则将认知频率最高的实例化表示确定为优先度最闻的实例化表不; 将所述优先度最高的实例化表示作为所述存在歧义的切词词组的组合的语义表示。5.—种歧义消解的方法,其特征在于,该方法包括: 将语句的切词结果中的切词词组与知识库中的多义词组进行匹配,确定所述切词结果中存在的多义词组; 在知识库中查找所述多义词组对应的词项变体,并根据所述词项变体与其它切词词组的搭配限制关系,对所述切词结果进行实例化表示,其中所述词项变体记录有所述多义词组的词义及词性; 选取优先度最高的实例化表示作为所述切词结果的语义表示。6.如权利要求5所述的方法,其特征在于,在将语句的切词结果中的切词词组与知识库中的多义词组进行匹配之前,还包括: 根据切分标志和固定词对所述语句进行预切分,其中所述切分标志包括字母、数字和符号;对预切分后的语句进行切词处理,获得所述语句的切词结果。7.如权利要求5所述的方法,其特征在于,选取优先度最高的实例化表示作为所述切词结果的语义表示,包括: 进行对所述实例化表示进行语句内的语义消歧和/或篇章消歧,保留符合语义的实例化表示; 若保留的实例化表示的数量为一个,则将所述实例化表示确定为优先度最高的实例化表不; 若保留的实例化表示的数量大于一个,则将认知频率最高的实例化表示确定为优先度最闻的实例化表不; 将所述优先度最高的实例化表示作为所述切词结果的语义表示。8.如权利要求1~7中任一所述的方法,其特征在于,该方法还包括: 将所述语句的切词结果与知识库中预设的词组组合关系进行匹配,若所述知识库中未匹配到所述切词结果中多个连续的切词词组的组合关系,则将所述多个连续的切词词组的组合确定为未登录词; 根据所述未登录词中各个切词词组的搭配限制关系,确定所述未登录词的词性; 记录所述未登录词被识别为该词性的频率和次数; 当所述频率和次数超过阈值时,将所述未登录词添加至知识库中。9.一种歧义消解的系统,其特征在于,该系统包括: 词性确定模块,用于确定...

【专利技术属性】
技术研发人员:李霞王勇进王峰
申请(专利权)人:海信集团有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1