通配符类模板泛化方法和装置、通用模板泛化方法和系统制造方法及图纸

技术编号:8883139 阅读:273 留言:0更新日期:2013-07-04 02:01
本发明专利技术提供了一种通配符类模板泛化方法和装置、通用模板泛化方法和系统,其中通配符类模板泛化方法包括:对模板泛化所采用语料中的各文本对象分别执行:对当前文本对象进行分词处理;利用分词结果中相邻词项粘接成一个词项的所有可能的组合,确定各粘接结果,该粘接结果中包含所述分词结果;分别针对各粘接结果,将粘接结果中所有进行粘接的相邻词项的粘接概率以及保持拆分的相邻词项的拆分概率相乘得到粘接结果的概率;基于概率最大的粘接结果确定通配符槽和固定词语,得到当前文本对象的通配符类模板。通过本发明专利技术能够提高泛化得到的模板的召回率和识别准确性。

【技术实现步骤摘要】
通配符类模板泛化方法和装置、通用模板泛化方法和系统
本专利技术涉及计算机
,特别涉及一种通配符类模板泛化方法和装置、通用模板泛化方法和系统。
技术介绍
所谓模板泛化指的是从大量的文本对象中抽象出相似的模板,并用该模板反应一类文本对象的表述方式的过程。模板泛化在搜索需求识别、网页类型识别以及主题识别等技术中都是十分重要的组成部分,例如在搜索需求识别中,利用大量具有某类需求的搜索项(query)进行模板泛化,从而利用泛化得到的模板进行该类需求的query识别。其中模板可以包含通配符槽、词典槽、函数槽以及固定词语中的至少一种构成,例如模板“ 剧照”,其中,和属于词典槽,分别表示可匹配明星名和电视剧名,为通配符槽,表示可匹配长度为O至6的任意词语,“剧照”是固定词语,为函数槽,表示可匹配识别为数字的词语。 基于上述模板的构成,模板泛化的方式可以包括:词典类泛化、函数类泛化以及通配符类泛化。其中通配符类泛化时将query的修饰限定词泛化为通配符槽,保留主干词,得到带有通配符槽的模板。通配符类泛化过程中首先分别针对各文本对象进行分词处理,然后基于分词处理后得到的各词项的概率确定通配符槽和固定词语。然而在现有的通配符类泛化过程中存在如下问题:在分词处理过程可能将某些应该是一个词项的切分为多个词项,例如对于“百度公司招聘”这一文本对象,如果分词处理过程所使用的词典中不存在“百度”和“百度公司”这两个词语,则可能被切分为“百/度/公司/招聘”,其中“/”用于标识切分位置,在本专利技术的后续实施例中均采用这种标识方式。基于该分词结果的通配符类泛化显然不能得到准确的模板,例如可能得到度公司招聘,这就大大降低了模板的召回率和识别准确性。
技术实现思路
本专利技术提供了一种通配符类模板泛化方法和装置、通用模板泛化方法和系统,以便于提高泛化得到的模板的召回率和识别准确性。具体技术方案如下:—种通配符类模板泛化方法,对模板泛化所采用语料中的各文本对象分别执行以下步骤:S11、对当前文本对象进行分词处理;S12、利用分词结果中相邻词项粘接成一个词项的所有可能的组合,确定各粘接结果,该粘接结果中包含所述分词结果;S13、分别针对各粘接结果,将粘接结果中所有进行粘接的相邻词项的粘接概率以及保持拆分的相邻词项的拆分概率相乘得到粘接结果的概率;S14、基于概率最大的粘接结果确定通配符槽和固定词语,得到当前文本对象的通配符类模板。根据本专利技术一优选实施例,在所述步骤S12中参与粘接的相邻词项为:字与字之间,和/或,字与词之间。根据本专利技术一优选实施例,在所述步骤S13中,如果相邻词项分别为A和B,则A和B的粘接概率P (A+B)和拆分概率P' (A-B)分别为:P(A+B) = P(A|B) XP' (B|A)P(A-B) = (1-P(AlB))Xd-Pi (B | A))其中,P(A|B)为A出现在B前面的次数与B出现且B之前有词项的次数的比值,P' (B|A)为A出现在B前面的次数与A出现且A之后有词项的次数的比值。根据本专利技术一优选实施例,所述步骤S14具体为:将所述概率最大的粘接结果中,词频tf-逆向文档频率idf值小于预设阈值的词项,或者tf-1df值小于预设阈值且排在后N个的词项替换为通配符槽,其余词项作为固定词语,所述通配符槽指示的通配符长度为被替换词项的长度,所述N为预设的正整数。根据本专利技术一优选实施例,该方法还包括:对所述语料中的各文本对象的通配符类模板进行整合,具体为:将仅通配符槽指示通配符长度不同的通配符类模板整合为一个模板,整合后的模板中通配符槽指示的通配符长度为被整合通配符类模板中指示的最大通配符长度。一种通用模板泛化方法,该方法包括上述的通配符类模板泛化方法,以及,S2、对模板泛化所采用语料中的各文本对象进行词典类模板泛化,得到各文本对象的词典类模板;和/或,对模板泛化所采用语料中的各文本对象进行函数类模板泛化,得到各文本对象的函数类模板;S4、对同一文本对象得到的各模板进行合并处理。根据本专利技术一优选实施例,在所述步骤S4中采用以下策略中的至少一种进行所述合并处理:策略一、如果同一个文本对象泛化出的模板中,同一个词项被泛化成多种类型的槽,则按照预设的槽类型优先级顺序保留其中一种类型的槽;策略二、如果同一个文本对象泛化出的模板中,词典槽包含通配符槽或函数槽,则保留词典槽;策略三、如果同一个文本对象泛化出的模板中各槽均没有相互覆盖,则在合并结果中保留所有槽。根据本专利技术一优选实施例,在所述步骤S4之后还包括:S5、合并重复的模板;S6、统计各模板所来源的文本对象数量,选择所来源的文本对象数量满足预设要求的模板作为最终的泛化结果;其中所述预设要求为:所来源的文本对象数量排在前M个,M为预设的正整数,或者,所来源的文本对象数量大于预设的数量阈值。一种通配符类模板泛化装置,该装置包括:分词处理单元,用于分别获取模板泛化所采用语料中的各文本对象,对获取的当前文本对象进行分词处理;粘接处理单元,用于利用分词结果中相邻词项粘接成一个词项的所有可能的组合,确定各粘接结果,该粘接结果中包含所述分词结果;概率计算单元,用于分别针对各粘接结果,将粘接结果中所有进行粘接的相邻词项的粘接概率以及保持拆分的相邻词项的拆分概率相乘得到粘接结果的概率;模板产生单元,用于基于概率最大的粘接结果确定通配符槽和固定词语,得到所述当前文本对象的通配符类模板。根据本专利技术一优选实施例,所述粘接处理单元在确定粘接结果时,参与粘接的相邻词项为:字与字之间,和/或,字与词之间。根据本专利技术一优选实施例,如果相邻词项分别为A和B,则所述概率计算单元采用以下公式计算A和B的粘接概率P (A+B)和拆分概率P/ (A-B):P (A+B) = P (AI B) X P' (B | A)P(A-B) = (1-P(AlB))XQ-P' (B | A))其中,P(A|B)为A出现在B前面的次数与B出现且B之前有词项的次数的比值,P' (B|A)为A出现在B前面的次数与A出现且A之后有词项的次数的比值。根据本专利技术一优选实施例,所述模板产生单元具体将所述概率最大的粘接结果中,词频tf_逆向文档频率idf值小于预设阈值的词项,或者tf-1df值小于预设阈值且排在后N个的词项替换为通配符槽,其余词项作为固定词语,所述通配符槽指示的通配符长度为被替换词项的长度,所述N为预设的正整数。根据本专利技术一优选实施例,该装置还包括:模板整合单元,用于对所述语料中的各文本对象的通配符类模板进行整合,具体为:将仅通配符槽指示通配符长度不同的通配符类模板整合为一个模板,整合后的模板中通配符槽指示的通配符长度为被整合通配符类模板中指示的最大通配符长度。一种通用模板泛化系统,该系统包括:上述的通配符类模板泛化装置,以及,词典类模板泛化装置,用于对模板泛化所采用语料中的各文本对象进行词典类模板泛化,得到各文本对象的词典类模板;函数类模板泛化装置,用于对模板泛化所采用语料中的各文本对象进行函数类模板泛化,得到各文本对象的函数类模板;模板合并单元,用于对同一文本对象得到的各模板进行合并处理。根据本专利技术一优选实施例,所述模板合并单元采用以下策略中的至少一种进行所述合并处理:策略一、如果同一个文本对象泛化出的模板中,同一本文档来自技高网
...

【技术保护点】
一种通配符类模板泛化方法,其特征在于,对模板泛化所采用语料中的各文本对象分别执行以下步骤:S11、对当前文本对象进行分词处理;S12、利用分词结果中相邻词项粘接成一个词项的所有可能的组合,确定各粘接结果,该粘接结果中包含所述分词结果;S13、分别针对各粘接结果,将粘接结果中所有进行粘接的相邻词项的粘接概率以及保持拆分的相邻词项的拆分概率相乘得到粘接结果的概率;S14、基于概率最大的粘接结果确定通配符槽和固定词语,得到当前文本对象的通配符类模板。

【技术特征摘要】

【专利技术属性】
技术研发人员:黄际洲钟华
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1