一种建立关键词模型的方法及装置制造方法及图纸

技术编号:15724556 阅读:104 留言:0更新日期:2017-06-29 10:32
本发明专利技术公开了一种建立关键词模型的方法及装置,该方法包括通过获取语音文本数据和核心关键词,检索所述语音文本数据中所述核心关键词所在的文本语句,统计所述文本语句中设定范围内的词以及词的词频,对所述统计的词依据词的词频进行排序,将所述词频的排名大于排名阈值的词,确定辅助关键词,对所述核心关键词和所述辅助关键词进行逻辑关系组合,建立关键词模型。通过对核心关键词所在的文本语句中设定范围内的词的筛选,以及词的词频进行排序,可以获取辅助关键词,从而获取用于建立关键词模型的关键词,再将这些关键词进行逻辑组合,即可以建立关键词模型,提高了语义分析的效率和准确性。

【技术实现步骤摘要】
一种建立关键词模型的方法及装置
本专利技术涉及业务支撑
,尤其涉及一种建立关键词模型的方法及装置。
技术介绍
随着移动通信数据挖掘技术应用的越来越广泛,客服中心存储的大量录音数据成了数据挖掘的重要研究方向,目前客服中心的录音数据已经进行文本化,并可以进行基于关键词的语义分析。在进行基于关键词的语义分析时,需要先依赖人工经验确定关键词,再根据各关键词之间的逻辑关系,将关键词进行逻辑组合,形成语义分析模型。建立这种模型主要根据业务人员的经验进行的。
技术实现思路
本专利技术实施例提供一种建立关键词模型的方法及装置,用以解决现有技术中人工确定关键词的问题。本专利技术实施例提供的一种建立关键词模型的方法,包括:获取语音文本数据和核心关键词;检索所述语音文本数据中所述核心关键词所在的文本语句,统计所述文本语句中设定范围内的词以及词的词频,所述设定范围内的词是指在所述文本语句中,位于所述核心关键词前后设定范围内的词;对所述统计的词依据词的词频进行排序,将所述词频的排名大于排名阈值的词,确定辅助关键词;对所述核心关键词和所述辅助关键词进行逻辑关系组合,建立关键词模型。较佳地,在统计所述文本语句中设定范围内的词以及词的词频之后,还包括:根据所述核心关键词所在文本语句的标点符号,确定所述核心关键词所在文本语句所表述的语气,将所述核心关键词所在文本语句所表述的语气确定为所述关键词模型所表述的语气;或根据各所述核心关键词所在文本语句的标点符号,确定各所述核心关键词所在文本语句所表述的语气;针对每个所述核心关键词所在文本语句所表述的语气,根据所述核心关键词所在的文本语句所述表述的语气及其相邻的两个文本语句所述表述的语气,确定所述关键词模型所表述的语气。较佳地,所述将词频排名大于排名阈值的词,确定辅助关键词,包括:对所述统计的词进行领域分类,针对每个领域,将每个领域内词频排名大于排名阈值的词,确定为所述辅助关键词。较佳地,所述对所述核心关键词和所述辅助关键词进行逻辑关系组合,包括:将所述核心关键词和所述辅助关键词确定为模型关键词;对所述模型关键词进行领域分类,将不同类的所述模型关键词之间的逻辑关系确定为逻辑关系与;若同一类的所述模型关键词之间是同义词,则将所述同一类的所述模型关键词之间的逻辑关系确定为逻辑关系或;若同一类的所述模型关键词之间不是同义词,则将所述同一类的所述模型关键词之间的逻辑关系确定为逻辑关系非。较佳地,所述获取核心关键词,包括:获取根据语音文本数据的业务类型确定的核心关键词;或获取用户输入的核心关键词。相应地,本专利技术实施例提供了一种建立关键词模型的装置,包括:获取单元,用于获取语音文本数据和核心关键词;统计单元,用于检索所述语音文本数据中所述核心关键词所在的文本语句,统计所述文本语句中设定范围内的词以及词的词频,所述设定范围内的词是指在所述文本语句中,位于所述核心关键词前后设定范围内的词;确定单元,用于对所述统计的词依据词的词频进行排序,将所述词频的排名大于排名阈值的词,确定辅助关键词;建立单元,用于对所述核心关键词和所述辅助关键词进行逻辑关系组合,建立关键词模型。较佳地,所述统计单元还用于:根据所述核心关键词所在文本语句的标点符号,确定所述核心关键词所在文本语句所表述的语气,将所述核心关键词所在文本语句所表述的语气确定为所述关键词模型所表述的语气;或根据各所述核心关键词所在文本语句的标点符号,确定各所述核心关键词所在文本语句所表述的语气;针对每个所述核心关键词所在文本语句所表述的语气,根据所述核心关键词所在的文本语句所述表述的语气及其相邻的两个文本语句所述表述的语气,确定所述关键词模型所表述的语气。较佳地,所述确定单元具体用于:对所述统计的词进行领域分类,针对每个领域,将每个领域内词频排名大于排名阈值的词,确定为所述辅助关键词。较佳地,所述建立单元具体用于:将所述核心关键词和所述辅助关键词确定为模型关键词;对所述模型关键词进行领域分类,将不同类的所述模型关键词之间的逻辑关系确定为逻辑关系与;若同一类的所述模型关键词之间是同义词,则将所述同一类的所述模型关键词之间的逻辑关系确定为逻辑关系或;若同一类的所述模型关键词之间不是同义词,则将所述同一类的所述模型关键词之间的逻辑关系确定为逻辑关系非。较佳地,所述获取单元具体用于:获取根据语音文本数据的业务类型确定的核心关键词;或获取用户输入的核心关键词。本专利技术实施例表明,通过获取语音文本数据和核心关键词,检索所述语音文本数据中所述核心关键词所在的文本语句,统计所述文本语句中设定范围内的词以及词的词频,所述设定范围内的词是指在所述文本语句中,位于所述核心关键词前后的词,对所述统计的词依据词的词频进行排序,将所述词频的排名大于排名阈值的词,确定辅助关键词,对所述核心关键词和所述辅助关键词进行逻辑关系组合,建立关键词模型。通过对核心关键词所在的文本语句中设定范围内的词的筛选,以及词的词频进行排序,可以获取辅助关键词,从而获取用于建立关键词模型的关键词,再将这些关键词进行逻辑组合,即可以建立关键词模型,提高了语义分析的效率和准确性。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种建立关键词模型的方法的流程示意图;图2为本专利技术实施例提供的一种建立关键词模型的装置的结构示意图。具体实施方式为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。在本专利技术实施例中,语音文本数据是对语音进行识别后,文本化的数据,该数据可以进行语义分析。图1示出了本专利技术实施例提供的一种建立关键词模型的流程,该流程可以由建立关键词模型的装置执行,该装置可以位于语义分析系统中。如图1所示,该流程具体包括:步骤101,获取语音文本数据和核心关键词。步骤102,检索所述语音文本数据中所述核心关键词所在的文本语句,统计所述文本语句中设定范围内的词以及词的词频。步骤103,对所述统计的词依据词的词频进行排序,将所述词频的排名大于排名阈值的词,确定辅助关键词。步骤104,对所述核心关键词和所述辅助关键词进行逻辑关系组合,建立关键词模型。在步骤101中,核心关键词可以是获取的根据语言文本数据的业务类型确定的核心关键词,或者是获取用户输入的核心关键词。该语音文本数据是对音频该核心关键词可以用于确定业务的具体内容。如语言文本数据的内容是GPRS套餐投诉,需要建立GPRS套餐投诉分析的关键词模型,该核心关键词可以是“GPRS”、“投诉”。还可以通过接口获取用户输入的核心关键词,如“88套餐”、“手机终端”。在获取核心关键词时,也可以在已有核心关键词的基础上,对核心关键词进行扩展,可以是同义词或近义词。如,当确定核心关键词为“GPRS”之后,可以扩展核心关键词“上网”、“流量”等。在步骤102中本文档来自技高网...
一种建立关键词模型的方法及装置

【技术保护点】
一种建立关键词模型的方法,其特征在于,包括:获取语音文本数据和核心关键词;检索所述语音文本数据中所述核心关键词所在的文本语句,统计所述文本语句中设定范围内的词以及词的词频,所述设定范围内的词是指在所述文本语句中,位于所述核心关键词前后设定范围内的词;对所述统计的词依据词的词频进行排序,将所述词频的排名大于排名阈值的词,确定辅助关键词;对所述核心关键词和所述辅助关键词进行逻辑关系组合,建立关键词模型。

【技术特征摘要】
1.一种建立关键词模型的方法,其特征在于,包括:获取语音文本数据和核心关键词;检索所述语音文本数据中所述核心关键词所在的文本语句,统计所述文本语句中设定范围内的词以及词的词频,所述设定范围内的词是指在所述文本语句中,位于所述核心关键词前后设定范围内的词;对所述统计的词依据词的词频进行排序,将所述词频的排名大于排名阈值的词,确定辅助关键词;对所述核心关键词和所述辅助关键词进行逻辑关系组合,建立关键词模型。2.如权利要求1所述的方法,其特征在于,在统计所述文本语句中设定范围内的词以及词的词频之后,还包括:根据所述核心关键词所在文本语句的标点符号,确定所述核心关键词所在文本语句所表述的语气,将所述核心关键词所在文本语句所表述的语气确定为所述关键词模型所表述的语气;或根据各所述核心关键词所在文本语句的标点符号,确定各所述核心关键词所在文本语句所表述的语气;针对每个所述核心关键词所在文本语句所表述的语气,根据所述核心关键词所在的文本语句所表述的语气及其相邻的两个文本语句所表述的语气,确定所述关键词模型所表述的语气。3.如权利要求1所述的方法,其特征在于,所述将词频排名大于排名阈值的词,确定辅助关键词,包括:对所述统计的词进行领域分类,针对每个领域,将每个领域内词频排名大于排名阈值的词,确定为所述辅助关键词。4.如权利要求1所述的方法,其特征在于,所述对所述核心关键词和所述辅助关键词进行逻辑关系组合,包括:将所述核心关键词和所述辅助关键词确定为模型关键词;对所述模型关键词进行分类,将不同类的所述模型关键词之间的逻辑关系确定为逻辑关系与;若同一类的所述模型关键词之间是同义词,则将所述同一类的所述模型关键词之间的逻辑关系确定为逻辑关系或;若同一类的所述模型关键词之间不是同义词,则将所述同一类的所述模型关键词之间的逻辑关系确定为逻辑关系非。5.如权利要求1至4任一项所述的方法,其特征在于,所述获取核心关键词,包括:获取根据语音文本数据的业务类型确定的核心关键词...

【专利技术属性】
技术研发人员:邱志贤唐敏华孙佳伟顾伟束俞林嘉
申请(专利权)人:中国移动通信集团上海有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1