一种自适应的识别方法及系统技术方案

技术编号:14745690 阅读:55 留言:0更新日期:2017-03-01 22:00
本发明专利技术公开了一种自适应的识别方法及系统,该方法包括:根据用户历史语料构建用户个性化词典;对所述用户个性化词典中的个性化词进行聚类,得到每个个性化词所属类编号;根据所述个性化词所属类编号构建语言模型;在对用户输入的信息进行识别时,如果所述信息中的词存在于所述用户个性化词典中,则根据该词对应的个性化词所属类编号对解码路径进行扩展,得到扩展后的解码路径;根据扩展后的解码路径对所述信息进行解码,得到多个候选解码结果;根据所述语言模型计算各候选解码结果的语言模型得分;选取语言模型得分最高的候选解码结果作为所述信息的识别结果。利用本发明专利技术,可以提高用户个性化词的识别准确度,并降低系统开销。

【技术实现步骤摘要】

本专利技术涉及信息交互
,具体涉及一种自适应的识别方法及系统
技术介绍
随着自然语言理解技术的不断发展,用户与智能终端的交互变得越来越频繁,经常需要使用语音或拼音等方式向智能终端输入信息。智能终端对输入信息进行识别,并根据识别结果做出相应操作。一般情况下,当用户用语音输入一段常用语句时,如“今天的天气不错”,“我们一起去吃饭”等,智能终端系统基本都会给出正确的识别结果。然而当用户输入信息中包含用户特有信息时,智能终端系统往往不能给出正确的识别结果,用户特有信息一般指与用户相关的个性化词,如用户有个同事叫“章东梅”,周末要和她去“红杉假日酒店”出差,用户向智能终端系统用语音输入“我明天和章东梅一起去红杉假日酒店出差”,其中,章东梅与红杉假日酒店是属于用户的个性化词,现有的智能终端系统一般给出的识别结果如下:“我明天和张冬梅一起去红杉假日酒店出差”“我明天和张冬梅一起去红衫假日酒店出差”“我明天和张冬梅一起去洪山假日酒店出差”“我明天合唱冬梅一起去红杉假日酒店出差”除了上述结果外,甚至有些系统会给出差距更大的识别结果,使用户难以接受。目前,智能终端的识别系统一般是通过获取用户相关文档数据,为每个用户建立一个较小的语言模型,然后将这个较小的语言模型以插值的形式融合到通用语言模型中,利用通用语言模型对用户输入信息进行识别。然而由于获取到的用户相关文档中经常包含大量与用户无关的数据信息,如垃圾邮件,直接偏离用户个性化数据,导致根据用户相关文档获取到的有用用户数据较少,在用户语言模型训练时容易出现数据稀疏问题,从而使构建的用户语言模型可靠性较低。而且将所述用户语言模型融合到通用语言模型,往往会降低通用语言模型的识别准确度。此外,现有识别系统需要为每个用户构建一个语言模型,每个模型的维护需要消耗大量系统资源,当用户数量较多时,系统开销较大。
技术实现思路
本专利技术提供一种自适应的识别方法及系统,以提高用户个性化词的识别准确度,并降低系统开销。为此,本专利技术提供如下技术方案:一种自适应的识别方法,包括:根据用户历史语料构建用户个性化词典;对所述用户个性化词典中的个性化词进行聚类,得到每个个性化词所属类编号;根据所述个性化词所属类编号构建语言模型;在对用户输入的信息进行识别时,如果所述信息中的词存在于所述用户个性化词典中,则根据该词对应的个性化词所属类编号对解码路径进行扩展,得到扩展后的解码路径;根据扩展后的解码路径对所述信息进行解码,得到多个候选解码结果;根据所述语言模型计算各候选解码结果的语言模型得分;选取语言模型得分最高的候选解码结果作为所述信息的识别结果。优选地,所述根据用户历史语料构建用户个性化词典包括:获取用户历史语料,所述用户历史语料包括以下任意一种或多种:用户语音输入日志、用户文本输入日志、用户浏览文本信息;根据所述用户历史语料进行个性化词发现,得到个性化词;将所述个性化词添加到用户个性化词典中。优选地,所述个性化词包括:易错个性化词和天然个性化词;所述易错个性化词是指对用户输入信息进行识别时,经常出错的词;所述天然个性化词是指对用户输入信息进行识别时,可以通过用户的本地存储信息直接找到的词或根据该词扩展的词。优选地,所述对所述用户个性化词典中的个性化词进行聚类,得到每个个性化词所属类编号包括:确定所述个性化词的词向量及其左右邻接词的词向量;根据所述个性化词的词向量及其左右邻接词的词向量对所述个性化词的词向量进行聚类,得到每个个性化词所属类编号。优选地,所述确定所述个性化词及其左右邻接词的词向量包括:对所述用户历史语料进行分词;对分词得到的各词进行向量初始化,得到各词的初始词向量;利用神经网络对各词的初始词向量进行训练,得到各词的词向量;根据所有用户个性化词典得到所有个性化词,并根据所述个性化词所在用户历史语料,得到所述个性化词的左右邻接词;提取所述个性化词的词向量及其左右邻接词的词向量。优选地,所述根据所述个性化词及其左右邻接词的词向量对所述个性化词的词向量进行聚类,得到每个个性化词所属类编号包括:根据各个性化词的词向量、左右邻接词的词向量、以及词向量的TF_IDF值计算个性化词向量之间的距离;根据所述距离进行聚类,得到每个个性化词所属类编号。优选地,所述根据所述个性化词所属类编号构建语言模型包括:采集训练语料;将所述训练语料中的个性化词替换为所述个性化词所属类编号,得到替换后的语料;将采集的训练语料及替换后的语料作为训练数据,训练得到语言模型。优选地,所述方法还包括:如果所述识别结果中包含个性化词的类编号,则将该类编号替换为其对应的个性化词。优选地,所述方法还包括:对所述用户输入的信息进行个性化词发现,如果有新的个性化词,则将新的个性化词添加到所述用户的个性化词典中,以更新所述用户的个性化词典;如果有用户的个性化词典做了更新,则根据更新后的个性化词典,更新所述语言模型;或者定时根据用户历史语料对各用户个性化词典及所述语言模型进行更新。一种自适应的识别系统,包括:个性化词典构建模块,用于根据用户历史语料构建用户个性化词典;聚类模块,用于对所述用户个性化词典中的个性化词进行聚类,得到每个个性化词所属类编号;语言模型构建模块,用于根据所述个性化词所属类编号构建语言模型;解码路径扩展模块,用于在对用户输入的信息进行识别时,如果所述信息中的词存在于所述用户个性化词典中,则根据该词对应的个性化词所属类编号对解码路径进行扩展,得到扩展后的解码路径;解码模块,用于根据扩展后的解码路径对所述信息进行解码,得到多个候选解码结果;语言模型得分计算模块,用于根据所述语言模型计算各候选解码结果的语言模型得分;识别结果获取模块,用于选取语言模型得分最高的候选解码结果作为所述信息的识别结果。优选地,所述个性化词典构建模块包括:历史语料获取单元,用于获取用户历史语料,所述用户历史语料包括以下任意一种或多种:用户语音输入日志、用户文本输入日志、用户浏览文本信息;个性化词发现单元,用于根据所述用户历史语料进行个性化词发现,得到个性化词;个性化词典生成单元,用于将所述个性化词添加到用户个性化词典中。优选地,所述聚类模块包括:词向量训练单元,用于确定所述个性化词的词向量及其左右邻接词的词向量;词向量聚类单元,用于根据所述个性化词的词向量及其左右邻接词的词向量对所述个性化词的词向量进行聚类,得到每个个性化词所属类编号。优选地,所述词向量训练单元包括:分词子单元,对所述用户历史语料进行分词;初始化子单元,用于对分词得到的各词进行向量初始化,得到各词的初始词向量;训练子单元,用于利用神经网络对各词的初始词向量进行训练,得到各词的词向量;查找子单元,用于根据所有用户个性化词典得到所有个性化词,并根据所述个性化词所在用户历史语料,得到所述个性化词的左右邻接词;提取子单元,用于提取所述个性化词的词向量及其左右邻接词的词向量。优选地,所述词向量聚类单元包括:距离计算子单元,用于根据各个性化词的词向量、左右邻接词的词向量、以及词向量的TF_IDF值计算个性化词向量之间的距离;距离聚类子单元,用于根据所述距离进行聚类,得到每个个性化词所属类编号。优选地,所述语言模型构建模块包括:语料采集单元,用于采集训练语料;语本文档来自技高网
...
一种自适应的识别方法及系统

【技术保护点】
一种自适应的识别方法,其特征在于,包括:根据用户历史语料构建用户个性化词典;对所述用户个性化词典中的个性化词进行聚类,得到每个个性化词所属类编号;根据所述个性化词所属类编号构建语言模型;在对用户输入的信息进行识别时,如果所述信息中的词存在于所述用户个性化词典中,则根据该词对应的个性化词所属类编号对解码路径进行扩展,得到扩展后的解码路径;根据扩展后的解码路径对所述信息进行解码,得到多个候选解码结果;根据所述语言模型计算各候选解码结果的语言模型得分;选取语言模型得分最高的候选解码结果作为所述信息的识别结果。

【技术特征摘要】
1.一种自适应的识别方法,其特征在于,包括:根据用户历史语料构建用户个性化词典;对所述用户个性化词典中的个性化词进行聚类,得到每个个性化词所属类编号;根据所述个性化词所属类编号构建语言模型;在对用户输入的信息进行识别时,如果所述信息中的词存在于所述用户个性化词典中,则根据该词对应的个性化词所属类编号对解码路径进行扩展,得到扩展后的解码路径;根据扩展后的解码路径对所述信息进行解码,得到多个候选解码结果;根据所述语言模型计算各候选解码结果的语言模型得分;选取语言模型得分最高的候选解码结果作为所述信息的识别结果。2.根据权利要求1所述的方法,其特征在于,所述根据用户历史语料构建用户个性化词典包括:获取用户历史语料,所述用户历史语料包括以下任意一种或多种:用户语音输入日志、用户文本输入日志、用户浏览文本信息;根据所述用户历史语料进行个性化词发现,得到个性化词;将所述个性化词添加到用户个性化词典中。3.根据权利要求1所述的方法,其特征在于,所述个性化词包括:易错个性化词和天然个性化词;所述易错个性化词是指对用户输入信息进行识别时,经常出错的词;所述天然个性化词是指对用户输入信息进行识别时,可以通过用户的本地存储信息直接找到的词或根据该词扩展的词。4.根据权利要求1所述的方法,其特征在于,所述对所述用户个性化词典中的个性化词进行聚类,得到每个个性化词所属类编号包括:确定所述个性化词的词向量及其左右邻接词的词向量;根据所述个性化词的词向量及其左右邻接词的词向量对所述个性化词的词向量进行聚类,得到每个个性化词所属类编号。5.根据权利要求4所述的方法,其特征在于,所述确定所述个性化词
\t及其左右邻接词的词向量包括:对所述用户历史语料进行分词;对分词得到的各词进行向量初始化,得到各词的初始词向量;利用神经网络对各词的初始词向量进行训练,得到各词的词向量;根据所有用户个性化词典得到所有个性化词,并根据所述个性化词所在用户历史语料,得到所述个性化词的左右邻接词;提取所述个性化词的词向量及其左右邻接词的词向量。6.根据权利要求4所述的方法,其特征在于,所述根据所述个性化词及其左右邻接词的词向量对所述个性化词的词向量进行聚类,得到每个个性化词所属类编号包括:根据各个性化词的词向量、左右邻接词的词向量、以及词向量的TF_IDF值计算个性化词向量之间的距离;根据所述距离进行聚类,得到每个个性化词所属类编号。7.根据权利要求1至6任一项所述的方法,其特征在于,所述根据所述个性化词所属类编号构建语言模型包括:采集训练语料;将所述训练语料中的个性化词替换为所述个性化词所属类编号,得到替换后的语料;将采集的训练语料及替换后的语料作为训练数据,训练得到语言模型。8.根据权利要求1所述的方法,其特征在于,所述方法还包括:如果所述识别结果中包含个性化词的类编号,则将该类编号替换为其对应的个性化词。9.根据权利要求1所述的方法,其特征在于,所述方法还包括:对所述用户输入的信息进行个性化词发现,如果有新的个性化词,则将新的个性化词添加到所述用户的个性化词典中,以更新所...

【专利技术属性】
技术研发人员:丁克玉余健王影胡国平胡郁刘庆峰
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1