一种基于深度学习来实现语音导航机器人的方法技术

技术编号:27203111 阅读:14 留言:0更新日期:2021-01-31 12:18
本发明专利技术提供一种基于深度学习来实现语音导航机器人的方法,方法包括步骤:获取用户通话文本数据;将用户通话文本输入到训练好的基于深度学习的导航队列分类模型进行预测识别,获取输出的导航队列预测结果;根据获取的导航队列预测结果将用户转接到相应的人工队列进行处理。本发明专利技术提供的方法能够对大量文本数据针对性进行训练,可以快速获取良好的效果。后期遇到新知识时,可以加强训练使其模型适应文本数据中存在的新知识,从而可以大幅度改善人力成本和提高时间成本。力成本和提高时间成本。力成本和提高时间成本。

【技术实现步骤摘要】
一种基于深度学习来实现语音导航机器人的方法


[0001]本专利技术涉及电信通讯领域、深度学习领域、自然语言领域,特别是涉及一种基于深度学习对运营商文本实现导航机器人的方法。

技术介绍

[0002]目前语音导航机器人使用语音交互方式来识别用户意图,然后机器人自动判断用户情况后对接相关人工队列进行处理。这个过程中需要机器人自动去识别用户话语信息然后转接相关队列的过程。利用传统规则方式可以得到较好的结果,但是背后需要大量人工去标注关键词,并且后期维护关键词词库。但是由于每天有2、3万用户使用语音导航机器人情况下,非结构化文本内容变得复杂化,这需要大量人工逐条标注并建立关键词词库的话,这将会需要耗费大量的人力资源,还需要大量的时间成本。

技术实现思路

[0003]针对语音导航机器人中产生的文本如果使用大量人力去标注来搭建关键词库,然后利用关键词库进行快速索引的方式可以匹配到正确导航队列中。但是会消耗大量人力和时间的技术问题,本专利技术旨在提供一种高效率、自动化,准确性高的基于深度学习来实现语音导航机器人的方法。
[0004]本专利技术的目的采用以下技术方案来实现:
[0005]本专利技术示出一种基于深度学习来实现语音导航机器人的方法,方法包括步骤:
[0006]S20获取用户通话文本数据;
[0007]S30将用户通话文本输入到训练好的基于深度学习的导航队列分类模型进行预测识别,获取输出的导航队列预测结果;
[0008]S40根据获取的导航队列预测结果将用户转接到相应的人工队列进行处理。
[0009]一种实施方式中,该方法还包括:
[0010]S10训练基于深度学习的导航队列分类模型,包括如下步骤:
[0011]S11获取训练通话录音文本数据组成训练语料,对训练通话录音文本数据进行预处理,获取规范化的训练语料,其中训练通话录音文本数据包括通话录音文本和对应的导航队列标签;
[0012]S12对规范化的训练语料进行特征工程,获取训练语料的特征向量;
[0013]S13将训练语料的特征向量输入到导航队列分类模型进行基于深度学习的模型训练,获取训练好的基于深度学习的导航队列分类模型。
[0014]一种实施方式中,步骤S11中,对训练通话录音文本数据进行预处理,包括如下步骤:
[0015]过滤短语:过滤训练通话录音文本中句子长度低于阈值的句子;
[0016]文本分词:加载专用的词库和分词提取工具对训练通话录音文本进行分词处理,输出分词文本;
[0017]停用词处理:加载停用词表,并根据停用词表过滤分词文本中存在的停用词;
[0018]数据均衡处理:统计训练语料中对应每个导航队列标签的各通话录音文本数据量,判断各导航队列是否均衡:如果每个导航队列对应的通话录音文本的数据量保持在平均值的5%内,即不进行处理;否则则对训练语料进行向下采样处理,使训练语料中的数据对应各导航队列保持均衡状态。
[0019]一种实施方式中,步骤S12中对训练语料进行特征工程,包括如下步骤:
[0020]构建语料字典:将分词后的训练语料读入内存,通过计算每个单词在文档中出现的词频,过滤掉词频小于最低阈值或高于最高阈值的单词,然后对剩余、不重复的单词映射成索引表示,构建词汇-索引映射表;
[0021]构建队列标签字典:对训练语料的导航队列标签进行去重处理,然后将去重后的导航队列标签映射成索引表,构建标签-索引映射表;
[0022]构建词向量:将word2vec词向量模型导入内存中,获取词汇-索引映射表相对应的词向量,作为模型的初始值;
[0023]文本序列化:通过词汇-索引映射表把每个文档单词数值化;
[0024]队列序列化:通过标签-索引映射表把每个文档标签数值化;
[0025]一种实施方式中,导航队列分类模型为基于TEXTRNN实现导航队列分类模型。
[0026]本专利技术的有益效果为:本专利技术提供的方法能够对大量文本数据针对性进行训练,可以快速获取良好的效果。后期遇到新知识时,可以加强训练使其模型适应文本数据中存在的新知识,从而可以大幅度改善人力成本和提高时间成本。
[0027]从传统的规则性模型到现在的深度学习模型,技术的迭代更新可以改善前期标注和后期维护的人力成本,且能进一步提升识别准确性。通过对已有标签数据情况下做数据预处理完成训练语料制作;通过特征提取以及深度学习对训练语料进行建模,最后对通话录音转写文本进行非结构化的文本识别,以此降低人工标注数据、整合知识库的压力,从而节省人力。
附图说明
[0028]利用附图对本专利技术作进一步说明,但附图中的实施例不构成对本专利技术的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。
[0029]图1为本专利技术方法的流程示意图;
[0030]图2为本专利技术在一种实施方式中方法的流程结构示意图。
具体实施方式
[0031]结合以下应用场景对本专利技术作进一步描述。
[0032]参见图1,其示出一种基于深度学习来实现语音导航机器人的方法,包括:
[0033]获取训练语料:获取训练通话录音文本数据组成训练语料,其中训练通话录音文本数据包括通话录音文本和对应的导航队列标签。
[0034]数据预处理:对训练通话录音文本数据进行预处理,获取规范化的训练语料。
[0035]可选的,获取通话录音文本后,对文本进行预处理,从而完成训练语料的规范化。
[0036]可选的,对训练通话录音文本数据进行预处理,包括如下步骤:
[0037]1)过滤短语:过滤训练通话录音文本中句子长度低于阈值的句子。
[0038]2)文本分词:加载专用的词库和分词提取工具对训练通话录音文本进行分词处理,输出分词文本;可选的,加载专用词字典后放入jieba工具,然后采用jieba工具对通话文本进行分词。例如:传入进去字符串形式的句子,分词后返回有词语组合成的列表。
[0039]3)停用词处理:加载停用词表,并根据停用词表过滤分词文本中存在的停用词。
[0040]4)数据均衡处理:统计训练语料中对应每个导航队列标签的各通话录音文本数据量,判断各导航队列是否均衡:如果每个导航队列对应的通话录音文本的数据量保持在平均值的5%内,即不进行处理;否则,对训练语料进行向下采样处理,使训练语料中的数据对应各导航队列保持均衡状态。
[0041]特征工程:对规范化的训练语料进行特征工程,获取训练语料的特征向量。
[0042]可选的,对训练语料进行特征工程,包括如下步骤:
[0043]1)构建语料字典:将分词后的训练语料读入内存,通过计算每个单词在文档中出现的词频,过滤掉词频小于最低阈值或高于最高阈值的单词,然后对剩余、不重复的单词映射成索引表示,构建词汇-索引映射表。
[0044]2)构建队列标签字典:对训练语料的导航队列标签进行去重处理,然后本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习来实现语音导航机器人的方法,其特征在于,所述方法包括步骤:S20获取用户通话文本数据;S30将用户通话文本输入到训练好的基于深度学习的导航队列分类模型进行预测识别,获取输出的导航队列预测结果;S40根据获取的导航队列预测结果将用户转接到相应的人工队列进行处理。2.根据权利要求1所述的一种基于深度学习来实现语音导航机器人的方法,其特征在于,所述方法还包括:S10训练基于深度学习的导航队列分类模型,包括如下步骤:S11获取训练通话录音文本数据组成训练语料,对训练通话录音文本数据进行预处理,获取规范化的训练语料,其中所述训练通话录音文本数据包括通话录音文本和对应的导航队列标签;S12对规范化的训练语料进行特征工程,获取训练语料的特征向量;S13将训练语料的特征向量输入到导航队列分类模型进行基于深度学习的模型训练,获取所述训练好的基于深度学习的导航队列分类模型。3.根据权利要求2所述的一种基于深度学习来实现语音导航机器人的方法,其特征在于,所述步骤S11中,对训练通话录音文本数据进行预处理,包括如下步骤:过滤短语:过滤训练通话录音文本中句子长度低于阈值的句子;文本分词:加载专用的词库和分词提取工具对训练通话录音文本进行分词处理,输出分词文本;停用词处理:加载停用词表,并根据所述停用词表过滤分词文本中存在的停用词;数据均衡处理:统计训练语料中对应每个导航队列标签的各通话录音文本数据量,判断各导航队列是否均衡:如果每个导航队列对应的通话录音文本的数据量保持在平均值的5%内,即不进行处理;否则对训练语料进行向下采样处理,使训练语料中的数据对应各导航队列保持均衡状态。4.根据权利要求3所述的一种基于深度学习来实现语音导航机器人的方法,其特征在于,所述步骤S12中对训练语料进行特征工程,包括如下步骤:构建语料字典:将分词后的训练语料读入内存,通过计算每个单词在文档中出现的词频,过滤掉词频小于最低阈值或高于最高阈值的单词,然后对剩余、不重复的单词映射成索引表示,构建词汇-索引映射表;构建队列标签字典:对训练语料的导航队列标签进行去重处理,然后将去重后的导航队列标签映射成索引表,构建标签-索引映射表;构建词向量:将word2vec词向量模型导入内存中,获取词汇-索引映射表相对应的词向量,作为模型的初始值;文本序列化:通过词汇-索引映射表把每个文档单词数值化;队列序列化:通过标签-索引映射表...

【专利技术属性】
技术研发人员:黄诗雅罗睦军邓从健
申请(专利权)人:广州云趣信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1