数据改写方法、装置、存储介质及计算机设备制造方法及图纸

技术编号:33130744 阅读:13 留言:0更新日期:2022-04-17 00:47
本申请公开一种数据改写方法、装置、存储介质及计算机设备。该方法包括:基于历史时间段内的用户交互行为数据,挖掘改写数据,以根据改写数据构建改写数据库,改写数据包括历史时间段内的所有的改写组合对,每一改写组合对包括一个错误话语和一个正确话语;基于历史时间段内每天产生的日志数据,增量更新改写数据库,以纠正改写数据库中交互失败的数据;基于改写数据库构建改写引擎,改写引擎用于将待测文本中的错误话语进行改写,可以实现基于用户交互行为的数据改写,对于识别错误或者说法泛化的话语,可以显著提升语义理解正确率,提升交互成功率。交互成功率。交互成功率。

【技术实现步骤摘要】
数据改写方法、装置、存储介质及计算机设备


[0001]本申请涉及计算机
,具体涉及一种数据改写方法、装置、存储介质及计算机设备。

技术介绍

[0002]随着语音技术和自然语言处理技术不断发展,语音交互需求在工作生活中越来越扮演重要角色。当前主流的语音交互系统一般分为语音识别模块、语义理解模块以及语音合成模块。语义理解是语音交互过程中的关键技术,旨在理解用户的需求,并给出正确的反馈。目前的语义理解系统一般包括抽槽模型和意图识别模型,抽槽模型从用户的话语(utterance)中准确地抽取实体,意图识别模型需要准确地识别出用户的意图。由于语音识别的错误或者用户对于开放性实体的泛化性说法,导致语义理解处理这类错误的utterance较困难,并且导致语义交互的失败。

技术实现思路

[0003]本申请实施例提供一种数据改写方法、装置、存储介质及计算机设备,可以实现基于用户交互行为的数据改写,对于识别错误或者说法泛化的话语,可以显著提升语义理解正确率,提升交互成功率。
[0004]一方面,提供一种数据改写方法,所述方法包括:基于历史时间段内的用户交互行为数据,挖掘改写数据,以根据所述改写数据构建改写数据库,所述改写数据包括所述历史时间段内的所有的改写组合对,每一所述改写组合对包括一个错误话语和一个正确话语;基于所述历史时间段内每天产生的日志数据,增量更新所述改写数据库,以纠正所述改写数据库中交互失败的数据;基于所述改写数据库构建改写引擎,所述改写引擎用于将待测文本中的错误话语进行改写。
[0005]可选的,所述基于历史时间段内的用户交互行为数据,挖掘改写数据,以根据所述改写数据构建改写数据库,包括:
[0006]获取历史时间段内的用户交互行为数据,通过解析所述用户交互行为数据构建训练数据;
[0007]利用所述训练数据和吸收马尔可夫模型对用户交互行为进行建模,以挖掘交互失败的错误话语对应的正确话语,得到所述改写数据,以根据所述改写数据构建改写数据库。
[0008]可选的,所述获取历史时间段内的用户交互行为数据,通过解析所述用户交互行为数据构建训练数据,包括:
[0009]获取所述历史时间段内的用户交互行为数据;
[0010]获取所述历史时间段内的日志数据,并根据所述日志数据解析每一条所述用户交互行为数据的时间戳、当前系统的语义理解结果以及用户的行为反馈;
[0011]根据预设时间间隔,将所述用户交互行为数据中的每个用户的所有交互行为切分成多轮会话,其中每一轮所述会话包含一条或多条话语;
[0012]根据信源搜索结果或者所述用户的行为反馈,对每一轮所述会话添加吸收状态,所述吸收状态包括交互成功或者交互失败的状态,将具有所述吸收状态的每一轮所述会话确定为一条训练数据。
[0013]可选的,所述利用所述训练数据和吸收马尔可夫模型对用户交互行为进行建模,以挖掘交互失败的错误话语对应的正确话语,得到所述改写数据,包括:
[0014]利用所述训练数据训练所述吸收马尔可夫模型的参数,以得到话语空间到语义空间的转移概率矩阵、语义空间之间的转移矩阵、以及语义空间到话语空间的转移矩阵;
[0015]对于所述吸收状态为交互失败的训练数据中的错误话语,计算所述错误话语对应的语义空间之间的转移矩阵;
[0016]根据所述错误话语对应的语义空间之间的转移矩阵,确定所述改写数据。
[0017]可选的,所述对于所述吸收状态为交互失败的训练数据中的错误话语,计算所述错误话语对应的语义空间之间的转移矩阵,包括:
[0018]根据所述训练数据的实际语义信息,确定所有训练数据的每一轮会话对应的语义空间中由任一语义空间元素转移到第i个语义空间元素的共现次数;
[0019]根据所述共现次数,计算第i个语义空间元素与所有语义空间之间的共现总次数;
[0020]根据所述共现总次数,确定第i个语义空间元素转移到第j个语义空间元素的概率,以及第i个语义空间元素转移到目标语义空间元素的概率,以得到所述错误话语对应的语义空间之间的转移矩阵,所述目标语义空间元素为第i个语义空间元素能交互成功的语义空间元素。
[0021]可选的,所述根据所述共现总次数,确定第i个语义空间元素转移到第j个语义空间元素的概率,以及第i个语义空间元素转移到目标语义空间元素的概率,包括:
[0022]根据所述训练数据的实际语义信息,确定第i个语义空间元素转移到第j个语义空间元素的共现次数;
[0023]根据所述训练数据的实际语义信息,确定第i个语义空间元素转移到目标语义空间元素的共现次数;
[0024]根据第i个语义空间元素转移到第j个语义空间元素的共现次数,以及所述共现总次数,确定第i个语义空间元素转移到第j个语义空间元素的概率;
[0025]根据第i个语义空间元素转移到目标语义空间元素的共现次数,以及所述共现总次数,确定第i个语义空间元素转移到目标语义空间元素的概率。
[0026]可选的,所述根据所述错误话语对应的语义空间之间的转移矩阵,确定所述改写数据,包括:
[0027]根据改写对象对应的语义空间元素经过1步转移到目标语义空间元素的概率,以及所述错误话语对应的语义空间元素经过s步转移到改写对象对应的语义空间元素的概率,确定所述错误话语对应的语义空间元素经过k步转移到目标语义空间元素的概率;
[0028]根据所述错误话语对应的语义空间元素经过k步转移到目标语义空间元素的概率,确定所述改写数据。
[0029]可选的,所述方法还包括:对所述改写数据进行过滤处理。
[0030]可选的,所述方法还包括:
[0031]对待测语音进行识别,得到待测文本;
[0032]根据所述改写引擎,查询与所述待测文本对应的改写文本;
[0033]将所述改写文本输入语义理解模块中,得到所述改写文本的预测语义信息,以基于所述预测语义信息进行人机交互。
[0034]另一方面,提供一种数据改写装置,所述装置包括:
[0035]挖掘单元,用于基于历史时间段内的用户交互行为数据,挖掘改写数据,以根据所述改写数据构建改写数据库,所述改写数据包括所述历史时间段内的所有的改写组合对,每一所述改写组合对包括一个错误话语和一个正确话语;
[0036]更新单元,用于基于所述历史时间段内每天产生的日志数据,增量更新所述改写数据库,以纠正所述改写数据库中交互失败的数据;
[0037]构建单元,用于基于所述改写数据库构建改写引擎,所述改写引擎用于将待测文本中的错误话语进行改写。
[0038]另一方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序适于处理器进行加载,以执行如上任一实施例所述的数据改写方法中的步骤。
[0039]另一方面,提供一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器通过调用所述存储器中存储的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据改写方法,其特征在于,所述方法包括:基于历史时间段内的用户交互行为数据,挖掘改写数据,以根据所述改写数据构建改写数据库,所述改写数据包括所述历史时间段内的所有的改写组合对,每一所述改写组合对包括一个错误话语和一个正确话语;基于所述历史时间段内每天产生的日志数据,增量更新所述改写数据库,以纠正所述改写数据库中交互失败的数据;基于所述改写数据库构建改写引擎,所述改写引擎用于将待测文本中的错误话语进行改写。2.如权利要求1所述的数据改写方法,其特征在于,所述基于历史时间段内的用户交互行为数据,挖掘改写数据,以根据所述改写数据构建改写数据库,包括:获取历史时间段内的用户交互行为数据,通过解析所述用户交互行为数据构建训练数据;利用所述训练数据和吸收马尔可夫模型对用户交互行为进行建模,以挖掘交互失败的错误话语对应的正确话语,得到所述改写数据,以根据所述改写数据构建改写数据库。3.如权利要求2所述的数据改写方法,其特征在于,所述获取历史时间段内的用户交互行为数据,通过解析所述用户交互行为数据构建训练数据,包括:获取所述历史时间段内的用户交互行为数据;获取所述历史时间段内的日志数据,并根据所述日志数据解析每一条所述用户交互行为数据的时间戳、当前系统的语义理解结果以及用户的行为反馈;根据预设时间间隔,将所述用户交互行为数据中的每个用户的所有交互行为切分成多轮会话,其中每一轮所述会话包含一条或多条话语;根据信源搜索结果或者所述用户的行为反馈,对每一轮所述会话添加吸收状态,所述吸收状态包括交互成功或者交互失败的状态,将具有所述吸收状态的每一轮所述会话确定为一条训练数据。4.如权利要求1

3任一项所述的数据改写方法,其特征在于,所述利用所述训练数据和吸收马尔可夫模型对用户交互行为进行建模,以挖掘交互失败的错误话语对应的正确话语,得到所述改写数据,包括:利用所述训练数据训练所述吸收马尔可夫模型的参数,以得到话语空间到语义空间的转移概率矩阵、语义空间之间的转移矩阵、以及语义空间到话语空间的转移矩阵;对于所述吸收状态为交互失败的训练数据中的错误话语,计算所述错误话语对应的语义空间之间的转移矩阵;根据所述错误话语对应的语义空间之间的转移矩阵,确定所述改写数据。5.如权利要求4所述的数据改写方法,其特征在于,所述对于所述吸收状态为交互失败的训练数据中的错误话语,计算所述错误话语对应的语义空间之间的转移矩阵,包括:根据所述训练数据的实际语义信息,确定所有训练数据的每一轮会话对应的语义空间中由任一语义空间元素转移到第i个语义空间元素的共现次数;根据所述共现次数,计算第i个语义空间元素与所有语义空间之间的共现总次数;根据所述共现总次数,确定第i个语义空间元素转移到第j个语义空间元素的概率,以及第i个语义空间元素转移到目标语义空间元素的概率,以得到所述错误话语对应的语义

【专利技术属性】
技术研发人员:王涛刘权陈志刚
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1