一种语音文本分类模型的更新系统及方法技术方案

技术编号:36703431 阅读:18 留言:0更新日期:2023-03-01 09:22
本申请涉及一种语音文本分类模型的更新系统及方法,所述语音文本分类模型的更新系统包括:模型装置、日志装置和数据装置。日志装置,用于对用户语音进行语义识别,获得日志数据,并将与分类结果不一致的所述日志数据确定为筛选数据;数据装置,当所述筛选数据大于或者等于数据量阈值时,所述数据装置将所述筛选数据中的实体名称进行替换和标注,所述数据装置获得训练数据,且所述数据装置根据训练数据的长度以及实体名称的数量,对所述训练数据进行聚类,获得用于更新词汇分类模块的第一数据、用于更新句式分类模块的第二数据、用于更新语句分类模块的第三数据。新语句分类模块的第三数据。新语句分类模块的第三数据。

【技术实现步骤摘要】
一种语音文本分类模型的更新系统及方法


[0001]本申请涉及自然语言处理
,特别是涉及一种语音文本分类模型的更新系统及方法。

技术介绍

[0002]随着神经网络技术以及计算机算力的提高,使得人工智能产业得到长足的发展,可通过部署分类模型来完成语音文本的分类,现已应用到各个领域,例如,车机交互、智能客服、信息分推等等。为确保分类模型的性能可靠,在上线之后,需要不断更新才能满足场景需求,在此过程,需要开发人员、运营人员、测试人员根据测试结果进行反馈,并根据反馈结果进行模型更新,进而造成模型更新的滞后,不仅难以覆盖真实的场景需求以及确保及时性,而且测试结果的主观性较大,难以保证准确性。

技术实现思路

[0003]基于此,提供一种语音文本分类模型的更新系统及方法,改善模型更新滞后的问题。
[0004]一方面,提供一种语音文本分类模型的更新系统,包括:
[0005]模型装置,包括:词汇分类模块、句式分类模块以及语句分类模块;
[0006]词汇分类模块,所述词汇分类模块包括用于分类的词典,通过所述词典对待处理的语音文本信息进行分类处理,获得第一分类结果和第一输出结果,所述词汇分类模块的第一输出端用于输出所述第一分类结果,所述词汇分类模块的第二输出端用于输出所述第一输出结果;
[0007]句式分类模块,所述句式分类模块包括用于计算向量相似度的向量空间单元,所述向量空间单元对所述第一输出结果进行分类处理,获得第二分类结果和第二输出结果,所述句式分类模块的第一输出端用于输出所述第二分类结果,所述句式分类模块的第二输出端用于输出所述第二输出结果;
[0008]语句分类模块,所述语句分类模块包括用于语句分类的神经网络单元,所述神经网络单元对所述第二输出结果进行分类处理,获得第三分类结果并由所述语句分类模块的输出端输出;
[0009]日志装置,用于对用户语音进行语义识别,获得日志数据,并将与分类结果不一致的所述日志数据确定为筛选数据,其中,所述分类结果包括第一分类结果、第二分类结果和第三分类结果;
[0010]数据装置,当所述筛选数据大于或者等于数据量阈值时,所述数据装置将所述筛选数据中的实体名称进行替换和标注,所述数据装置获得训练数据,且所述数据装置根据训练数据的长度以及实体名称的数量,对所述训练数据进行聚类,获得用于更新词汇分类模块的第一数据并通过所述数据装置的第一输出端输出、用于更新句式分类模块的第二数据并通过所述数据装置的第二输出端输出、用于更新语句分类模块的第三数据并通过所述
数据装置的第三输出端输出。
[0011]可选的,所述句式分类模块还包括数据库接口,所述数据库接口用于获取远程字典服务,所述远程字典服务用于确定所述第二分类结果是否大于等于相似度阈值,若所述第二分类结果大于等于所述相似度阈值,则通过所述句式分类模块的第一输出端进行输出所述第二分类结果,若所述第二分类结果小于所述相似度阈值,则所述句式分类模块的第二输出端进行输出所述第二输出结果。
[0012]可选的,所述语句分类模块还包括预处理单元,所述预处理单元用于对所述第二输出结果进行向量化;
[0013]所述神经网络单元包括输入层、全连接层和输出层;
[0014]其中,所述预处理单元的输入端与所述句式分类模块的第二输出端连接,所述预处理单元的输出端与所述输入层连接。
[0015]本专利技术提供一种语音文本分类模型的更新方法,更新所述的模型装置,所述方法包括:
[0016]对所述用户语音进行语义识别,获得日志数据,并将与所述分类结果不一致的所述日志数据确定为筛选数据,其中,所述分类结果包括第一分类结果、第二分类结果和第三分类结果;
[0017]当所述筛选数据大于或者等于数据量阈值时,将所述筛选数据中的实体名称进行替换和标注,获得训练数据,且根据训练数据的长度以及实体名称的数量,对所述训练数据进行聚类,获得用于更新词汇分类模块的第一数据、用于更新句式分类模块的第二数据和用于更新语句分类模块的第三数据;
[0018]根据所述第一数据更新所述词典,获得更新后的词汇分类模块;
[0019]根据所述第二数据更新所述向量空间单元,获得更新后的句式分类模块;
[0020]将所述第三数据进行向量化以及标注,获得语句向量及对应的语句标签;
[0021]将所述语句向量以及对应的所述语句标签输入到初始的神经网络单元中进行分类处理,获得样本结果;
[0022]根据所述样本结果和所述语句标签的匹配度,迭代训练所述初始的神经网络单元,获得训练好的神经网络单元;
[0023]将训练好的神经网络单元配置到所述语句分类模块中,获得更新后的语句分类模块。
[0024]可选的,根据所述第二数据更新所述向量空间单元,包括:
[0025]根据所述第二数据更新所述向量空间单元,将更新后的所述向量空间单元通过数据库接口进行传输,以使远程字典服务进行存储。
[0026]可选的,根据训练数据的长度以及实体名称的数量,对所述训练数据进行聚类,获得用于更新词汇分类模块的第一数据、用于更新句式分类模块的第二数据和用于更新语句分类模块的第三数据,包括:
[0027]获取数据长度小于或者等于长度阈值的训练数据,确定为所述第一数据;
[0028]获取所述数据长度大于所述长度阈值,且所述实体名称的数量大于或者等于数量阈值的训练数据,确定为所述第二数据;
[0029]获取所述数据长度大于所述长度阈值,且所述实体名称的数量小于所述数量阈值
的训练数据,确定为所述第三数据。
[0030]可选的,根据所述样本结果和所述语句标签的匹配度,迭代训练所述初始的神经网络单元,获得训练好的神经网络单元,包括:
[0031]基于交叉熵损失函数来训练所述初始的神经网络单元,减少所述样本结果与所述语句标签之间的损失,以增加所述样本结果和所述语句标签的匹配度;
[0032]迭代训练所述神经网络单元,并更新所述神经网络单元中神经元节点的权重参数,获得训练好的神经网络单元。
[0033]可选的,还包括:
[0034]将更新后的词汇分类模块的输入端与文本模块连接,所述词汇分类模块的第一输出端用于输出第一分类结果,所述词汇分类模块的第二输出端用于输出第一输出结果,其中,所述文本模块用于采样用户语音并转化为语音文本信息;
[0035]将更新后的句式分类模块的输入端与所述词汇分类模块的第二输出端连接,所述句式分类模块的第一输出端用于输出第二分类结果,所述句式分类模块的第二输出端用于输出第二输出结果;
[0036]将更新后的语句分类模块输入端与所述句式分类模块的第二输出端连接,所述语句分类模块的输出端用于输出第三分类结果。
[0037]本专利技术提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现任一项所述方法的步骤。
[0038]本发本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音文本分类模型的更新系统,其特征在于,包括:模型装置,包括:词汇分类模块、句式分类模块以及语句分类模块;词汇分类模块,所述词汇分类模块包括用于分类的词典,通过所述词典对待处理的语音文本信息进行分类处理,获得第一分类结果和第一输出结果,所述词汇分类模块的第一输出端用于输出所述第一分类结果,所述词汇分类模块的第二输出端用于输出所述第一输出结果;句式分类模块,所述句式分类模块包括用于计算向量相似度的向量空间单元,所述向量空间单元对所述第一输出结果进行分类处理,获得第二分类结果和第二输出结果,所述句式分类模块的第一输出端用于输出所述第二分类结果,所述句式分类模块的第二输出端用于输出所述第二输出结果;语句分类模块,所述语句分类模块包括用于语句分类的神经网络单元,所述神经网络单元对所述第二输出结果进行分类处理,获得第三分类结果并由所述语句分类模块的输出端输出;日志装置,用于对用户语音进行语义识别,获得日志数据,并将与分类结果不一致的所述日志数据确定为筛选数据,其中,所述分类结果包括第一分类结果、第二分类结果和第三分类结果;数据装置,当所述筛选数据大于或者等于数据量阈值时,所述数据装置将所述筛选数据中的实体名称进行替换和标注,所述数据装置获得训练数据,且所述数据装置根据训练数据的长度以及实体名称的数量,对所述训练数据进行聚类,获得用于更新词汇分类模块的第一数据并通过所述数据装置的第一输出端输出、用于更新句式分类模块的第二数据并通过所述数据装置的第二输出端输出、用于更新语句分类模块的第三数据并通过所述数据装置的第三输出端输出。2.根据权利要求1所述的语音文本分类模型的更新系统,其特征在于,所述句式分类模块还包括数据库接口,所述数据库接口用于获取远程字典服务,所述远程字典服务用于确定所述第二分类结果是否大于等于相似度阈值,若所述第二分类结果大于等于所述相似度阈值,则通过所述句式分类模块的第一输出端进行输出所述第二分类结果,若所述第二分类结果小于所述相似度阈值,则所述句式分类模块的第二输出端进行输出所述第二输出结果。3.根据权利要求1所述的语音文本分类模型的更新系统,其特征在于,所述语句分类模块还包括预处理单元,所述预处理单元用于对所述第二输出结果进行向量化;所述神经网络单元包括输入层、全连接层和输出层;其中,所述预处理单元的输入端与所述句式分类模块的第二输出端连接,所述预处理单元的输出端与所述输入层连接。4.一种语音文本分类模型的更新方法,其特征在于,更新如权利要求1至3任一项所述的模型装置,所述方法包括:对所述用户语音进行语义识别,获得日志数据,并将与所述分类结果不一致的所述日志数据确定为筛选数据,其中,所述分类结果包括第一分类结果、第二分类结果和第三分类结果;当所述筛选数据大于或者等于数据量阈值时,将所述筛选数据中的实体名称进行替换
和标注,获得训练数据,且根据训练数据的长度以及实体名称的数量,对所述训练数据进行聚类,获得用于更新词汇分类模块的第一数据、用于更...

【专利技术属性】
技术研发人员:叶松林代秀琼张正源
申请(专利权)人:成都赛力斯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1