一种语音文本分类模型的更新系统及方法技术方案

技术编号：36703431 阅读：18 留言：0更新日期：2023-03-01 09:22

本申请涉及一种语音文本分类模型的更新系统及方法，所述语音文本分类模型的更新系统包括：模型装置、日志装置和数据装置。日志装置，用于对用户语音进行语义识别，获得日志数据，并将与分类结果不一致的所述日志数据确定为筛选数据；数据装置，当所述筛选数据大于或者等于数据量阈值时，所述数据装置将所述筛选数据中的实体名称进行替换和标注，所述数据装置获得训练数据，且所述数据装置根据训练数据的长度以及实体名称的数量，对所述训练数据进行聚类，获得用于更新词汇分类模块的第一数据、用于更新句式分类模块的第二数据、用于更新语句分类模块的第三数据。新语句分类模块的第三数据。新语句分类模块的第三数据。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音文本分类模型的更新系统及方法

[0001]本申请涉及自然语言处理
，特别是涉及一种语音文本分类模型的更新系统及方法。

技术介绍

[0002]随着神经网络技术以及计算机算力的提高，使得人工智能产业得到长足的发展，可通过部署分类模型来完成语音文本的分类，现已应用到各个领域，例如，车机交互、智能客服、信息分推等等。为确保分类模型的性能可靠，在上线之后，需要不断更新才能满足场景需求，在此过程，需要开发人员、运营人员、测试人员根据测试结果进行反馈，并根据反馈结果进行模型更新，进而造成模型更新的滞后，不仅难以覆盖真实的场景需求以及确保及时性，而且测试结果的主观性较大，难以保证准确性。

技术实现思路

[0003]基于此，提供一种语音文本分类模型的更新系统及方法，改善模型更新滞后的问题。
[0004]一方面，提供一种语音文本分类模型的更新系统，包括：
[0005]模型装置，包括：词汇分类模块、句式分类模块以及语句分类模块；
[0006]词汇分类模块，所述词汇分类模块包括用于分类的词典，通过所述词典对待处理的语音文本信息进行分类处理，获得第一分类结果和第一输出结果，所述词汇分类模块的第一输出端用于输出所述第一分类结果，所述词汇分类模块的第二输出端用于输出所述第一输出结果；
[0007]句式分类模块，所述句式分类模块包括用于计算向量相似度的向量空间单元，所述向量空间单元对所述第一输出结果进行分类处理，获得第二分类结果和第二输出结果，所述句式分类模块的第一输出端用于输出所述第二...

【技术保护点】

【技术特征摘要】
1.一种语音文本分类模型的更新系统，其特征在于，包括：模型装置，包括：词汇分类模块、句式分类模块以及语句分类模块；词汇分类模块，所述词汇分类模块包括用于分类的词典，通过所述词典对待处理的语音文本信息进行分类处理，获得第一分类结果和第一输出结果，所述词汇分类模块的第一输出端用于输出所述第一分类结果，所述词汇分类模块的第二输出端用于输出所述第一输出结果；句式分类模块，所述句式分类模块包括用于计算向量相似度的向量空间单元，所述向量空间单元对所述第一输出结果进行分类处理，获得第二分类结果和第二输出结果，所述句式分类模块的第一输出端用于输出所述第二分类结果，所述句式分类模块的第二输出端用于输出所述第二输出结果；语句分类模块，所述语句分类模块包括用于语句分类的神经网络单元，所述神经网络单元对所述第二输出结果进行分类处理，获得第三分类结果并由所述语句分类模块的输出端输出；日志装置，用于对用户语音进行语义识别，获得日志数据，并将与分类结果不一致的所述日志数据确定为筛选数据，其中，所述分类结果包括第一分类结果、第二分类结果和第三分类结果；数据装置，当所述筛选数据大于或者等于数据量阈值时，所述数据装置将所述筛选数据中的实体名称进行替换和标注，所述数据装置获得训练数据，且所述数据装置根据训练数据的长度以及实体名称的数量，对所述训练数据进行聚类，获得用于更新词汇分类模块的第一数据并通过所述数据装置的第一输出端输出、用于更新句式分类模块的第二数据并通过所述数据装置的第二输出端输出、用于更新语句分类模块的第三数据并通过所述数据装置的第三输出端输出。2.根据权利要求1所述的语音文本分类模型的更新系统，其特征在于，所述句式分类模块还包括数据库接口，所述数据库接口用于获取远程字典服务，所述远程字典服务用于确定所述第二分类结果是否大于等于相似度阈值，若所述第二分类结果大于等于所述相似度阈值，则通过所述句式分类模块的第一输出端进行输出所述第二分类结果，若所述第二分类结果小于所述相似度阈值，则所述句式分类模块的第二输出端进行输出所述第二输出结果。3.根据权利要求1所述的语音文本分类模型的更新系统，其特征在于，所述语句分类模块还包括预处理单元，所述预处理单元用于对所述第二输出结果进行向量化；所述神经网络单元包括输入层、全连接层和输出层；其中，所述预处理单元的输入端与所述句式分类模块的第二输出端连接，所述预处理单元的输出端与所述输入层连接。4.一种语音文本分类模型的更新方法，其特征在于，更新如权利要求1至3任一项所述的模型装置，所述方法包括：对所述用户语音进行语义识别，获得日志数据，并将与所述分类结果不一致的所述日志数据确定为筛选数据，其中，所述分类结果包括第一分类结果、第二分类结果和第三分类结果；当所述筛选数据大于或者等于数据量阈值时，将所述筛选数据中的实体名称进行替换
和标注，获得训练数据，且根据训练数据的长度以及实体名称的数量，对所述训练数据进行聚类，获得用于更新词汇分类模块的第一数据、用于更...

【专利技术属性】
技术研发人员：叶松林，代秀琼，张正源，
申请(专利权)人：成都赛力斯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人