一种特种设备维护问答系统的中文分词方法技术方案

技术编号：41129078 阅读：20 留言：0更新日期：2024-04-30 17:57

本发明专利技术公开了一种特种设备维护问答系统的中文分词方法，属于数据处理技术领域，包括：S1、构建特种设备维护问答系统中中文分词的训练数据集；S2、对训练数据集中的文本预处理，并定义其分词标签；S3、利用定义分词标签的训练数据集训练中文分词模型；其中，中文分词模型包括用于捕捉上下文信息的并列的N‑BEATS模型、GPT模型以及改进BiLSTM模型；S4、利用完成训练的中文分词模型，进行特种设备维护系统的中文分词。本发明专利技术方法可以显著提高特种设备的管理和维护效率，减少停机时间，降低维护成本，并提高操作人员和维护人员的能力。它在各种工业领域和设备类型中都具有广泛的应用潜力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于数据处理，具体涉及一种特种设备维护问答系统的中文分词方法。

技术介绍

1、随着深度学习的发展已经拓展到了特种设备维护领域，基于特种设备维护的问答系统是一种使用人工智能和自然语言处理技术开发的应用程序，旨在帮助工程师、维护人员和操作人员更轻松地管理和维护各种特征设备，以确保其正常运行和可靠性。这种问答系统可以回答与特种设备维护有关的问题、提供维护建议、执行故障排除和提供相关信息。

2、而结合深度学习的中文分词则是该问答系统的核心内容，常见的中文分词模型bilstm-crf模型，它结合了双向长短时记忆网络 (bidirectional long short-termmemory, bilstm) 和条件随机场 (conditional random field, crf) 来解决中文分词任务。这个模型在中文分词中表现出色，因为它可以捕捉句子中的上下文信息，并同时考虑标签之间的关系。尽管bilstm-crf模型在中文分词任务中表现出色，但它仍然有一些缺点和局限性，该模型对特种设备的型号、种类、规格要求更高，比如在对电梯、输油管道进行问答时，需要更详细的参数信息如：功率、电压等等这些，否则不能对其进行更加准确的理解，计算成本高昂：bilstm-crf模型通常需要大量的计算资源来训练和推断，尤其是在处理大规模的文本数据时，这可能需要较高的硬件要求和更长的训练时间。对数据质量和标注准确性敏感：模型的性能高度依赖于训练数据的质量和标注准确性。如果标注数据包含错误或不一致性，模型的性能可能会受到影响。处理未登录词问题：

技术实现思路

1、针对现有技术中的上述不足，本专利技术提供的特种设备维护问答系统的中文分词方法解决了现有的中文分词模型难以针对特种设备系统进行准确分词的问题。

2、为了达到上述专利技术目的，本专利技术采用的技术方案为：一种特种设备维护问答系统的中文分词方法，包括以下步骤：

3、s1、构建特种设备维护问答系统中中文分词的训练数据集；

4、s2、对训练数据集中的文本预处理，并定义其分词标签；

5、s3、利用定义分词标签的训练数据集训练中文分词模型；

6、其中，中文分词模型包括用于捕捉上下文信息的并列的n-beats模型、gpt模型以及改进bilstm模型，所述n-beats模型、gpt模型以及改进bilstm模型的输出基于其分配的权值通过crf模型输出所述中文分词模型的分词结果；

7、s4、利用完成训练的中文分词模型，进行特种设备维护系统的中文分词。

8、进一步地，所述步骤s2中，所述文本预处理是指将训练数据集中的中文文本划分为字符或词；

9、定义分词标签为标记训练数据集中每个字符或词的标签，包括词开头b、词中间i、词结尾e、单独成词的字符s以及非分词的字符0。

10、进一步地，所述步骤s3中，所述n-beats模型包括若干堆叠的基本模块，每个基本模块包括依次连接的多层全连接神经网络；所述n-beats模型的损失函数为交叉熵损失；

11、所述n-beats模型的输出为分词结果的概率分布。

12、进一步地，所述gpt模型的输出为预测的下一个分词或完整的分词序列。

13、进一步地，所述改进bilstm模型包括并列的第一bilstm单元以及第二bilstm单元；

14、所述第一bilstm单元将正向lstm和反向lstm的隐藏状态依次拼接得到向量c1(v1,v2,v3,x1,x2,x3)；

15、所述第二bilstm单元将正向lstm和反向lstm的隐藏状态交叉拼接得到向量c2(y1,p1,y2,p2,y3,p3)；

16、其中，v1,v2,v3和x1,x2,x3分别为第一bilstm单元中正向lstm和反向lstm输出的隐藏状态；y1,y2,y3和p1,p2,p3分别为第二bilstm单元中正向lstm和反向lstm输出的隐藏状态。

17、进一步地，所述向量c1和向量c2进行向量拼接后，根据向量c1和向量c2的预设权值，将拼接的向量通过一组卷积层后的输出向量作为所述改进bilstm模型的输出。

18、进一步地，所述步骤s3中，通过crf模型输出所述中文分词模型的分词结果的方法为：

19、s31、将n-beats模型、gpt模型以及改进bilstm模型的输出进行拼接；

20、s32、基于拼接结果为n-beats模型、gpt模型以及改进bilstm模型的输出分配不同的权重；

21、s33、将n-beats模型、gpt模型以及改进bilstm模型的输出分别与其对应的权重相乘；

22、s34、将相乘得到的向量相加后输入至crf模型，通过计算条件概率分布，获得中文分词模型的分词结果。

23、进一步地，所述步骤s34中，条件概率分布的计算公式为：

24、

25、式中，为标签序列，为观察序列，为归一化因子，为特征函数的权重，为关于观察序列和标签序列的特征函数，下标 i为标签序数，下标 k为特征函数序数， k为特征函数总数。

26、本专利技术的有益效果为：

27、本专利技术方法提供的特种设备维护问答系统的中文分词方法，可以显著提高特种设备的管理和维护效率，减少停机时间，降低维护成本，并提高操作人员和维护人员的能力。本专利技术中涉及的中文分词模型具有以下优点：

28、1) 适应性更强：深度学习模型可以根据不同领域和应用场景进行迁移学习，因此在新的任务中表现更好，传统模型需要手工调整和适应，工作量较大。

29、2) 上下文理解能力更强：深度学习模型可以利用大量的文本数据进行训练，从而更好地理解词语在不同上下文中的含义。传统模型通常基于词典和规则，对上下文理解有限，容易受到歧义的影响。

30、3) 自动特征提取：深度学习模型可以自动学习有关词语的特征表示，而传统模型通常需要手动选择和工程化特征。

31、4）特征空间组合：本专利技术模型为了能结合语义上下文，还有对局部信息进行更为准确的理解，对特征空间改进了更多的组合方式；比如在问到：请问为什么特种设备制造许可证（压力管道元件）上产品的口径范围钧大于等于dn50，小于dn50的压力管道元件没有制造许可证，基于多种特征空间组合实现了更准确的分词。

本文档来自技高网...

【技术保护点】

1.一种特种设备维护问答系统的中文分词方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的特种设备维护问答系统的中文分词方法，其特征在于，所述步骤S2中，所述文本预处理是指将训练数据集中的中文文本划分为字符或词；

3.根据权利要求1所述的特种设备维护问答系统的中文分词方法，其特征在于，所述步骤S3中，所述N-BEATS模型包括若干堆叠的基本模块，每个基本模块包括依次连接的多层全连接神经网络；所述N-BEATS模型的损失函数为交叉熵损失；

4.根据权利要求1所述的特种设备维护问答系统的中文分词方法，其特征在于，所述GPT模型的输出为预测的下一个分词或完整的分词序列。

5.根据权利要求1所述的特种设备维护问答系统的中文分词方法，其特征在于，所述改进BiLSTM模型包括并列的第一BiLSTM单元以及第二BiLSTM单元；

6.根据权利要求5所述的特种设备维护问答系统的中文分词方法，其特征在于，所述向量C1和向量C2进行向量拼接后，根据向量C1和向量C2的预设权值，将拼接的向量通过一组卷积层后的输出向量作为所述改进BiLSTM模型的输出。

7.根据权利要求1所述的特种设备维护问答系统的中文分词方法，其特征在于，所述步骤S3中，通过CRF模型输出所述中文分词模型的分词结果的方法为：

8.根据权利要求7所述的特种设备维护问答系统的中文分词方法，其特征在于，所述步骤S34中，条件概率分布的计算公式为：

...

【技术特征摘要】

1.一种特种设备维护问答系统的中文分词方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的特种设备维护问答系统的中文分词方法，其特征在于，所述步骤s2中，所述文本预处理是指将训练数据集中的中文文本划分为字符或词；

3.根据权利要求1所述的特种设备维护问答系统的中文分词方法，其特征在于，所述步骤s3中，所述n-beats模型包括若干堆叠的基本模块，每个基本模块包括依次连接的多层全连接神经网络；所述n-beats模型的损失函数为交叉熵损失；

4.根据权利要求1所述的特种设备维护问答系统的中文分词方法，其特征在于，所述gpt模型的输出为预测的下一个分词或完整的分词序列。

5.根据权利要求1所述...

【专利技术属性】
技术研发人员：张展彬，
申请(专利权)人：四川省特种设备检验研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人