基于中医对话的停用词表生成方法、装置及存储介质制造方法及图纸

技术编号：33915780 阅读：11 留言：0更新日期：2022-06-25 20:13

本发明专利技术涉及人工智能技术领域，揭露一种基于中医对话的停用词表生成方法，包括：获取中医问诊的对话的文本数据；将对话的文本数据作为语料，利用预设的中医分词模型进行分词处理，获得待处理文本以及初筛停用词；将待处理文本，通过预训练获得的目标停用词筛选模型进行筛选，获得熵和互信息满足预设值的词向量；将筛选获得的词向量所对应的待处理文本作为目标停用词，将初筛停用词和目标停用词合并形成基于中医对话的停用词表。本发明专利技术达到了能够有效针对中医领域中的中医对话识别场景，自动完成停用词的智能生成，达到提高中医意图识别的准确率的技术效果。的准确率的技术效果。的准确率的技术效果。

全部详细技术资料下载

【技术实现步骤摘要】
基于中医对话的停用词表生成方法、装置及存储介质

[0001]本专利技术涉及人工智能
，尤其涉及一种基于中医对话的停用词表生成方法、装置及计算机可读存储介质。

技术介绍

[0002]在中医智能诊疗系统中，需要通过与患者进行对话，以采集病症信息。在中医对话意图识别的场景中，具有文本短、专业名词较多、语义词汇信息复杂、且存在大量的停用词的特点。其中，停用词不仅携带较少的文本信息，而且，在文本处理过程中会对其他词语产生抑制作用，因此，需要对对话文本进行停用词预处理，以提高文本处理效率和精准度。
[0003]目前，针对于中文场景下的停用词认定方法为通过词频、特定符号剔除、领域归纳、词性删除、互信息等方法归纳所得到的通用汉语停用词表来进行判定；现有的通用汉语停用词表有百度停用词表、哈尔滨工业大学停用词表以及四川大学机器智能实验室停用词表等；在中医对话识别这一特定专业场景中，以上通用词表存在适用性不足的弊端。
[0004]因此，亟需一种适用于中医对话场景的停用词表生成方法。

技术实现思路

[0005]本专利技术提供一种基于中医对话的停用词表生成方法、系统、电子设备及存储介质，其主要目的在于解决现有的中医智慧医疗场景中，中医问诊对话中停用词的筛选的问题。
[0006]为实现上述目的，本专利技术提供的一种基于中医对话的停用词表生成方法，应用于电子装置，包括：
[0007]获取中医问诊的对话的文本数据；
[0008]将所述对话的文本数据作为语料，利用预设的中医分词模型进行分词...

【技术保护点】

【技术特征摘要】
1.一种基于中医对话的停用词表生成方法，应用于电子装置，其特征在于，所述方法包括：获取中医问诊的对话的文本数据；将所述对话的文本数据作为语料，利用预设的中医分词模型进行分词处理，获得待处理文本以及初筛停用词；其中，所述初筛停用词包括英文、标点和数字字符；将所述待处理文本，通过预训练获得的目标停用词筛选模型进行筛选，获得熵和互信息满足预设值的词向量；将所述筛选获得的词向量所对应的待处理文本作为目标停用词，将所述初筛停用词和目标停用词合并形成基于中医对话的停用词表。2.如权利要求1所述的基于中医对话的停用词表生成方法，其特征在于，所述将所述待处理文本，通过预训练获得的目标停用词筛选模型进行筛选，获得熵和互信息满足预设值的词向量的方法包括：利用互信息和熵进行特征提取获得待处理文本的词向量；利用熵阈值和互信息阈值对所述词向量进行筛选；获得满足熵阈值和互信息阈值的词向量。3.如权利要求2中所述的基于中医对话的停用词表生成方法，其特征在于，所述熵阈值和互信息阈值的确定方法包括：将待处理文本中的某个词输入预获取的目标停用词筛选模型，获得所述词对应的词向量；其中，所述预获取的目标停用词筛选模型为通过skip
‑
gram算法进行词嵌入表示，并运用word2vec方法进行词向量训练后获得；将待处理文本中所述词所在的句子中所有词对应的词向量进行平均获得句向量；并将所述待处理文本的所有句子对应的句向量形成句向量数据集；将所述句向量数据集按照7:3划分为训练集和测试集；通过基于xgboost算法的意图识别模型，获得停用词过滤阈值Ψ1以及停用词过滤阈值Ψ2；其中，所述停用词过滤阈值Ψ1为熵阈值，所述停用词过滤阈值Ψ2为互信息阈值。4.如权利要求3所述的基于中医对话的停用词表生成方法，其特征在于，将待处理文本中的某个词输入预获取的目标停用词筛选模型，获得所述词对应的词向量的方法包括：运用One
‑
Hot算法对待处理词语进行编码，将编码后的待处理词语输入目标停用词筛选模型的输入层；利用隐含层对编码后的待处理词语进行降维处理以及参数矩阵的计算获得一个向量；利用Softmax函数对所述向量进行归...

【专利技术属性】
技术研发人员：金晓辉，阮晓雯，陈远旭，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人