基于中医对话的停用词表生成方法、装置及存储介质制造方法及图纸

技术编号:33915780 阅读:11 留言:0更新日期:2022-06-25 20:13
本发明专利技术涉及人工智能技术领域,揭露一种基于中医对话的停用词表生成方法,包括:获取中医问诊的对话的文本数据;将对话的文本数据作为语料,利用预设的中医分词模型进行分词处理,获得待处理文本以及初筛停用词;将待处理文本,通过预训练获得的目标停用词筛选模型进行筛选,获得熵和互信息满足预设值的词向量;将筛选获得的词向量所对应的待处理文本作为目标停用词,将初筛停用词和目标停用词合并形成基于中医对话的停用词表。本发明专利技术达到了能够有效针对中医领域中的中医对话识别场景,自动完成停用词的智能生成,达到提高中医意图识别的准确率的技术效果。的准确率的技术效果。的准确率的技术效果。

【技术实现步骤摘要】
基于中医对话的停用词表生成方法、装置及存储介质


[0001]本专利技术涉及人工智能
,尤其涉及一种基于中医对话的停用词表生成方法、装置及计算机可读存储介质。

技术介绍

[0002]在中医智能诊疗系统中,需要通过与患者进行对话,以采集病症信息。在中医对话意图识别的场景中,具有文本短、专业名词较多、语义词汇信息复杂、且存在大量的停用词的特点。其中,停用词不仅携带较少的文本信息,而且,在文本处理过程中会对其他词语产生抑制作用,因此,需要对对话文本进行停用词预处理,以提高文本处理效率和精准度。
[0003]目前,针对于中文场景下的停用词认定方法为通过词频、特定符号剔除、领域归纳、词性删除、互信息等方法归纳所得到的通用汉语停用词表来进行判定;现有的通用汉语停用词表有百度停用词表、哈尔滨工业大学停用词表以及四川大学机器智能实验室停用词表等;在中医对话识别这一特定专业场景中,以上通用词表存在适用性不足的弊端。
[0004]因此,亟需一种适用于中医对话场景的停用词表生成方法。

技术实现思路

[0005]本专利技术提供一种基于中医对话的停用词表生成方法、系统、电子设备及存储介质,其主要目的在于解决现有的中医智慧医疗场景中,中医问诊对话中停用词的筛选的问题。
[0006]为实现上述目的,本专利技术提供的一种基于中医对话的停用词表生成方法,应用于电子装置,包括:
[0007]获取中医问诊的对话的文本数据;
[0008]将所述对话的文本数据作为语料,利用预设的中医分词模型进行分词处理,获得待处理文本以及初筛停用词;其中,所述初筛停用词包括英文、标点和数字字符;
[0009]将所述待处理文本,通过预训练获得的目标停用词筛选模型进行筛选,获得熵和互信息满足预设值的词向量;
[0010]将所述筛选获得的词向量所对应的待处理文本作为目标停用词,将所述初筛停用词和目标停用词合并形成基于中医对话的停用词表。
[0011]进一步,优选的,所述将所述待处理文本,通过预训练获得的目标停用词筛选模型进行筛选,获得熵和互信息满足预设值的词向量的方法包括:
[0012]利用互信息和熵进行特征提取获得待处理文本的词向量;
[0013]利用熵阈值和互信息阈值对所述词向量进行筛选;
[0014]获得满足熵阈值和互信息阈值的词向量。
[0015]进一步,优选的,所述熵阈值和互信息阈值的确定方法包括:
[0016]将待处理文本中的某个词输入预获取的目标停用词筛选模型,获得所述词对应的词向量;其中,所述预获取的目标停用词筛选模型为通过skip

gram算法进行词嵌入表示,并运用word2vec方法进行词向量训练后获得;
[0017]将待处理文本中所述词所在的句子中所有词对应的词向量进行平均获得句向量;并将所述待处理文本的所有句子对应的句向量形成句向量数据集;
[0018]将所述句向量数据集按照7:3划分为训练集和测试集;
[0019]通过基于xgboost算法的意图识别模型,获得停用词过滤阈值Ψ1以及停用词过滤阈值Ψ2;其中,所述停用词过滤阈值Ψ1为熵阈值,所述停用词过滤阈值Ψ2为互信息阈值。
[0020]进一步,优选的,将待处理文本中的某个词输入预获取的目标停用词筛选模型,获得所述词对应的词向量的方法包括:
[0021]运用One

Hot算法对待处理词语进行编码,将编码后的待处理词语输入目标停用词筛选模型的输入层;
[0022]利用隐含层对编码后的待处理词语进行降维处理以及参数矩阵的计算获得一个向量;
[0023]利用Softmax函数对所述向量进行归一化,获得某个词对应的词向量。
[0024]进一步,优选的,通过基于xgboost算法的意图识别模型,获得停用词过滤阈值Ψ1以及停用词过滤阈值Ψ2的方法包括,
[0025]建立基于xgboost算法的意图识别模型;
[0026]根据互信息阈值参数的优化范围以及熵阈值参数的优化范围,将测试集上的预测结果准确率为模型拟合效果的评价指标,定义xgboost预测准确率为目标函数,运用贝叶斯全局优化方法优化停用词过滤阈值Ψ1以及停用词过滤阈值Ψ2;
[0027]获得停用词过滤阈值Ψ1以及停用词过滤阈值Ψ2。
[0028]进一步,优选的,所述熵阈值参数的优化范围通过以下公式获得,
[0029][0030]其中,P
i
(w)为词w在待处理文本中i中出现的概率,n代表待处理文本中词的数量。
[0031]进一步,优选的,所述预设的中医分词模型为利用中医专业词库对LAC分词工具,利用深度学习进行训练获得。
[0032]为了解决上述问题,本专利技术还提供一种基于中医对话的停用词表生成系统,包括:
[0033]获取单元,用于获取中医问诊的对话的文本数据;
[0034]初筛单元,用于将所述对话的文本数据作为语料,利用预设的中医分词模型进行分词处理,获得待处理文本以及初筛停用词;其中,所述初筛停用词包括英文、标点和数字字符;
[0035]筛选单元,用于将所述待处理文本,通过预训练获得的目标停用词筛选模型进行筛选,获得熵和互信息满足预设值的词向量;将所述筛选获得的词向量所对应的待处理文本作为目标停用词;
[0036]停用词表形成单元,用于将所述初筛停用词和目标停用词合并形成基于中医对话的停用词表。
[0037]为了解决上述问题,本专利技术还提供一种电子设备,所述电子设备包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述的基于中医对话的停用词表生成方法中的步骤。
[0038]为了解决上述问题,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现上述所述的基于中医对话的停用词表生成方法。
[0039]本专利技术提供的上述基于中医对话的停用词表生成方法,将待处理文本作为输入,基于word2vec的目标停用词筛选模型获得熵和互信息满足预设值的词向量,从而极大降低停用词筛选的人力成本,快速得到适用于中医场景的停用词库;能够有效针对中医领域中的中医对话识别场景,自动完成停用词的智能生成,达到提高中医意图识别的准确率的技术效果。
附图说明
[0040]图1为根据本专利技术实施例的基于中医对话的停用词表生成方法的流程示意图;
[0041]图2为根据本专利技术实施例的基于中医对话的停用词表生成系统的逻辑结构框图;
[0042]图3为根据本专利技术实施例的实现基于中医对话的停用词表生成方法的电子设备的内部结构示意图。
[0043]本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
[0044]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于中医对话的停用词表生成方法,应用于电子装置,其特征在于,所述方法包括:获取中医问诊的对话的文本数据;将所述对话的文本数据作为语料,利用预设的中医分词模型进行分词处理,获得待处理文本以及初筛停用词;其中,所述初筛停用词包括英文、标点和数字字符;将所述待处理文本,通过预训练获得的目标停用词筛选模型进行筛选,获得熵和互信息满足预设值的词向量;将所述筛选获得的词向量所对应的待处理文本作为目标停用词,将所述初筛停用词和目标停用词合并形成基于中医对话的停用词表。2.如权利要求1所述的基于中医对话的停用词表生成方法,其特征在于,所述将所述待处理文本,通过预训练获得的目标停用词筛选模型进行筛选,获得熵和互信息满足预设值的词向量的方法包括:利用互信息和熵进行特征提取获得待处理文本的词向量;利用熵阈值和互信息阈值对所述词向量进行筛选;获得满足熵阈值和互信息阈值的词向量。3.如权利要求2中所述的基于中医对话的停用词表生成方法,其特征在于,所述熵阈值和互信息阈值的确定方法包括:将待处理文本中的某个词输入预获取的目标停用词筛选模型,获得所述词对应的词向量;其中,所述预获取的目标停用词筛选模型为通过skip

gram算法进行词嵌入表示,并运用word2vec方法进行词向量训练后获得;将待处理文本中所述词所在的句子中所有词对应的词向量进行平均获得句向量;并将所述待处理文本的所有句子对应的句向量形成句向量数据集;将所述句向量数据集按照7:3划分为训练集和测试集;通过基于xgboost算法的意图识别模型,获得停用词过滤阈值Ψ1以及停用词过滤阈值Ψ2;其中,所述停用词过滤阈值Ψ1为熵阈值,所述停用词过滤阈值Ψ2为互信息阈值。4.如权利要求3所述的基于中医对话的停用词表生成方法,其特征在于,将待处理文本中的某个词输入预获取的目标停用词筛选模型,获得所述词对应的词向量的方法包括:运用One

Hot算法对待处理词语进行编码,将编码后的待处理词语输入目标停用词筛选模型的输入层;利用隐含层对编码后的待处理词语进行降维处理以及参数矩阵的计算获得一个向量;利用Softmax函数对所述向量进行归...

【专利技术属性】
技术研发人员:金晓辉阮晓雯陈远旭
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1