System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及数据库构建,具体涉及针对儿童神经发育类问题的知识库构建方法、设备及介质。
技术介绍
1、儿童神经发育类问题是指那些基于神经系统发育异常的疾病,其可能会对儿童在获取和感知外界环境方面造成干扰,通常表现为在注意力、记忆力、领悟力、语言能力、解决问题的能力以及社会交流等方面存在障碍,若这些障碍是轻度的,通过行为和教育干预可以得到一定程度的控制;所以为了更全面地进行诊疗,需要对专业诊疗人员提供一个便捷且高效的知识查询途径。
2、在现有技术中,通常是基于需要查询的身体问题构建知识库,但是通过自然语言处理(nlp,natural language processing)方法对文本数据进行自动分类和标注时,存在一些问题亟待解决,由于部分未分类的文本代表了一些相似的病症问题,现有的区分方法对于这些领域相似的相似病症问题的区分程度不够,这导致构建知识库时,在进行文本拆分和分类时,分类效果不佳,这会影响知识库对应领域知识数据的准确性。
技术实现思路
1、为了解决现有方法对于关键词存在领域相似的区分程度不够,影响知识库知识数据准确性的技术问题,本专利技术的目的在于提供一种针对儿童神经发育类问题的知识库构建方法,所采用的技术方案具体如下:
2、步骤s1:基于现有资料库生成儿童神经发育类问题的初始文本数据,对初始文本数据进行清洗及预处理获取分词结果;
3、步骤s2:根据分词结果转化词汇向量得到候选向量序列,对候选向量序列中的每一候选向量判断语义符合指标,通过
4、步骤s3:分析主体语义词汇向量的分布情况,计算层级截断评价指标,并获取全部主体语义词汇向量对应的各层描述层级;
5、步骤s4:将各层描述层级对应的词汇在初始文本数据中进行获取并标记形成各层描述层级对应的文本范围,结合层级截断评价指标获取主体语义词汇向量的存储优先级,基于文本范围进行对应存储优先级的标记,完成知识库的构建。
6、进一步地,所述初始文本数据包括专业文献、研究资料和临床案例记录。
7、进一步地,步骤s1包括:
8、基于现有资料库,通过专业人员筛选儿童神经发育类问题涵盖的初始文本数据;
9、通过正则表达式和/或构建正常词汇字典的方式对初始文本数据进行清洗,去除噪声词汇得到二代文本数据;
10、对二代文本数据进行拆分获取源分词结果及对应分词的词性标注;
11、将源分词结果去除标点符号及特殊符号得到分词结果。
12、进一步地,步骤s2中根据分词结果转化词汇向量得到候选向量序列,包括:
13、步骤s21:将分词结果中的各个词语转化为对应的词汇向量形成向量空间,对向量空间进行聚簇分别得到多个聚簇和未归类的词汇向量,所述未归类的词汇向量为与儿童神经发育类问题存在偏差的词汇;
14、步骤s22:根据聚簇中心预设中心范围,基于任一聚簇将处于中心范围内的词汇向量记为候选向量,并分别获取每一候选向量与聚簇中心的距离,根据距离从小到大依次排序,生成候选向量序列;
15、重复步骤s22,得到全部聚簇的候选向量序列。
16、进一步地,步骤s2中对候选向量序列中的每一候选向量判断语义符合指标,对应的计算公式为:
17、
18、其中,表示当前候选向量的语义符合指标;表示当前候选向量在聚簇中与其他候选向量之间的距离的最大值;表示当前候选向量在聚簇中与其他候选向量之间的距离的最小值;表示函数的导数,用于归一化处理。
19、进一步地,步骤s2中通过语义符合指标得到主体语义词汇向量包括:
20、根据语义符合指标的计算公式得到全部候选向量对应的语义符合指标,基于候选向量序列生成语义符合指标序列;
21、查找语义符合指标序列的峰值,将峰值对应的候选向量对应的词汇向量记为主体语义词汇向量;
22、遍历全部聚簇,分别得到各个聚簇对应的主体语义词汇向量。
23、进一步地,步骤s3中分析主体语义词汇向量的分布情况,包括:
24、根据任一主体语义词汇向量对应聚簇中单个与之距离最小的文本数据作为当前主体语义词汇向量的范围;
25、以步长1逐渐扩大范围,并对当前聚簇内各个主体语义词汇向量同步获取对应的范围,观察范围内出现的语义符合指标变化情况。
26、进一步地,步骤s3中计算层级截断评价指标,并获取全部主体语义词汇向量对应的各层描述层级,包括:
27、计算层级截断评价指标,对应的计算公式为:
28、
29、其中,表示层级截断评价指标;表示当前主体语义词汇向量对应的范围;表示当前步长;表示与主体语义词汇向量最邻近的第个词汇向量;表示当前主体词汇向量对应的语义符合指标;为当前步长下范围中的语义符合指标的标准差;
30、基于当前主体语义词汇向量逐渐增加的范围分别计算其对应的层级截断评价指标;
31、当增加步长为时,范围对应的评价,得到起点步长到当前步长之间的词汇向量记为当前主体语义词汇向量对应的第q层描述层级;
32、对步长为,且未计入步长为的数据点,从步长对应的主体语义词汇向量开始计算层级截断评价指标,重复步骤,直至基于当前主体语义词汇向量从当前聚簇类选取完其他主体语义词汇向量的范围内的词汇向量,生成当前聚簇中全部主体语义词汇向量对应的各层描述层级。
33、本专利技术还提供一种针对儿童神经发育类问题的知识库构建设备,用于运行如前述所述的一种针对儿童神经发育类问题的知识库构建方法构建的知识库,包括以下模块:
34、服务器模块、数据存储模块和网络服务模块,用于完成针对儿童神经发育类问题的知识库的构建,所述网络服务模块分别与所述服务器模块和所述数据存储模块相连;
35、终端展示模块,用于实现知识库的输入和输出;
36、电力供给模块,用于服务器模块、数据存储模块、网络服务模块和终端展示模块任一模块的电力运行。
37、本专利技术还提供一种介质,所述介质存储有程序数据,所述程序数据被执行时实现如前述任一项所述的针对儿童神经发育类问题的知识库构建方法。
38、本专利技术具有如下有益效果:
39、1、通过筛选现有资料库中对于儿童神经发育类问题描述准确的词汇,并进行分词,得到对于当前主体文本的不同层级的描述词汇范围,通过不同描述层级的词汇进行知识检索范围的区分,能够对用户所输入的目标关键词的在儿童神经发育类问题中所对应的具体领域进行划分,增加知识库中文本数据之间的区分度,以及数据检索时得到的准确性,防止出现相似病症导致分类结果混淆的情况,以提高分类结果,增强知识库对应领域知识数据的准确性。
40、2、本专利技术提供的一种针对儿童神经发育类问题的知识库构建设备及介质,与本专利技术提供的一种针对儿童神经发育类问题的知识库构建方法具有相同的有益效果,在此不做本文档来自技高网...
【技术保护点】
1.一种针对儿童神经发育类问题的知识库构建方法,其特征在于,所述方法包括:
2.如权利要求1所述的一种针对儿童神经发育类问题的知识库构建方法,其特征在于,所述初始文本数据包括专业文献、研究资料和临床案例记录。
3.如权利要求2所述的一种针对儿童神经发育类问题的知识库构建方法,其特征在于,步骤S1包括:
4.如权利要求1所述的一种针对儿童神经发育类问题的知识库构建方法,其特征在于,步骤S2中根据分词结果转化词汇向量得到候选向量序列,包括:
5.如权利要求4所述的一种针对儿童神经发育类问题的知识库构建方法,其特征在于,步骤S2中对候选向量序列中的每一候选向量判断语义符合指标,对应的计算公式为:
6.如权利要求5所述的一种针对儿童神经发育类问题的知识库构建方法,其特征在于,步骤S2中通过语义符合指标得到主体语义词汇向量包括:
7.如权利要求1所述的一种针对儿童神经发育类问题的知识库构建方法,其特征在于,步骤S3中分析主体语义词汇向量的分布情况,包括:
8.如权利要求7所述的一种针对儿童神经发育类问题的知
9.一种针对儿童神经发育类问题的知识库构建设备,其特征在于,用于运行如权利要求1所述的一种针对儿童神经发育类问题的知识库构建方法构建的知识库,包括以下模块:
10.一种介质,其特征在于,所述介质存储有程序数据,所述程序数据被执行时实现如权利要求1-8任一项所述的针对儿童神经发育类问题的知识库构建方法。
...【技术特征摘要】
1.一种针对儿童神经发育类问题的知识库构建方法,其特征在于,所述方法包括:
2.如权利要求1所述的一种针对儿童神经发育类问题的知识库构建方法,其特征在于,所述初始文本数据包括专业文献、研究资料和临床案例记录。
3.如权利要求2所述的一种针对儿童神经发育类问题的知识库构建方法,其特征在于,步骤s1包括:
4.如权利要求1所述的一种针对儿童神经发育类问题的知识库构建方法,其特征在于,步骤s2中根据分词结果转化词汇向量得到候选向量序列,包括:
5.如权利要求4所述的一种针对儿童神经发育类问题的知识库构建方法,其特征在于,步骤s2中对候选向量序列中的每一候选向量判断语义符合指标,对应的计算公式为:
6.如权利要求5所述的一种针对儿童神经发育类问题的知识库构...
【专利技术属性】
技术研发人员:裘旭光,赵洪波,金日泽,
申请(专利权)人:天津慧加信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。