一种医疗领域中文文本部首特征获取方法技术

技术编号：32857556 阅读：51 留言：0更新日期：2022-03-30 19:31

本发明专利技术公开了一种融合部首信息的医疗领域中文文本因果关系抽取方法，涉及数据挖掘技术领域，包括：通过网络爬虫获取医疗领域中文文本数据集，再对获取到的数据进行预处理，采用谷歌翻译技术将文本中的英文专业名词转化为中文，利用在线新华字典获取所有字符的部首，再利用Word2Vec架构对部首进行增量训练，得到部首特征表示，然后将部首特征向量作为因果关系抽取模型的输入，对数据集进行因果关系抽取，得到因果关系实体。本发明专利技术解决了现有对医疗领域中文文本数据进行有效地因果关系抽取问题。通过本发明专利技术可以得到医疗领域中文文本数据的因果实体。数据的因果实体。数据的因果实体。

全部详细技术资料下载

【技术实现步骤摘要】
一种医疗领域中文文本部首特征获取方法

[0001]本专利技术涉及医疗领域部首特征获取，尤其涉及一种医疗领域中文文本部首特征获取方法。

技术介绍

[0002]随着互联网技术的飞速发展，网络信息呈现指数级增长的态势，一大批在线医疗社区和医疗信息问答网站也随之涌现，使得海量的医疗诊断信息以电子文档的形式呈现在人们面前。据统计，仅国内的某寻医问药网站就包含了2004年11月至今十余年的疾病问答诊断数据，从而形成了海量且具有巨大潜在价值的医疗数据。然而，与数据库不同的是，这些医疗数据文本大多处于非结构化的状态。为了充分利用这些医疗领域文本蕴含的信息，通过命名实体识别技术、因果关系抽取技术等有效抽取其中有用的医疗信息，已成为实现智慧医疗的前提和基础。但是，医疗领域文本数据与传统的文本有许多不同的特征，如包含大量英文实体名、语义与部首高度相关等特性，这些特性给挖掘医疗信息抽取来了新的挑战。此时，就需要一个能融合部首信息、丰富文本语义信息的方法。
[0003]目前，人们对部首信息的研究主要集中在命名实体识别领域。汉字具有单字可成词的特点，且汉字的偏旁部首往往蕴含着重要的信息。对部首信息的研究主要是通过条件随机场模型、双向长短期记忆网络模型等，获取部首特征，将部首特征融入到字符特征中，实现文本语义信息的丰富，得到融合部首信息的字符特征向量表示。本文通过Word2Vec架构获取字符部首特征，丰富文本语义信息。

技术实现思路

[0004]为了解决上述问题，本专利技术的目的在于提供一种医疗领域中文文本部首特征获取方法...

【技术保护点】

【技术特征摘要】
1.一种一种医疗领域中文文本部首特征获取方法，其特征在于包括如下步骤：步骤1：数据获取。获取医疗领域中文文本数据集合D＝{D1,D2...D
n
},D
i
表示第i个文本，1≤i≤n,n为集合D中的文本总数；步骤2：对获取的文本数据进行预处理，其基本步骤如下：步骤2.1：去除文本中的停用词、网页标签等，进行分词；步骤2.2：将文本提取成结构化数据，装入数据库；步骤3：将文本数据中的英文专业术语转化为中文，其基本步骤如下：步骤3.1：利用ASCII码值定位数据集中的英文专业术语；步骤3.2：利用谷歌翻译接口将英文专业术语转化为中文，得到仅含中文字符的数据集；步骤4：通过查询在线新华字典，获取数据集中所有字符的部首，对于没有部首的汉字，将字符本身看作词；步骤5：部首特征获取，其基...

【专利技术属性】
技术研发人员：李晓庆，朱广丽，张顺香，吴厚月，许鑫，苏明星，李健，黄菊，魏苏波，孙争艳，张镇江，赵彤，
申请(专利权)人：安徽理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人