一种医疗领域中文文本部首特征获取方法技术

技术编号:32857556 阅读:35 留言:0更新日期:2022-03-30 19:31
本发明专利技术公开了一种融合部首信息的医疗领域中文文本因果关系抽取方法,涉及数据挖掘技术领域,包括:通过网络爬虫获取医疗领域中文文本数据集,再对获取到的数据进行预处理,采用谷歌翻译技术将文本中的英文专业名词转化为中文,利用在线新华字典获取所有字符的部首,再利用Word2Vec架构对部首进行增量训练,得到部首特征表示,然后将部首特征向量作为因果关系抽取模型的输入,对数据集进行因果关系抽取,得到因果关系实体。本发明专利技术解决了现有对医疗领域中文文本数据进行有效地因果关系抽取问题。通过本发明专利技术可以得到医疗领域中文文本数据的因果实体。数据的因果实体。数据的因果实体。

【技术实现步骤摘要】
一种医疗领域中文文本部首特征获取方法


[0001]本专利技术涉及医疗领域部首特征获取,尤其涉及一种医疗领域中文文本部首特征获取方法。

技术介绍

[0002]随着互联网技术的飞速发展,网络信息呈现指数级增长的态势,一大批在线医疗社区和医疗信息问答网站也随之涌现,使得海量的医疗诊断信息以电子文档的形式呈现在人们面前。据统计,仅国内的某寻医问药网站就包含了2004年11月至今十余年的疾病问答诊断数据,从而形成了海量且具有巨大潜在价值的医疗数据。然而,与数据库不同的是,这些医疗数据文本大多处于非结构化的状态。为了充分利用这些医疗领域文本蕴含的信息,通过命名实体识别技术、因果关系抽取技术等有效抽取其中有用的医疗信息,已成为实现智慧医疗的前提和基础。但是,医疗领域文本数据与传统的文本有许多不同的特征,如包含大量英文实体名、语义与部首高度相关等特性,这些特性给挖掘医疗信息抽取来了新的挑战。此时,就需要一个能融合部首信息、丰富文本语义信息的方法。
[0003]目前,人们对部首信息的研究主要集中在命名实体识别领域。汉字具有单字可成词的特点,且汉字的偏旁部首往往蕴含着重要的信息。对部首信息的研究主要是通过条件随机场模型、双向长短期记忆网络模型等,获取部首特征,将部首特征融入到字符特征中,实现文本语义信息的丰富,得到融合部首信息的字符特征向量表示。本文通过Word2Vec架构获取字符部首特征,丰富文本语义信息。

技术实现思路

[0004]为了解决上述问题,本专利技术的目的在于提供一种医疗领域中文文本部首特征获取方法
[0005]为了达到上述目的,本专利技术提供的一种医疗领域中文文本部首特征获取方法是按以下步骤进行的:
[0006]步骤1:数据获取。获取医疗领域中文文本数据集合D={D1,D2...D
n
},D
i
表示第i个文本,1≤i≤n,n为集合D中的文本总数;
[0007]步骤2:对获取的文本数据进行预处理,其基本步骤如下:
[0008]步骤2.1:去除文本中的停用词、网页标签等,进行分词;
[0009]步骤2.2:将文本提取成结构化数据,装入数据库;
[0010]步骤3:将文本数据中的英文专业术语转化为中文,其基本步骤如下:
[0011]步骤3.1:利用ASCII码值定位数据集中的英文专业术语;
[0012]步骤3.2:利用谷歌翻译接口将英文专业术语转化为中文,得到仅含中文字符的数据集;
[0013]步骤4:通过查询在线新华字典,获取数据集中所有字符的部首,对于没有部首的汉字,将字符本身看作词;
[0014]步骤5:部首特征获取,其基本步骤如下:
[0015]步骤5.1:定义变量,定义data为训练语料,停用词表stopword,返回的向量长度num_features,最低词频min_word_count,滑动窗口大小context,是否进行增量训练incremental,若进行增量训练,原始模型路径old_pat;
[0016]步骤5.2:模型训练,从头开始训练模型,这里经过清洗之后的语料数据为text,返回Word2Vec模型;
[0017]步骤5.3:增量训练word2Vec模型,这里经过清洗之后的语料数据为text,返回Word2Vec模型;
[0018]步骤5.4:主函数,加入自定义分词词表,保存模型;
[0019]步骤6:经过以上步骤对部首进行增量训练,可以得到部首特征向量表示;
[0020]步骤7:利用BERT模型获取字符特征向量表示;
[0021]步骤8:将部首特征作为行向量拼接在字符特征之后,得到融合部首信息的字符特征。
[0022]本专利技术所具有的优点和积极效果是:本专利技术的中文医疗领域部首特征获取方法能够获取中文字符部首特征,将其融入到字符特征中,可以丰富文本语义信息,便于建立医学知识库、构建在线问诊平台等下游任务。
附图说明
[0023]为了更清楚地说明本专利技术的技术方案,对本专利技术所需要使用的附图作简单的介绍。
[0024]图1为本专利技术提供的一种医疗领域中文文本部首特征获取方法结构框图;
[0025]图2为本专利技术提供的一种医疗领域中文文本部首特征获取的实例说明图
具体实施方式
[0026]下面对本专利技术做进一步说明:
[0027]本专利技术的目的在于提供一种医疗领域中文文本部首特征获取方法。这是一种在现有字符特征的基础上,通过Word2Vec架构对部首进行增量训练,获取字符部首特征,丰富文本语义信息,为医疗领域下游任务提供理论基础和技术支持。
[0028]结合图1、2,本专利技术一种医疗领域中文文本部首特征获取方法是按以下步骤进行的:
[0029]步骤1:数据获取。获取医疗领域中文文本数据集合D={D1,D2...D
n
},D
i
表示第i个文本,1≤i≤n,n为集合D中的文本总数;
[0030]步骤2:对获取的文本数据进行预处理,其基本步骤如下:
[0031]步骤2.1:去除文本中的停用词、网页标签等,进行分词;
[0032]步骤2.2:将文本提取成结构化数据,装入数据库;
[0033]步骤3:将文本数据中的英文专业术语转化为中文,其基本步骤如下:
[0034]步骤3.1:利用ASCII码值定位数据集中的英文专业术语;
[0035]步骤3.2:利用谷歌翻译接口将英文专业术语转化为中文,得到仅含中文字符的数据集;
[0036]步骤4:通过查询在线新华字典,获取数据集中所有字符的部首,对于没有部首的汉字,将字符本身看作词;
[0037]步骤5:部首特征获取,其基本步骤如下:
[0038]步骤5.1:定义变量,定义data为训练语料,停用词表stopword,返回的向量长度num_features,最低词频min_word_count,滑动窗口大小context,是否进行增量训练incremental,若进行增量训练,原始模型路径old_pat;
[0039]步骤5.2:模型训练,从头开始训练模型,这里经过清洗之后的语料数据为text,返回Word2Vec模型;
[0040]步骤5.3:增量训练word2Vec模型,这里经过清洗之后的语料数据为text,返回Word2Vec模型;
[0041]步骤5.4:主函数,加入自定义分词词表,保存模型;
[0042]步骤6:经过以上步骤对部首进行增量训练,可以得到部首特征向量表示;
[0043]步骤7:利用BERT模型获取字符特征向量表示;
[0044]步骤8:将部首特征作为行向量拼接在字符特征之后,得到融合部首信息的字符特征。
[0045]此外,以上实施方式仅用以说明本专利技术的具体实施方式而不是对其限制,本领域技术人员应当理解,还可以对其中部分技术特征进行同等替换,这些修改和替换亦属于本专利技术保护范围。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种一种医疗领域中文文本部首特征获取方法,其特征在于包括如下步骤:步骤1:数据获取。获取医疗领域中文文本数据集合D={D1,D2...D
n
},D
i
表示第i个文本,1≤i≤n,n为集合D中的文本总数;步骤2:对获取的文本数据进行预处理,其基本步骤如下:步骤2.1:去除文本中的停用词、网页标签等,进行分词;步骤2.2:将文本提取成结构化数据,装入数据库;步骤3:将文本数据中的英文专业术语转化为中文,其基本步骤如下:步骤3.1:利用ASCII码值定位数据集中的英文专业术语;步骤3.2:利用谷歌翻译接口将英文专业术语转化为中文,得到仅含中文字符的数据集;步骤4:通过查询在线新华字典,获取数据集中所有字符的部首,对于没有部首的汉字,将字符本身看作词;步骤5:部首特征获取,其基...

【专利技术属性】
技术研发人员:李晓庆朱广丽张顺香吴厚月许鑫苏明星李健黄菊魏苏波孙争艳张镇江赵彤
申请(专利权)人:安徽理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1