一种针对海量新闻的疾病名词自动识别方法技术

技术编号:13055353 阅读:174 留言:0更新日期:2016-03-23 18:27
本发明专利技术提供一种针对海量新闻的疾病名词自动识别方法,所述方法包括,获取第一预设新闻材料中的语料数据;构建疾病领域本体;对所述疾病领域本体进行扩充,得到扩充后的疾病领域本体;利用所述扩充后的疾病领域本体对从第一预设新闻材料中获取的语料数据进行自动标注,得到带有扩充后的疾病名词标注的训练语料;根据所述带有扩充后的疾病名词标注的训练语料,建立疾病名词自动识别模型;根据所述疾病名词自动识别模型,对第二预设新闻材料中的语料进行疾病名词识别。本发明专利技术所述方法实现了对新闻报道等语言通俗的文献中的疾病名词或其别名的自动识别。

【技术实现步骤摘要】

本专利技术涉及自然语言处理领域,特别是涉及。
技术介绍
伴随着信息全球基础设施和各国信息基础设施的形成和完善,现代社会已进入网 络化、信息化时代。网络时代的信息安全是涉及我国经济发展、社会发展、国家安全的重大 问题,因此,加强信息安全监管尤为重要。作为一种敏感性内容,疾病相关报道是新闻审核 部门的一项重要审查内容。传统新闻审核主要依赖人力,费时耗力;现有的敏感词自动识别 系统往往基于特定的词表,对未收录词无法做到自动判别。疾病本身种类多,别名丰富,且 随着时间发展往往会出现新的疾病名称。因此,研究疾病名词自动识别,尤其是对于新出现 词的自动识别,有利于更为全面的识别目标信息,从而可以辅助审核人员和决策人员进行 相关审查工作,减少敏感信息的不必要曝光,保障国家信息安全。 疾病名词是一种类型的专有名词,而专有名词抽取一直是信息抽取领域的研究重 点。目前流行的专有名词识别方法主要采用机器学习方式,其利用人工标注语料作为训练 语料,结合各种全监督式机器学习方法和特征提取方法,得到专有名词识别模型。由于,人 工标注语料费时费力,并且面临覆盖率差等各种问题,因此需要研究高质量的训练语料自 动标注方法。近年来,利用本体知识库实现训练语料的自动标注,从而得到半监督式专有名 词识别模型。作为一种能够在语义和知识层面上描述事物的概念模型,本体可以提供某一 领域的概念及其关系,可以用于语料的自动标注。 但是,现有的疾病领域本体,大多采用较为规范的学术用语。而现有文献很多是面 向人民大众的,比如新闻报道,语言相对通俗,两者之间存在较大的表达方式差异。因此,利 用现有的疾病领域本体对新闻报道进行标注得到的训练语料的覆盖率不高,进一步地,基 于这种自动标注训练语料的疾病名词识别模型也不能对新闻报道等运用通俗语言的文献 进行自动识别。
技术实现思路
(一)要解决的技术问题 本专利技术要解决的技术问题是:如何解决现有的疾病领域本体,大多采用较为规范 的学术用语,不能对新闻报道等运用通俗语言的文献很好地进行自动识别的问题。 (二)技术方案 为了解决上述技术问题,第一方面,本专利技术提供了,包 括: 获取第一预设新闻材料中的语料数据;构建疾病领域本体;对所述疾病领域本体进行扩充,得到扩充后的疾病领域本体;利用所述扩充后的 疾病领域本体对从第一预设新闻材料中获取的语料数据进行自动标注,得到带有扩充后的 疾病名词标注的训练语料; 根据所述带有扩充后的疾病名词标注的训练语料,建立疾病名词自动识别模型; 根据所述疾病名词自动识别模型,对第二预设新闻材料中的语料进行疾病名词识 别。 优选的,,所述获取第一预设新闻材料中的语料数据,具体包括:通过网络终端设备收集新闻材料数据; 对所述新闻材料数据进行预处理,包括:提取新闻材料的名称、日期、作者、标题 和/或文章数据,并进行保存。 优选的,所述构建疾病领域本体,具体包括: 获取现有的领域词表中的疾病名词和与疾病名词对应的分类关系,构建疾病领域 本体。 优选的,对所述疾病领域本体进行扩充,得到扩充后的疾病领域本体,具体包括: 基于百度百科扩充所述疾病领域本体的分类关系,得到扩充后的分类关系; 基于百度百科扩充所述疾病领域本体中疾病名词的别名,得到扩充后的疾病名词 别名。优选的,所述利用所述扩充后的疾病领域本体对从第一预设新闻材料中获取的语 料数据进行自动标注,得到带有扩充后的疾病名词标注的训练语料,具体包括:以所述扩充后的疾病领域本体中的疾病名词及其别名作为检索词,对所述语料数 据进行检索,得到包含疾病名词的报道集合; 从所述报道集合中提取包含所述疾病名词的句子; 对所述包含所述疾病名词的句子进行自动标注,得到带有疾病名词标注的训练语 料。 优选的,根据所述带有所述疾病名词标注的训练语料,建立疾病名词自动识别模 型,具体包括: 从包含所述疾病名词句子中提取高频词,建立高频词表; 对照所述高频词表,对所述带有疾病名词标注的训练语料的每个句子进行特征提 取,以当前字距离所述高频词的距离为特征值; 用所述特征值训练支持向量机,得到所述疾病名词自动识别模型。 优选的,从包含所述疾病名词句子中提取高频词,建立高频词表,具体包括: 对包含所述疾病名词句子进行统计,通过设定高频词元数、高频词个数以及不同 词元的组合方案提取所述高频词,并根据所述高频词建立所述高频词表。(三)有益效果基于上述技术方案,本专利技术通过获取第一预设新闻材料中的语料数据;构建疾病 领域本体;对所述疾病领域本体进行扩充,得到扩充后的疾病领域本体;利用所述扩充后的 疾病领域本体对从第一预设新闻材料中获取的语料数据进行自动标注,得到带有扩充后的 疾病名词标注的训练语料;根据所述带有扩充后的疾病名词标注的训练语料,建立疾病名 词自动识别模型;根据所述疾病名词自动识别模型,对第二预设新闻材料中的语料进行疾 病名词识别,提高了疾病领域本体对新闻报道进行标注得到的训练语料的覆盖率,进一步 地,本申请建立的疾病名词识别模型可以对新闻报道等运用通俗语言的文献进行很好的自 动识别。【附图说明】图1是本专利技术实施例一提供的疾病名词自动识别方法流程示意图。【具体实施方式】下面结合附图和实施例,对本专利技术的【具体实施方式】作进一步详细描述。以下实施 例适于说明本专利技术,但不用来限制本专利技术的范围。 本专利技术实施例一提供了,参见图1,包括:步骤101、获取第一预设新闻材料中的语料数据。具体为,通过网络终端设备收集新闻材料数据;对所述新闻材料数据进行预处理; 所述的预处理包括:提取新闻材料的名称、日期、作者、标题和/或文章数据,并进行保存。 在本步骤中,所述第一预设新闻材料可以为新闻日报、人民日报、光明日报或中国 青年报等新闻材料。可以看出的是,本实施例中的获取语料数据经过了预处理步骤,提取了新闻材料 数据中的重要信息,减少了在对海量文献采集语料自动标注时的工作量。步骤102、构建疾病领域本体。 在本步骤中,疾病领域本体是通过获取现有的领域词表中的疾病名词和与疾病名 词对应的分类关系构建的。 获取现有的领域词表中的疾病名词和与疾病名词对应的分类关系,构建疾病领域 本体。 现有的分类方法,比如,国际疾病分类(InternationalClassificationof Diseases,ICD)是WHO制定的国际统一的疾病分类方法,从I⑶中可以快速获得大规模的疾 病名词、疾病名词别名和分类关系。 步骤103、对所述疾病领域本体进行扩充,得到扩充后的疾病领域本体。 优选地,扩充是基于百度百科进行的,扩充内容可以是疾病领域本体中疾病的分 类关系,或者是疾病名词别名。例如,疾病名词别名的扩充,根据其对应的百度百科词条的结构化表格信息和非 结构化文本信息,使用人工构造的语言模式进行匹配,提取疾病名词的别名信息,从而扩展 疾病名词的别名关系,进而扩充疾病领域本体。 举例来说,"感冒"根据百度百科进行匹配,能获得"伤寒"等别名,把这些别名提取 出来放入疾病领域本体中,就完成了疾病领域本体关于疾病名词别名的扩充。本实施在此 起到举例说明的作用,不作为对扩充内容的限定,"感冒"还有很多别名,在此没有一一列 举。例如,疾病分类关系的扩充,是将疾病领域本体和对应的百度百科中的结构化信 息进行本文档来自技高网
...

【技术保护点】
一种疾病名词自动识别方法,其特征在于,包括:获取第一预设新闻材料中的语料数据;构建疾病领域本体;对所述疾病领域本体进行扩充,得到扩充后的疾病领域本体;利用所述扩充后的疾病领域本体对从第一预设新闻材料中获取的语料数据进行自动标注,得到带有扩充后的疾病名词标注的训练语料;根据所述带有扩充后的疾病名词标注的训练语料,建立疾病名词自动识别模型;根据所述疾病名词自动识别模型,对第二预设新闻材料中的语料进行疾病名词识别。

【技术特征摘要】

【专利技术属性】
技术研发人员:陈瑛高万林程碧霄赵明彭珺杜亚茹
申请(专利权)人:中国农业大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1