一种针对海量新闻的疾病名词自动识别方法技术

技术编号：13055353 阅读：188 留言：0更新日期：2016-03-23 18:27

本发明专利技术提供一种针对海量新闻的疾病名词自动识别方法，所述方法包括，获取第一预设新闻材料中的语料数据；构建疾病领域本体；对所述疾病领域本体进行扩充，得到扩充后的疾病领域本体；利用所述扩充后的疾病领域本体对从第一预设新闻材料中获取的语料数据进行自动标注，得到带有扩充后的疾病名词标注的训练语料；根据所述带有扩充后的疾病名词标注的训练语料，建立疾病名词自动识别模型；根据所述疾病名词自动识别模型，对第二预设新闻材料中的语料进行疾病名词识别。本发明专利技术所述方法实现了对新闻报道等语言通俗的文献中的疾病名词或其别名的自动识别。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自然语言处理领域，特别是涉及。
技术介绍
伴随着信息全球基础设施和各国信息基础设施的形成和完善，现代社会已进入网络化、信息化时代。网络时代的信息安全是涉及我国经济发展、社会发展、国家安全的重大问题，因此，加强信息安全监管尤为重要。作为一种敏感性内容，疾病相关报道是新闻审核部门的一项重要审查内容。传统新闻审核主要依赖人力，费时耗力;现有的敏感词自动识别系统往往基于特定的词表，对未收录词无法做到自动判别。疾病本身种类多，别名丰富，且随着时间发展往往会出现新的疾病名称。因此，研究疾病名词自动识别，尤其是对于新出现词的自动识别，有利于更为全面的识别目标信息，从而可以辅助审核人员和决策人员进行相关审查工作，减少敏感信息的不必要曝光，保障国家信息安全。疾病名词是一种类型的专有名词，而专有名词抽取一直是信息抽取领域的研究重点。目前流行的专有名词识别方法主要采用机器学习方式，其利用人工标注语料作为训练语料，结合各种全监督式机器学习方法和特征提取方法，得到专有名词识别模型。由于，人工标注语料费时费力，并且面临覆盖率差等各种问题，因此需要研究高质量的训练语料自动标注方法。近年来，利用本体知识库实现训练语料的自动标注，从而得到半监督式专有名词识别模型。作为一种能够在语义和知识层面上描述事物的概念模型，本体可以提供某一领域的概念及其关系，可以用于语料的自动标注。但是，现有的疾病领域本体，大多采用较为规范的学术用语。而现有文献很多是面向人民大众的，比如新闻报道，语言相对通俗，两者之间存在较大的表达方式差异。因此，利用现有...

【技术保护点】
一种疾病名词自动识别方法，其特征在于，包括：获取第一预设新闻材料中的语料数据；构建疾病领域本体；对所述疾病领域本体进行扩充，得到扩充后的疾病领域本体；利用所述扩充后的疾病领域本体对从第一预设新闻材料中获取的语料数据进行自动标注，得到带有扩充后的疾病名词标注的训练语料；根据所述带有扩充后的疾病名词标注的训练语料，建立疾病名词自动识别模型；根据所述疾病名词自动识别模型，对第二预设新闻材料中的语料进行疾病名词识别。

【技术特征摘要】

【专利技术属性】
技术研发人员：陈瑛，高万林，程碧霄，赵明，彭珺，杜亚茹，
申请(专利权)人：中国农业大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人