本发明专利技术公开了一种医院门户网站门诊专家信息抽取系统,对于查询接口的发现和筛选,采用静态发现和动态筛选相结合的方式,静态发现利用制定的规则,发现web页面中的查询表单;对于无法判断为查询接口的查询表单,采用动态筛选的方法,根据服务器的返回结果进行二次判断。在本发明专利技术中,通过建立领域模型,对查询接口所属领域进行分类,利用领域关键词进行表单填写,从而实现多属性查询表单的二次查询且不需要进行“正负”2次查询,节省了系统的开销。对于信息抽取时,噪声信息的过滤,提出了一种网页分块重要度模型,该模型根据网页分块的内容特征和空间特征,通过一定的算法为其分配重要程度值,重要程度值高的分块,为待抽取内容。
【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种医院门户网站门诊专家信息抽取系统,对于查询接口的发现和筛选,采用静态发现和动态筛选相结合的方式,静态发现利用制定的规则,发现web页面中的查询表单;对于无法判断为查询接口的查询表单,采用动态筛选的方法,根据服务器的返回结果进行二次判断。在本专利技术中,通过建立领域模型,对查询接口所属领域进行分类,利用领域关键词进行表单填写,从而实现多属性查询表单的二次查询且不需要进行“正负”2次查询,节省了系统的开销。对于信息抽取时,噪声信息的过滤,提出了一种网页分块重要度模型,该模型根据网页分块的内容特征和空间特征,通过一定的算法为其分配重要程度值,重要程度值高的分块,为待抽取内容。【专利说明】医院门户网站门诊专家信息抽取系统
本专利技术属于医学信息学领域,具体涉及一种医院门户网站门诊专家信息抽取系 统。
技术介绍
目前,绝大多数医院的门户网站上都会有该医院专家信息(职称、科室、擅长领域、 门诊时间等)的介绍。经过对江苏省二级甲等以上的医院的门户网站进行了统计,结果显 示,90%以上的医院网站上均有专家信息的介绍以及门诊时间,在抽查的样本中,40%左右 的信息是以静态页面的形式呈现(也称浅层网,surface web),其余均以查询的方式呈现 (也称深层网,deep web) (M.K. Bergman. The Deep Web: Surfacing Hidden Value· The Journal of Electronic Publishing. 2001,7 (1):8912_8914),即需要通过参数查询的 方式才能获取到需要的专家信息。无论是浅网数据,还是深层网数据,如果在某一区域范围 内,能够将各个医院所有的专家信息进行收集,并集成到社区居民电子健康档案系统数据 库当中,将为社区居民的就医提供极大的便利。 信息抽取(Information Extraction, IE)指的是利用相关的算法,从未知的用 自然语言描述的文档中,抽取具有固定格式的、无歧义的以及结构化或半结构化的信息。 (Thanaa M. Ghanem, ffalid G. Aref. Databases Deepen the Web. IEEE Computer Society Press Los Alamitos, 2004,37(1): 116-117·)。目前信息抽取的主要对象是 具有海量非结构化数据的业务系统,如电子病历系统(王理,张远鹏,董建成.利用领域 关联知识从电子病历中抽取检查数据.中华医院管理杂志,2014, 3(30) :210-213),或 者是Web资源。本文所抽取的对象是web资源。关于Web页面的信息抽取,国内外已经有 大量的文献报道。伊利诺伊大学厄本那 -香槟分校的研究人员(MetaQuerier Research Group. Aceessible at http://metaquerier.es.uiuc.edu/ Oetober, 2005)利用谷歌搜 索引擎和Web目录服务人工收集了 8个领域的441个Deep Web中的477个查询接口,构建 了 TEL-8数据集,为后续的研究奠定了基础。J Cope等(J Cope,N Craswell,D Hawking. Automated Discovery of search Interfaces on the web. Proceedings of the 14th Australasian database conference, 2003,143:181-189)在 deep web 数据抽取时,根 据web表单特征,利用C4. 5算法,构建表单分类器,但是该方法的准确率和正确率并不高, 不能满足实际抽取的需要。本文在J Cope的研究基础上,通过构建领域模型,实现查询接 口的分类和二次判别。对于返回的查询结果,往往包含许多与抽取主题无关噪声信息,对于 噪声信息的过滤,目前大多数采用的是基于规则的方法,例如,Yan Fu (Yan F, Dongqing Yang, Shiwei Tang. Using XPath to Discover Informative Content Blocks of Web Pages. Proceedings of the third International Conference on Semantics, Knowledge and Grid. SKG, 2007, 450-453)等人提出了 XPath算法,并将该方法在5类不 同的网页数据上进行测试,准确率和正确率分别为92%和83. 2%。但是,该方法的使用需要 有一个重要的前提,即抽取的网页需要具备类似的布局,当抽取的网页数量非常庞大时,这 一前提很难保证,因此,基于规则的方法具有一定的局限性。 对于医院门户网站门诊专家信息的抽取,所用技术主要体现在查询接口(web表 单)的发现和筛选以及信息抽取时噪声信息的过滤。 对于查询接口的发现和筛选,目前J Cope等提出了一种基于规则的查询接口的发 现的方法,该方法认为:(l)web页面中必须含有form元素;(2)form元素中必须含有Text 元素;(3)form元素内,至少包含一个"搜索"、"查询"等类似关键词。但是该方法存在一 定的缺陷:(1)无法将搜索引擎表单区分开来;(2)仅仅根据web页面的源码信息,总结查 询接口的特征,具有一定的局限性。Bergholz等人构建了一种"正负"查询策略,正查询选 取领域相关的关键词进行提交,负查询选取与领域无关的关键词进行提交。他们认为,对于 deep web查询接口,所有负查询返回的页面的相似度一般不超过5% ;绝大多数正查询返回 的页面大小是负查询的至少3倍以上,且LDS大于IK。但是这种判断方式需要进行2次查 询,系统的开销比较大,而且一般只实用于全文查询表单,对于多属性查询表单,显得无能 为力,因此具有一定的局限性。 对于信息抽取时噪声信息的过滤,Yan Fu等人提出了 XPath算法,并将该方法在5 类不同的网页数据上进行测试,准确率和正确率分别为92%和83. 2%。但是,该方法的使用 需要有一个重要的前提,即抽取的网页需要具备类似的布局,当抽取的网页数量非常庞大 时,这一前提很难保证,因此,基于规则的方法具有一定的局限性。 公开的专利,申请号为201010256704. 7,名称为"一种网页分块的重要度评估方法 和设备"的专利中,使用的方法是识别分块的类型,分配权值,并进行排序,目的是在移动终 端上,对于权值低的分块,进行折叠显示,对于权重高的分块,展开显示。而在本专利中,想 获取与抽取主题相关的分块,采用的方法是通过人工标注部分分块,将其表示为(X,y)的形 式,其中X表示分块的特征,y表示分块的重要程度值,对于标注的数据进行训练,形成训练 集合T ;因此,归结为寻找函数f(x),使相关函数取得最小值。
技术实现思路
专利技术目的:为了解决现有技术的不足,本专利技术提供了一种医院门户网站门诊专家 信息抽取系统。对于技术背景中所阐述的存在的技术问题,在本专利技术中将做本文档来自技高网...
【技术保护点】
一种医院门户网站门诊专家信息抽取系统,其特征在于:主要包括如下2个步骤:步骤一、查询接口的发现和筛选:采用静态发现和动态筛选相结合的方式:静态发现:主要是利用制定的规则,发现web页面中的查询表单;但并非所有查询表单都是所需要的查询接口,因此,对于无法判断为查询接口的查询表单,采用动态筛选的方法,即通过“二次探测查询”的方式,根据服务器的返回结果进行二次判断:通过建立领域模型,对查询接口所属领域进行分类,利用领域关键词进行表单填写,从而实现多属性查询表单的二次查询且不需要进行“正负”2次查询,节省系统的开销;步骤二、对于信息抽取过程中,噪声信息的过滤:对于信息抽取时,噪声信息的过滤,采用网页分块重要度模型,所述模型根据网页分块的内容特征和空间特征,通过重要程度值的计算算法为其分配重要程度值,重要程度值高的分块,为待抽取内容。
【技术特征摘要】
【专利技术属性】
技术研发人员:张远鹏,王理,钱旦敏,
申请(专利权)人:南通大学,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。