医院门户网站门诊专家信息抽取系统技术方案

技术编号：10910929 阅读：121 留言：0更新日期：2015-01-14 18:12

本发明专利技术公开了一种医院门户网站门诊专家信息抽取系统，对于查询接口的发现和筛选，采用静态发现和动态筛选相结合的方式，静态发现利用制定的规则，发现web页面中的查询表单；对于无法判断为查询接口的查询表单，采用动态筛选的方法，根据服务器的返回结果进行二次判断。在本发明专利技术中，通过建立领域模型，对查询接口所属领域进行分类，利用领域关键词进行表单填写，从而实现多属性查询表单的二次查询且不需要进行“正负”2次查询，节省了系统的开销。对于信息抽取时，噪声信息的过滤，提出了一种网页分块重要度模型，该模型根据网页分块的内容特征和空间特征，通过一定的算法为其分配重要程度值，重要程度值高的分块，为待抽取内容。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种医院门户网站门诊专家信息抽取系统，对于查询接口的发现和筛选，采用静态发现和动态筛选相结合的方式，静态发现利用制定的规则，发现web页面中的查询表单；对于无法判断为查询接口的查询表单，采用动态筛选的方法，根据服务器的返回结果进行二次判断。在本专利技术中，通过建立领域模型，对查询接口所属领域进行分类，利用领域关键词进行表单填写，从而实现多属性查询表单的二次查询且不需要进行“正负”2次查询，节省了系统的开销。对于信息抽取时，噪声信息的过滤，提出了一种网页分块重要度模型，该模型根据网页分块的内容特征和空间特征，通过一定的算法为其分配重要程度值，重要程度值高的分块，为待抽取内容。【专利说明】医院门户网站门诊专家信息抽取系统
本专利技术属于医学信息学领域，具体涉及一种医院门户网站门诊专家信息抽取系统。
技术介绍
目前，绝大多数医院的门户网站上都会有该医院专家信息(职称、科室、擅长领域、门诊时间等）的介绍。经过对江苏省二级甲等以上的医院的门户网站进行了统计，结果显示，90%以上的医院网站上均有专家信息的介绍以及门诊时间，在抽查的样本中，40%左右的信息是以静态页面的形式呈现(也称浅层网，surface web)，其余均以查询的方式呈现 (也称深层网，deep web) (M.K. Bergman. The Deep Web: Surfacing Hidden Value· The Journal of Electronic Publishing. 2001，7 (1):8912_8914)，即需要通过参...

【技术保护点】
一种医院门户网站门诊专家信息抽取系统，其特征在于：主要包括如下2个步骤：步骤一、查询接口的发现和筛选：采用静态发现和动态筛选相结合的方式：静态发现：主要是利用制定的规则，发现web页面中的查询表单；但并非所有查询表单都是所需要的查询接口，因此，对于无法判断为查询接口的查询表单，采用动态筛选的方法，即通过“二次探测查询”的方式，根据服务器的返回结果进行二次判断：通过建立领域模型，对查询接口所属领域进行分类，利用领域关键词进行表单填写，从而实现多属性查询表单的二次查询且不需要进行“正负”2次查询，节省系统的开销；步骤二、对于信息抽取过程中，噪声信息的过滤：对于信息抽取时，噪声信息的过滤，采用网页分块重要度模型，所述模型根据网页分块的内容特征和空间特征，通过重要程度值的计算算法为其分配重要程度值，重要程度值高的分块，为待抽取内容。

【技术特征摘要】

【专利技术属性】
技术研发人员：张远鹏，王理，钱旦敏，
申请(专利权)人：南通大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人