一种网络学术报告的关键字段自动提取方法技术

技术编号：15437414 阅读：83 留言：0更新日期：2017-05-26 03:30

本发明专利技术公开了一种网络学术报告预告信息的关键字段自动提取方法，其特征是包括：1、收集学术报告站点，构成学术报告站点数据库，用作网络爬虫的爬取种子；2、利用网络爬虫对每个报告站点进行报告爬取；3、对爬取的每个学术报告详细页进行内容抽取，抽取的内容包括报告标题，报告简介，报告人，报告人简介，报告举办时间，报告举办地点和报告举办单位，将这些内容进行封装和结构化；4、将结构化的报告内容进行数据持久化操作；5、重复以上所述步骤，直至收集的所有站点爬取完毕。本发明专利技术通过整理网络学术报告站点信息和处理网络学术报告内容中的HTML标签，从而能有效地提取出网络学术报告关键信息。

A method for automatic extraction of key fields in network academic reports

Automatic extraction of key fields of the invention discloses a network academic report announcing information, which includes: 1, collect the academic report site, constitute the academic report site database, used as web crawling seeds; 2, the use of web crawler for each station to report report crawling; 3, for each academic crawling with report page content extraction, extracted content including the title of the report, the report of the report, report, report the report held in time, venue and report organized units, these contents are packaged and structured; 4, the contents of the report of the structured data persistent, repeat the above operation; 5 the steps, until the collection of all sites after crawling. The invention can effectively extract the key information of the network academic report by arranging the network academic report site information and processing the HTML label in the network academic report content.

全部详细技术资料下载

【技术实现步骤摘要】
一种网络学术报告的关键字段自动提取方法
本专利技术属于信息技术中的文本处理领域，主要涉及一种网络学术报告预告信息的关键字段自动提取方法。
技术介绍
随着互联网技术的迅速发展，人类社会进入了信息时代，在庞大而复杂的互联网中隐藏了大量的学术报告信息。学术报告是针对规定的学科课题，为了更好地交流专业知识、学术成果、经验以及共同讨论分析解决问题的方法，有相关的研究者和学习者参加并进行探讨、论证和研究的学术活动。学术报告作为学术交流的重要组成部分，对科学技术的传播和发展起着巨大作用，也是培养人才的一种重要手段。各高校和科研机构定期会发布一些学术报告预告，有些机构在其官网上专门开辟了一个学术报告模块用来发布学术报告预告。虽然在众多学术讲座中不乏优秀的学术报告，但是由于科研工作者无法也不可能逐一浏览各机构所发布的学术报告预告信息，因而会错过优秀的或其感兴趣的学术讲座。因此，对各高校和科研机构所发布的学术报告进行汇聚，方便科研工作者及时获取报告信息，具有实际的应用意义。网络爬虫是一个自动提取网页的程序，它为搜索引擎从互联网上下载网页，是搜索引擎的重要组成部分。网络爬虫从一个或若干个初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断地从当前页面上抽取出新的网页URL放入队列中，直到满足系统一定的停止条件。目前，获得网络学术报告预告信息的方法主要可以分为两大类：1、人工收集；2、利用网络爬虫技术进行收集。利用人工对网络学术报告进行收集，该方法虽然简单，但是需要投入大量的人力和精力，不仅费时费力，而且也无法收集全网络学术报告，实用性差。在利用网络爬虫进行网络...
一种网络学术报告的关键字段自动提取方法

【技术保护点】
一种网络学术报告的关键字段自动提取方法，其特征是按如下步骤进行：步骤1、收集学术报告站点的信息，构成学术报告站点数据库；所述学术报告站点数据库中包括：各学术报告站点的起始URL、各站点的学术报告列表URL正则表达式、各站点的学术报告详细页URL正则表达式、各站点的报告内容所在HTML标签的组合选择器表达式CE以及各站点的报告标题所在HTML标签的组合选择器表达式TE；步骤2、根据所述各学术报告站点的起始URL、各站点的学术报告列表URL正则表达式以及各站点的学术报告详细页URL正则表达式，利用网络爬虫爬取任意一个学术报告站点S，得到任意一个页面P并相应解析成DOM树格式；步骤3、根据所述页面P利用网络爬虫得到相应的Jsoup Document对象D；步骤4、根据所述组合选择器表达式CE和所述Jsoup Document对象D，利用网络爬虫获取所述组合选择器表达式CE所对应的HTML标签内的报告内容C；步骤5、对所述报告内容C进行关键词的抽取和封装，得到仅包含关键字的报告类实例R；所述关键字包括：报告标题，报告简介，报告人，报告人简介，报告举办时间，报告举办地点和报告举办单位；由关键字及...

【技术特征摘要】
1.一种网络学术报告的关键字段自动提取方法，其特征是按如下步骤进行：步骤1、收集学术报告站点的信息，构成学术报告站点数据库；所述学术报告站点数据库中包括：各学术报告站点的起始URL、各站点的学术报告列表URL正则表达式、各站点的学术报告详细页URL正则表达式、各站点的报告内容所在HTML标签的组合选择器表达式CE以及各站点的报告标题所在HTML标签的组合选择器表达式TE；步骤2、根据所述各学术报告站点的起始URL、各站点的学术报告列表URL正则表达式以及各站点的学术报告详细页URL正则表达式，利用网络爬虫爬取任意一个学术报告站点S，得到任意一个页面P并相应解析成DOM树格式；步骤3、根据所述页面P利用网络爬虫得到相应的JsoupDocument对象D；步骤4、根据所述组合选择器表达式CE和所述JsoupDocument对象D，利用网络爬虫获取所述组合选择器表达式CE所对应的HTML标签内的报告内容C；步骤5、对所述报告内容C进行关键词的抽取和封装，得到仅包含关键字的报告类实例R；所述关键字包括：报告标题，报告简介，报告人，报告人简介，报告举办时间，报告举办地点和报告举办单位；由关键字及其对应的内容构成关键字段；步骤6、判断所述报告内容C是否包含<img>标签；若包含，则执行步骤7；若不包含，则执行步骤8；步骤7、判断所述报告内容C中包含的文字数n≤所设定文字数量阈值NM是否成立，若成立，则表示所述报告内容C为纯图片报告，并设置所述报告类实例R的remark字段为“纯图片报告”后，执行步骤11；若不成立，则直接执行步骤11；步骤8、构造标签集合L，所述标签集合L中包含：HTML标签的块级结束标签</div>、</p>、</pre>、</ul>、</ol>、</li>、</h1>、</h2>、</h3>、</h4>、</h5>、</h6>，以及HTML标签的行级结束标签</br>；将所述报告内容C中属于标签集合L中的元素均替换为指定字符串S，并去除所述报告内容C中其他所有的HTML标签，从而得到纯文本Cp；步骤9、以所述指定字符串S为分隔符，对所述纯文本Cp进行分隔，获得字符串数组A；步骤10、遍历所述字符串数组A，对每一个字符串进行文本处理，抽取所述关键字所对应的关键内容，并相应填充到所述报告实例R中，得到初步报告实例R′；步骤11、对所述初步报告实例R′中的报告标题关键字所对应的内容进行空值判断；若所述报告标题关键字所对应的内容为空，则执行步骤12；否则，执行步骤15；步骤12、对所述学术报告站点S的组合选择器表达式TE进行空值判断，若所述组合选择器表达式TE为空，则执行步骤14；否则，执行步骤13；步骤13、根据所述JsoupDocument对象D和组合选择...

【专利技术属性】
技术研发人员：薛峰，许剑东，王健伟，夏帅，孙健，陈思洋，
申请(专利权)人：合肥工业大学，
类型：发明
国别省市：安徽,34

全部详细技术资料下载我是这个专利的主人