网页内文抽取方法技术

技术编号：32851054 阅读：19 留言：0更新日期：2022-03-30 19:06

一种网页内文抽取方法，运用于电子装置并且包括：取得特定网页的网页截图及网页原始码；对网页截图进行辨识，以取得至少一个目标区块在网页截图中的位置，其中所述目标区块至少包括特定文字内容；对目标区块执行字元辨识处理，以取得所述特定文字内容；及，将特定文字内容与网页原始码的内容进行比对以取得与所述特定文字内容的相似度最高的特定原始码内文，并输出所述特定原始码内文以作为特定网页的网页内文。的网页内文。的网页内文。

全部详细技术资料下载

【技术实现步骤摘要】
网页内文抽取方法

[0001]本专利技术涉及一种内文抽取方法，尤其涉及一种网页的内文的抽取方法。

技术介绍

[0002]随着网际网络的普及化，人们可在网络上进行各种数据的编写、交换与传播，使得网络上存在着相当丰富的数据，进而成为大数据分析的主要数据来源。
[0003]为了能够自动、有效且大量地搜集网络数据，进而能够对数据进行分析，并直接影响舆情分析结果，网页内容的抽取技术因应而生。
[0004]目前常见的网页抽取技术主要包括规则式抽取方法和机器学习式抽取方法这两大类。规则式抽取方式需要针对不同的网页分别撰写对应的脚本，而不同结构的网页就必须制定不同的抽取规则并撰写不同的脚本，不但耗费时间，也无法被广泛使用。
[0005]至于机器学习式抽取方法，常会因为网页中存在着内文以外的大量文字(例如广告、推荐文章等)、内文的来源网页的数量过多、每一个网页的特征皆不相同、难以定义出每个网页都符合的规则等因素，使得通过演算法来直接抽取网页内文的效果相当不稳定。
[0006]有鉴于此，为了能够更有效率且更精准地搜集网络数据以因应大数据技术的分析需求，现有的网页内文抽取技术实有加以改良的必要与急迫性。

技术实现思路

[0007]本专利技术的主要目的，在于提供一种网页内文抽取方法，可通过至少两条不同的路径来分别取得网页内文并且互相比对，以确保最终得到的网页内文的正确性。
[0008]为了实现上述目的，本专利技术的网页内文抽取方法主要是运用于一电子装置，并且至少包括下列步骤：取得一特定...

【技术保护点】

【技术特征摘要】
1.一种网页内文抽取方法，运用于一电子装置，并且包括下列步骤：a)取得一特定网页的一网页截图及一网页原始码；b)通过一物件检测模块对该网页截图进行辨识，以取得至少一目标区块在该网页截图中的位置，其中该目标区块至少包括一特定文字内容；c)通过一文字辨识模块对该网页截图中的该目标区块执行一字元辨识处理，以取得该特定文字内容；及d)通过一文字比对模块将该特定文字内容与该网页原始码的内容进行比对，以输出与该特定文字内容的相似度最高的一特定原始码内文。2.如权利要求1所述的网页内文抽取方法，其中，该步骤d)包括下列步骤：d1)通过一原始码分析模块对该网页原始码进行分析以取得多组原始码内文，其中各该原始码内文分别对应至该网页原始码中的至少一个标签类别；d2)通过该文字比对模块比对该特定文字内容及各该原始码内文的一相似度，并且取得与该特定文字内容的相似度最高的该特定原始码内文；及d3)输出该特定原始码内文。3.如权利要求2所述的网页内文抽取方法，其中，该特定网页为以超文本标记语言建构的网页，并且该标签类别至少包括所述超文本标记语言中的内文标签。4.如权利要求1所述的网页内文抽取方法，其中，该步骤a)是取得该特定网页的一网址，基于该网址开启该特定网页，并于该特定网页被开启后取得该特定网页的该网页截图及该网页原始码。5.如权利要求1所述的网页内文抽取方法，其中，该目标区块至少包括一内文区块以及一标题区块，该特定文字内容为该特定网页中的内文文字以及标题文字。6.如权利要求1所述的网页内文抽取方法，其中，该步骤b)是基于该目标区块的位置对该网页截图进行裁切以产生一裁切后影像，并且该步骤c)是对该裁切后影像执行该字元辨识处理以取得该特定文字内容。7.如权利要求1所述的网页内文抽取方法，其中，该步骤b)包括下列步骤：b11)由该物件检测模块对该网页截图进行辨...

【专利技术属性】
技术研发人员：汤珮茹，陈宜均，
申请(专利权)人：台达电子工业股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人