网页内文抽取方法技术

技术编号:32851054 阅读:13 留言:0更新日期:2022-03-30 19:06
一种网页内文抽取方法,运用于电子装置并且包括:取得特定网页的网页截图及网页原始码;对网页截图进行辨识,以取得至少一个目标区块在网页截图中的位置,其中所述目标区块至少包括特定文字内容;对目标区块执行字元辨识处理,以取得所述特定文字内容;及,将特定文字内容与网页原始码的内容进行比对以取得与所述特定文字内容的相似度最高的特定原始码内文,并输出所述特定原始码内文以作为特定网页的网页内文。的网页内文。的网页内文。

【技术实现步骤摘要】
网页内文抽取方法


[0001]本专利技术涉及一种内文抽取方法,尤其涉及一种网页的内文的抽取方法。

技术介绍

[0002]随着网际网络的普及化,人们可在网络上进行各种数据的编写、交换与传播,使得网络上存在着相当丰富的数据,进而成为大数据分析的主要数据来源。
[0003]为了能够自动、有效且大量地搜集网络数据,进而能够对数据进行分析,并直接影响舆情分析结果,网页内容的抽取技术因应而生。
[0004]目前常见的网页抽取技术主要包括规则式抽取方法和机器学习式抽取方法这两大类。规则式抽取方式需要针对不同的网页分别撰写对应的脚本,而不同结构的网页就必须制定不同的抽取规则并撰写不同的脚本,不但耗费时间,也无法被广泛使用。
[0005]至于机器学习式抽取方法,常会因为网页中存在着内文以外的大量文字(例如广告、推荐文章等)、内文的来源网页的数量过多、每一个网页的特征皆不相同、难以定义出每个网页都符合的规则等因素,使得通过演算法来直接抽取网页内文的效果相当不稳定。
[0006]有鉴于此,为了能够更有效率且更精准地搜集网络数据以因应大数据技术的分析需求,现有的网页内文抽取技术实有加以改良的必要与急迫性。

技术实现思路

[0007]本专利技术的主要目的,在于提供一种网页内文抽取方法,可通过至少两条不同的路径来分别取得网页内文并且互相比对,以确保最终得到的网页内文的正确性。
[0008]为了实现上述目的,本专利技术的网页内文抽取方法主要是运用于一电子装置,并且至少包括下列步骤:取得一特定网页的一网页截图及一网页原始码;通过一物件检测模块对该网页截图进行辨识,以取得至少一个目标区块在该网页截图中的位置,其中该目标区块至少包括一特定文字内容;通过一文字辨识模块对该目标区块执行一字元辨识处理,以取得该特定文字内容;及,通过一文字比对模块将该特定文字内容与该网页原始码的内容进行比对以取得与该特定文字内容的相似度最高的一特定原始码内文,并输出该特定原始码内文以作为该特定网页的一网页内文。
[0009]本专利技术相对于相关技术所能达到的技术效果在于,通过网页截图以及网页原始码来分别取得一笔抽取数据,再经由比对两笔抽取数据来得到最终的网页内文,因此可以提升网页内文的精确度。并且,本专利技术可以从单一个网页中直接抽取并输出所需的网页内文,不需要检索与参考其他网页的内容,因此可以有效节省抽取时间。
[0010]如上所述,本专利技术是先通过两条不同的路径取得两笔不同的抽取数据,再通过比对这两笔抽取数据以决定并输出最终的网页内文,因此可以使用误差范围较大的辨识模块,进而允许以极少量的数据来训练要使用的辨识模块。并且,本专利技术的抽取方法不需要由使用者来自订抽取规则,因此对于不同的网页也具有泛用性。
附图说明
[0011]图1为本专利技术的抽取系统的方框图的第一具体实施例。
[0012]图2为本专利技术的抽取方法流程图的第一具体实施例。
[0013]图3为特定网页的示意图。
[0014]图4为本专利技术的目标区块示意图的第一具体实施例。
[0015]图5A为标题截图的第一具体实施例。
[0016]图5B为内文截图的第一具体实施例。
[0017]图6为本专利技术的网页原始码比对流程图的第一具体实施例。
[0018]图7为网页原始码的示意图。
[0019]图8为本专利技术的目标区块辨识流程图的第一具体实施例。
[0020]图9为本专利技术的目标区块示意图的第二具体实施例。
[0021]图10为内文截图的第二具体实施例。
[0022]其中,附图标记说明如下:
[0023]1…
电子装置
[0024]11

网页影像获取模块
[0025]12

原始码分析模块
[0026]13

物件检测模块
[0027]14

文字辨识模块
[0028]15

文字比对模块
[0029]16

输出模块
[0030]2…
特定网页
[0031]21

标题
[0032]22

内文
[0033]23

照片
[0034]24

功能键
[0035]25

其他信息
[0036]30

定位框
[0037]31

标题区块
[0038]310

裁切后标题影像
[0039]32

内文区块
[0040]320、320
’…
裁切后内文影像
[0041]4…
网页原始码
[0042]41

原始码内文
[0043]42

标签
[0044]S10~S16

抽取步骤
[0045]S120~S128

目标区块截取步骤
[0046]S160~S166

比对步骤
具体实施方式
[0047]兹就本专利技术的一优选实施例,配合附图,详细说明如后。
[0048]参阅图1,为本专利技术的抽取系统的方框图的第一具体实施例。本专利技术公开了一种网页内文抽取方法(下面将于说明书中简称为抽取方法),所述抽取方法运用于如图1所示的电子装置1中。所述电子装置1为一种可以连接网际网络并且能够通过浏览器(Browser)来开启并浏览网页的电子装置,例如但不限于个人电脑、笔记本电脑、云端服务器、智能手机、平板电脑等。本专利技术将所述电子装置1作为抽取系统,并用以实现本专利技术的抽取方法。
[0049]所述电子装置1至少具有处理器及存储单元(图未标示),由处理器来对特定网页2进行分析并抽取特定网页2的网页内文,并且由存储单元来存储处理器所抽取的网页内文,以利于后续的分析动作。并且,所述电子装置1还可具备如电池、键盘、触控式屏幕、鼠标、连接器、喇叭、无线传输单元等一般电子装置的通用元件,于此不再赘述。
[0050]所述处理器可以运行特定的软件、固件或演算法,以执行本专利技术的抽取方法。并且,基于所述软件、固件或演算法所能实现的多个功能,所述处理器可以被逻辑切割成多个软件模块。借此,本专利技术可由这些软件模块来构成一个用以执行本专利技术的抽取方法的抽取系统。
[0051]如图1所示,当本专利技术的电子装置1通过处理器执行了特定的软件、固件或演算法时,可至少将处理器逻辑配合上述如特定的软件,切割成网页影像获取模块11、原始码分析模块12、物件检测模块13、文字辨识模块14、文字比对模块15及输出模块16,并且通过这些模块11-16来实现本专利技术的抽取方法。
[0052]具体地,电子装置1可通过浏览器开启一个特定网页2,接着,处理器通过网页本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网页内文抽取方法,运用于一电子装置,并且包括下列步骤:a)取得一特定网页的一网页截图及一网页原始码;b)通过一物件检测模块对该网页截图进行辨识,以取得至少一目标区块在该网页截图中的位置,其中该目标区块至少包括一特定文字内容;c)通过一文字辨识模块对该网页截图中的该目标区块执行一字元辨识处理,以取得该特定文字内容;及d)通过一文字比对模块将该特定文字内容与该网页原始码的内容进行比对,以输出与该特定文字内容的相似度最高的一特定原始码内文。2.如权利要求1所述的网页内文抽取方法,其中,该步骤d)包括下列步骤:d1)通过一原始码分析模块对该网页原始码进行分析以取得多组原始码内文,其中各该原始码内文分别对应至该网页原始码中的至少一个标签类别;d2)通过该文字比对模块比对该特定文字内容及各该原始码内文的一相似度,并且取得与该特定文字内容的相似度最高的该特定原始码内文;及d3)输出该特定原始码内文。3.如权利要求2所述的网页内文抽取方法,其中,该特定网页为以超文本标记语言建构的网页,并且该标签类别至少包括所述超文本标记语言中的内文标签。4.如权利要求1所述的网页内文抽取方法,其中,该步骤a)是取得该特定网页的一网址,基于该网址开启该特定网页,并于该特定网页被开启后取得该特定网页的该网页截图及该网页原始码。5.如权利要求1所述的网页内文抽取方法,其中,该目标区块至少包括一内文区块以及一标题区块,该特定文字内容为该特定网页中的内文文字以及标题文字。6.如权利要求1所述的网页内文抽取方法,其中,该步骤b)是基于该目标区块的位置对该网页截图进行裁切以产生一裁切后影像,并且该步骤c)是对该裁切后影像执行该字元辨识处理以取得该特定文字内容。7.如权利要求1所述的网页内文抽取方法,其中,该步骤b)包括下列步骤:b11)由该物件检测模块对该网页截图进行辨...

【专利技术属性】
技术研发人员:汤珮茹陈宜均
申请(专利权)人:台达电子工业股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1