一种基于web方式的电子邮件自动采集的系统及方法技术方案

技术编号:27539076 阅读:85 留言:0更新日期:2021-03-03 11:30
本发明专利技术提出的是一种基于web方式的电子邮件自动采集的系统及方法。包括采集前端子系统、存储子系统、采集后端子系统:1)对指定的webmail页面的指定账户进行一次基于web方式的电子邮件人工操作的登录访问过程,webmail学习模块对该过程进行监控、自动分析和学习,获取指定的webmail访问模式;2)对指定的webmail,使用webmail通信模块根据学习过程获取的访问模式自动访问webmail服务系统,对webmail服务系统上指定账户的新邮件实施自动采集并存储到本地存储器中;3)使用采集后端子系统实现对采集的电子邮件的内容呈现和管理。能够实现对不同电子邮件服务器的的多个webmail电子邮件账户的电子邮件自动采集和管理。适宜作为电子邮件自动采集的系统及方法应用。用。用。

【技术实现步骤摘要】
一种基于web方式的电子邮件自动采集的系统及方法


[0001]本专利技术涉及互联网领域通过网络使用计算机软件自动采集多个指定webmail用户账号的电子邮件的系统及方法,特别是涉及一种基于web方式的电子邮件自动采集的系统及方法。

技术介绍

[0002]目前,自动邮件采集和处理通常应用于企业信息管理、计算机网络取证等领域。
[0003]现有的邮件采集有下面几种方法:1、通过本地操作和访问,直接从邮件服务器上获取指定邮件账号的邮件信息。即通过本地访问邮件服务器上的数据文件和数据库数据来获取特定邮件帐户的邮件,从而实现采集。该技术的缺陷在于如果无法直接控制和本地访问邮件服务器,就无法实施取证。即该种方法只限用于对企业自己提供的邮件服务器的邮件采集,对于企业之外的邮件服务器如yahoo、sina、163等公共邮件系统无法采用这种方式进行采集。
[0004]2、通过实现POP3(Post Office Protocol)或IMAP4(Interactive mail access protocol)协议,从支持POP3或IMAP4协议的邮件服务器上获取需要指定邮件账户的邮件,例如使用现有的微软的OUTLOOK软件或FOXMAIL软件。该技术缺点在于:只能针对支持POP3或IMAP4邮件协议的邮件系统自动采集邮件,如果邮件系统只提供基于网页方式方式,或者所在的网络环境中由于代理服务器或防火墙限制,只允许采用HTTP通信协议访问的webmailwebmail服务系统,则这种方法不能适用。
[0005]3、通过使用浏览器访问实施采集。对于提供webmail服务的邮件系统的邮件账号,可以通过使用浏览器直接访问webmail服务系统的网页,从而获取指定邮件账号的邮件信息。该技术存在的缺陷在于:一是只能人工使用手动操作方式访问网页,在webmail主页上人工操作逐一输入要采集的账号和密码登录webmail服务系统,然后人工访问各个文件夹逐一手动下载新邮件,速度慢,效率低,容易遗漏邮件信息;二是由于人工访问的时间差可能引起邮件读取状态的变化不及时,从而影响被采集账户的用户自身的正常使用。
[0006]针对上述邮件采集存在的问题,本专利技术提供一种高效的自动采集webmail邮件的方法和系统,可以应用于如yahoo、sina、163等公共webmail邮件系统。

技术实现思路

[0007]本专利技术目的为提供一种对基于web方式的电子邮件自动采集的方法和系统,该方法及系统能够针对多种webmail服务系统,多个用户基于web方式自动采集并存储用户邮件,不破坏、不影响被采集用户正常使用和访问自己的邮件信息。该系统及方法适用于现有的提供基于网页访问的webmail邮件服务的webmail服务系统, 整个采集过程使用HTTP通信协议,不受代理服务器或防火墙对外访问协议限制的影响,也不受其后台邮件服务协议采用POP3或IMAP4或其他服务协议的限制。
[0008]本专利技术解决技术问题所采用的方案是:
一种对基于web方式的电子邮件自动采集的系统,包括采集前端子系统、存储子系统、采集后端子系统;所述采集前端子系统,用于对不同的邮件系统的指定邮件账户,采用web方式自动采集对应邮件账户在互联网上的webmail服务系统中的所有新邮件,存储到本地存储子系统中,并自动删除邮件服务器中已被采集的邮件信息;所述存储子系统,对采集前端子系统自动采集的邮件分类按多层次目录文件存储,同时存储下载邮件的索引;所述采集后端子系统,分析和呈现所有被采集邮件的内容,提供邮件的关键字搜索、排序功能,提供对采集前端子系统参数设置的功能。
[0009]所述采集前端子系统包括:webmail学习模块、webmail通信模块、webmail控制数据;所述webmail学习模块,通过以太网网络数据监听方式,获取通过人工使用浏览器以web方式登录访问指定的webmail服务系统的邮件账户登录、打开邮件箱行为的通信过程和通信内容,分析通信流程、通信内容、内容格式,根据分析结果生成并记录该webmail服务系统的访问模式。该访问模式用于后续对该webmail服务系统上的指定邮件账户的邮件自动采集的通信过程;所述webmail通信模块,依据webmail学习模块学习过程得到的访问模式,实施自动通过HTTP通信方式使用指定邮件账户登录指定webmail服务系统自动获取新邮件数据并传送到本地的通信过程;所述webmail控制数据,包含设置需要webmial通信模块自动采集邮件数据的邮件账户以及采集过程中的行为控制选项数据;所述存储子系统包括:邮件文件生成模块,本地邮件存储器;所述邮件文件生成模块负责把单个邮件数据生成指定格式的文件;所有下载的邮件存储到本地邮件存储器中,并建立相应的索引。
[0010]所述采集后端子系统包括:邮件呈现模块,邮件解析模块,系统管理模块;所述邮件呈现模块负责以图形交互界面向用户呈现存储在本地邮件存储器中的自动采集的所有邮件文件;所述邮件解析模块负责从邮件文件中解析提取出邮件的发件人、收件人、发送时间、邮件标题、邮件正文、邮件附件等数据内容;所述系统管理模块负责管理和设置下列内容:添加、修改、删除要取证的邮件账户;设置采集行为控制选项数据;整理本地邮件存储器中存储的邮件;所有被采集的邮件的查找、排序。
[0011]所述存储子系统采用标准格式.eml格式存储邮件文件,所述的邮件解析模块按照.eml标准定义的格式解析邮件,解析得到的邮件数据中的邮件正文和附件采用超文本格式存储和呈现,其他部分采用纯文本格式存储和呈现。
[0012]一种对基于web方式的电子邮件自动采集的方法,采集方法如下:1)学习过程:由人工在浏览器中手动操作对指定webmail服务系统的网页进行一次访问,完成webmail网页账户登录和访问邮箱的过程;在该过程中,使用webmail学习模块,通过以太网网络数据监听方式,获取人工访问指定webmail服务系统的账户登录、打开邮件箱行为的通信过程和通信内容,分析通信流程、通信内容、内容格式,根据分析结果生成并记录该webmail服务系统的访问模式;2)采集过程:使用webmail通信模块,依据webmail学习模块获得的访问模式,实施自动通过HTTP通信方式使用指定邮件账户登录指定webmail服务系统自动获取新邮件数据并传送到本地的邮件自动采集过程;
所述webmail学习模块学习方法如下:步骤一 在webmail学习模块提供的浏览器引擎中,人工操作输入待学习的指定webmail服务系统的web访问地址,进入该webmail服务系统的主页面;步骤二 在浏览器引擎显示的web页面中,人工操作输入指定的webmail邮件账户和密码,登录该webmail服务系统,webmail学习模块包含的HTTP协议分析器自动记录登录过程的网络传输内容;步骤三 登录成功后,人工操作依次打开收件箱、草稿箱、发件箱、已删除邮件箱、垃圾箱,webmail学习模块包含的HTTP协议分析器自动记录上述操作过程的网络传输内容;步骤四 本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于web方式的电子邮件自动采集的系统,其特征是:包括采集前端子系统、存储子系统、采集后端子系统;所述采集前端子系统,用于对不同的邮件系统的指定邮件账户,采用web方式自动采集对应邮件账户在互联网上的webmail服务系统中的所有新邮件,存储到本地存储子系统中,并自动删除邮件服务器中已被采集的邮件信息;所述存储子系统,对采集前端子系统自动采集的邮件分类按多层次目录文件存储,同时存储下载邮件的索引;所述采集后端子系统,分析和呈现所有被采集邮件的内容,提供邮件的关键字搜索、排序功能,提供对采集前端子系统参数设置的功能。2.根据权利要求1所述的一种基于web方式的电子邮件自动采集的系统,其特征是:所述采集前端子系统包括:webmail学习模块、访问模式表、webmail通信模块、webmail控制数据;所述webmail学习模块,通过提供的浏览器引擎,获取通过人工使用浏览器以web方式登录访问指定的webmail服务系统的邮件账户登录、打开邮件箱行为的通信过程和通信内容,分析通信流程、通信内容、内容格式,根据分析结果生成并记录该webmail服务系统的访问模式;该访问模式用于后续对该webmail服务系统上的指定邮件账户的邮件自动采集的通信过程;所述访问模式表,存储经过学习后获得的webmail服务系统的访问模式记录;所述webmail通信模块,依据webmail学习模块学习过程得到的访问模式,实施自动通过HTTP通信方式使用指定邮件账户登录指定webmail服务系统自动获取新邮件数据并传送到本地的通信过程;所述webmail控制数据,包含设置需要webmial通信模块自动采集邮件数据的邮件账户信息表以及采集过程中的行为控制选项数据。3.根据权利要求1所述的一种基于web方式的电子邮件自动采集的系统,其特征是:所述存储子系统包括:邮件文件生成模块,本地邮件存储器,所述邮件文件生成模块负责把单个邮件数据生成指定格式的文件;所有下载的邮件存储到本地邮件存储器中,并建立相应的索引。4.根据权利要求1所述的一种基于web方式的电子邮件自动采集的系统,其特征是:所述采集后端子系统包括:邮件呈现模块,邮件解析模块,系统管理模块;所述邮件呈现模块负责以图形交互界面向用户呈现存储在本地邮件存储器中的自动采集的所有邮件文件;所述邮件解析模块负责从邮件文件中解析提取出邮件的发件人、收件人、发送时间、邮件标题、邮件正文、邮件附件等数据内容;所述系统管理模块负责管理和设置下列内容:添加、修改、删除要取证的邮件账户;设置采集行为控制选项数据;整理本地邮件存储器中存储的邮件;所有被采集的邮件的查找、排序。5.根据权利要求3或4所述的一种基于web方式的电子邮件自动采集的系统,其特征是:所述存储子系统采用标准格式.eml格式存储邮件文件,所述的邮件解析模块按照.eml标准定义的格式解析邮件,解析得到的邮件数据中的邮件正文和附件采用超文本格式存储
和呈现,其他部分采用纯文本格式存储和呈现。6.一种应用权利要求1所述的一种基于web方式的电子邮件自动采集的系统的方法,其特征是:一种基于web方式的电子邮件自动采集的方法,1)学习过程:由人工在浏览器引擎中手动操作对指定webmail服务系统的网页进行一次访问,完成webmail网页账户登录和访问邮箱的过程;在...

【专利技术属性】
技术研发人员:张博廉洪波栗鹏辉张硕周小明刘旭阳姜浩楠田雨薇左越
申请(专利权)人:国网辽宁省电力有限公司国家电网有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1