本发明专利技术实施例公开了一种电子邮件的信息抽离方法、装置和系统;本发明专利技术实施例在接收到电子邮件后,可以根据该电子邮件的发信地址获取对应的预设模板,并确定邮件内容是否与该预设模板匹配,若是,则采用该预设模板对该邮件内容进行信息抽离;否则,则按照预设策略对邮件内容进行分类,并根据分类结果生成模板,然后,采用生成的模板对该邮件内容进行信息抽离;该方案可以提高其灵活性、以及信息抽离的可靠性和准确性。
【技术实现步骤摘要】
本专利技术涉及通信
,具体涉及一种电子邮件的信息抽离方法、装置和系统。
技术介绍
随着互联网技术的发展,电子邮件已经成互联网应用最广的服务。电子邮件给人们带来低廉且快速的通信方式的同时,也带来一些问题,比如,如何在众多的电子邮件信息中快速提取所需要的信息,而这种从电子邮件中提取信息的技术,我们称为电子邮件的信息抽离。在现有技术中,电子邮件的信息抽离,一般会通过对电子邮件内容进行关键字匹配、或通过正则表达式进行过滤的方式来实现。例如,以银行电子账单为例,若需要抽离该银行电子账单的内容,则可以在电子邮件内容中查找“还款金额”、和“还款日期”等字样,然后再根据查找到的字样定位到具体的值上,等等。在对现有技术的研究和实践过程中,本专利技术的专利技术人发现,现有方案在邮件内容格式发生变化时,若没有及时更新匹配方法,则容易出现匹配错误等情况,最终导致信息抽离失效或不准确,灵活性较差。
技术实现思路
本专利技术实施例提供一种电子邮件的信息抽离方法、装置和系统,可以提高其灵活性、信息抽离的可靠性和准确性。本专利技术实施例还提供一种电子邮件的信息抽离方法,包括:接收电子邮件,所述电子邮件包括邮件内容和发信地址;根据所述发信地址获取对应的预设模板,并确定所述邮件内容是否与所述预设模板匹配;若是,则确定所述预设模板为抽离模板;若否,则按照预设策略对邮件内容进行分类,根据分类结果生成模板,将生成的模板作为抽离模板;采用抽离模板对所述邮件内容进行信息抽离。相应的,本专利技术实施例还提供一种电子邮件的信息抽离装置,包括:接收单元,用于接收电子邮件,所述电子邮件包括邮件内容和发信地址;获取单元,用于根据所述发信地址获取对应的预设模板;模板确定单元,用于确定所述邮件内容是否与所述预设模板匹配,若是,则确定所述预设模板为抽离模板;若否,则按照预设策略对邮件内容进行分类,根据分类结果生成模板,将生成的模板作为抽离模板;处理单元,用于采用抽离模板对所述邮件内容进行信息抽离。此外,本专利技术实施例还提供一种电子邮件的信息抽离系统,包括本专利技术实施例所提供的任一种电子邮件的信息抽离装置。本专利技术实施例在接收到电子邮件后,可以根据该电子邮件的发信地址获取对应的预设模板,并确定邮件内容是否与该预设模板匹配,若是,则采用该预设模板对该邮件内容进行信息抽离;否则,则按照预设策略对邮件内容进行分类,并根据分类结果生成模板,然后,采用生成的模板对该邮件内容进行信息抽离;由于该方案在预设模板不适用时,可以根据邮件内容灵活地生成新的模板,并基于该新的模板进行信息抽离,因此,即便邮件内容格式发生变化,也不会有影响,大大减少识别错误或匹配失效的情况的发生;总而言之,该方案相对于现有技术而言,可以提高其灵活性、以及信息抽离的可靠性和准确性。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1a是本专利技术实施例提供的电子邮件的信息抽离方法的场景示意图;图1b是本专利技术实施例提供的电子邮件的信息抽离方法的流程图;图2是本专利技术实施例提供的电子邮件的信息抽离方法的另一流程图;图3a是本专利技术实施例提供的电子邮件的信息抽离装置的结构示意图;图3b是本专利技术实施例提供的电子邮件的信息抽离装置的另一结构示意图;图4是本专利技术实施例提供的服务器的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术实施例提供一种电子邮件的信息抽离方法、装置和系统。其中,该电子邮件的信息抽离装置具体可以集成在服务器,比如邮件服务器中,例如,如图1a所示,邮件服务器在接收到发信服务器发送的电子邮件之后,可以根据该电子邮件的发信地址获取对应的预设模板,并确定该电子邮件的邮件内容是否命中该预设模板(即确定该电子邮件的邮件内容是否与该预设模板匹配),若是,则采用该预设模板对该邮件内容进行信息抽离,否则,若不命中,则根据邮件内容生成新的模板,比如,具体可以按照预设策略对邮件内容进行分类,根据分类结果生成模板,然后,采用该新的模板对该邮件内容进行信息抽离;也就是说,若预设模板可以适用,则采用预设模板作为抽离模板,而若该预设模板不适用,则生成新的模板作为抽离模板,从而使得该抽离模板可以随着邮件内容格式的变化进行自适应调整,大大减少识别错误或匹配失效的情况的发生;此后,还可以将抽离的信息发送给终端,以进行显示,比如以页面或通过终端应用(APP,Application)的形式在终端中进行显示,以便用户查看。以下将分别进行详细说明。需说明的是,以下实施例的编号并不作为对实施例优选次序的限制。实施例一、本实施例将从电子邮件的信息抽离装置的角度进行描述,该电子邮件的信息抽离装置具体可以集成在服务器,比如邮件服务器中。一种电子邮件的信息抽离方法,包括:接收电子邮件,该电子邮件包括邮件内容和发信地址;根据该发信地址获取对应的预设模板,并确定该邮件内容是否与该预设模板匹配;若是,则确定该预设模板为抽离模板;若否,则按照预设策略对邮件内容进行分类,根据分类结果生成模板,将生成的模板作为抽离模板;采用抽离模板对该邮件内容进行信息抽离。如图1b所示,该电子邮件的信息抽离方法的具体流程可以如下:101、接收电子邮件,比如,具体可以接收发信服务器发送的电子邮件。其中,该电子邮件可以包括邮件内容和发信地址等信息,发信地址指的是该电子邮件中发信人的地址,邮件内容指的是该电子邮件正文的内容。102、根据该发信地址获取对应的预设模板。例如,具体可以根据该发信地址从预设模板集合中获取对应的预设模板。其中,该预设模板集合可以包括多个预设模板,分别对应着不同的发信地址;该预设模板可以根据实际应用的需求预先进行设置,例如,以银行电子账单为例,可以根据不同的银行的账单电子邮件的内容和格式设置不同的模板格式。其中,该模板可以采用多种形式来表示,比如,可以采用可扩展标记语言的路径语言(XPath,XML Path)来表示。XPath是一种用来确定可扩展标记语言(XML,Extensible Markup Language)文档中某部分信息位置的语言。比如,若该银行电子账单的内容包括用户姓名、还款金额、还款日期、以及还款明细等信息,则该模板具体可以为用户姓名、还款金额、还款日期、以及还款明细等XPath集合的账单模版,以此类推,等等。需说明的是,该模板除了可以用XPath来表示之外,还可以采用其他的语音来表示,比如XPointer。该模板采用的语言具体可以与电子邮件的邮件内容所采用的语言相匹配,若邮件内容采用XPath,则模板也采用XPath,而若邮件内容采用其他的语言,比如XPointer,则模板也可以进行相应调整,比如也采用XPointer,等等。103、确定该邮件内容是否与该预设模板匹配,即确定该邮件内容是否可以命中该预设模板,若可以命中(即邮件内容与该预设模板本文档来自技高网...
【技术保护点】
一种电子邮件的信息抽离方法,其特征在于,包括:接收电子邮件,所述电子邮件包括邮件内容和发信地址;根据所述发信地址获取对应的预设模板,并确定所述邮件内容是否与所述预设模板匹配;若是,则确定所述预设模板为抽离模板;若否,则按照预设策略对邮件内容进行分类,根据分类结果生成模板,将生成的模板作为抽离模板;采用抽离模板对所述邮件内容进行信息抽离。
【技术特征摘要】
1.一种电子邮件的信息抽离方法,其特征在于,包括:接收电子邮件,所述电子邮件包括邮件内容和发信地址;根据所述发信地址获取对应的预设模板,并确定所述邮件内容是否与所述预设模板匹配;若是,则确定所述预设模板为抽离模板;若否,则按照预设策略对邮件内容进行分类,根据分类结果生成模板,将生成的模板作为抽离模板;采用抽离模板对所述邮件内容进行信息抽离。2.根据权利要求1所述的方法,其特征在于,所述确定所述邮件内容是否与所述预设模板匹配,包括:从所述邮件内容中提取位置信息,得到第一位置信息;从所述预设模板中提取位置信息,得到第二位置信息;确定所述第一位置信息与第二位置信息是否匹配;若匹配,则确定所述邮件内容与所述预设模板匹配;若不匹配,则确定所述邮件内容与所述预设模板不匹配。3.根据权利要求2所述的方法,其特征在于,所述从所述邮件内容中提取位置信息,得到第一位置信息,包括:从所述邮件内容中提取可扩展标记语言的路径语言XPath信息,得到第一位置信息;所述预设模板中提取位置信息,得到第二位置信息,包括:从所述预设模板中提取XPath信息,得到第二位置信息。4.根据权利要求1所述的方法,其特征在于,所述按照预设策略对邮件内容进行分类,包括:采用朴素贝叶斯分类法、决策树或相似分类法构建分类器;通过所述分类器对邮件内容进行分类。5.根据权利要求4所述的方法,其特征在于,所述通过所述分类器对邮件内容进行分类,包括:从邮件内容中提取可扩展标记语言的路径语言XPath信息;通过所述分类器将提取到的XPath信息划分为多个字段;所述根据分类结果生成模板,包括:对划分后的多个字段进行合成,以生成模板。6.根据权利要求1至5任一项所述的方法,其特征在于,所述根据分类结果生成模板之后,还包括:对生成的模板进行审核;若审核通过,则执行将生成的模板作为抽离模板的步骤;若审核未通过,则对邮件内容进行调整后,返回执行按照预设策略对邮件内容进行分类的步骤。7.根据权利要求6所述的方法,其特征在于,在生成的模板审核通过时,还包括:将生成的模板添加至预设模板集合中;所述根据所述发信地址获取对应的预设模板,具体为:根据所述发信地址从预设模板集合中获取对应的预设模板。8.一种电子邮件的信息抽离装置,其特征在于,包括:接收单元,用于接收电子邮件,所述电子邮件包括邮件内容和发信地址;获取单元,用于根据所述发信地址获取...
【专利技术属性】
技术研发人员:赵丰,赵东,刘俊,楼宏微,林华尚,张丁,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。