一种时间提取方法及系统技术方案

技术编号:37367482 阅读:10 留言:0更新日期:2023-04-27 07:13
本申请公开了一种时间提取方法及系统,通过获取多种类型的文本数据,然后构建时间特征规则对文本数据进行匹配,获取包含多种时间特征的目标文本,再构建规则注册器池,根据规则注册器池对目标文本进行过滤,对过滤后的目标文本进行标注处理,获取标准时间文本,最后根据预设规则对已处理的标准时间文本进行时间提取;本方法通过构建时间特征规则和规则注册器池对文本数据进行过滤并标注,然后对标注后的文本数据按照预设规则进行时间提取,可以有效、灵活地对相对时间进行转换以及运用,同时还对初始文本数据进行多次筛选,得到最终的目标文本,然后对目标文本进行处理,减少了时间提取的时间成本和人工成本;该系统具有同样的有益效果。有益效果。有益效果。

【技术实现步骤摘要】
一种时间提取方法及系统


[0001]本申请涉及数据处理
,特别是涉及一种时间提取方法及系统。

技术介绍

[0002]大数据(Big data)被首次提出来后就一直在计算机领域有着重要的地位,不仅被广泛应用在工业、医疗、人工智能等方面,更是一个划时代的技术革命。“大数据”被定义为“需要处理能产生更强决策力、洞察发现力、流程优化能力的海量、高增长率、多样化信息资产”,其战略意义不仅是对大数据海量数据信息技术的掌握,更重要的是如何对这些海量信息进行专业地分析处理。
[0003]在数据清洗环节,应对时间数据脏、乱、差,结构化非结构化等情况,进行提取并且输出标准的格式,在数据清洗中存在着时间数据复杂性,例如英文表示法、中文表示法、数字表示法、相对时间、结构化字段和非结构化文本块等时间的表现形式;在现有工具中一般需要针对固定格式范围内,然后针对格式进行标准化转换,会存在相对时间不能进行时间标准化转换的问题。
[0004]鉴于此,提供一种可以对相对时间进行时间标准化转换的时间提取方法及系统是本领域技术人员亟待解决的技术问题。

技术实现思路

[0005]本专利技术的目的在于提供一种时间提取方法及系统,可以有效解决对相对时间不能进行时间标准化转换的问题;为解决上述技术问题,本专利技术提供的技术方案如下:一种时间提取方法,包括如下步骤:获取多种类型的文本数据;构建时间特征规则;将所述文本数据和所述时间特征规则进行匹配,以获取包含多种时间特征的目标文本;构建规则注册器池;根据所述规则注册器池对所述目标文本进行过滤,对过滤后的目标文本进行标注处理,以获取标准时间文本;根据预设规则对已处理的所述标准时间文本进行时间提取。
[0006]优选地,所述时间特征规则包括:相对时间元素基本规则、相对时间表达语言种类规则和相对时间字体表示规则。
[0007]优选地,所述将所述文本数据和所述时间特征规则进行匹配,以获取包含多种时间特征的目标文本,包括如下步骤:将所述文本数据和所述相对时间元素基本规则进行匹配,以提取包含相对时间元素的目标文本;
将所述文本数据和所述相对时间表达语言种类规则进行匹配,以提取包含时间表达语言种类的目标文本;将所述文本数据和所述相对时间字体表示规则进行匹配,以提取包含时间字体表示的目标文本。
[0008]优选地,所述根据预设规则对所述标准时间文本进行时间提取,具体为:根据第一预设函数,输入一行所述标准时间文本,提取单个标准时间。
[0009]优选地,所述根据预设规则对所述标准时间文本进行时间提取,具体为:根据第二预设函数,输入多行所述标准时间文本,提前单个标准时间。
[0010]优选地,所述根据预设规则对所述标准时间文本进行时间提取,具体为:根据第三预设函数,输入一行所述标准时间文本,提取多个标准时间。
[0011]优选地,一种时间提取系统,包括:获取模块、第一构建模块、匹配模块、第二构建模块、过滤模块和提取模块;所述获取模块,用于获取多种类型的文本数据;所述第一构建模块,用于构建时间特征规则;所述匹配模块,用于将所述文本数据和所述时间特征规则进行匹配,以获取包含多种时间特征的目标文本;所述第二构建模块,用于构建规则注册器池;所述过滤模块,用于根据所述规则注册器池对所述目标文本进行过滤,对过滤后的目标文本进行标注处理,以获取标准时间文本;所述提取模块,用于根据预设规则对所述标准时间文本进行时间提取。
[0012]本专利技术提供了一种时间提取方法,通过获取多种类型的文本数据,然后构建时间特征规则,再将文本数据和时间特征规则进行匹配,得到包含多种时间特征的目标文本,再构建规则注册器池,然后根据规则注册器池对目标文本进行过滤,然后对过滤后的目标文本进行标注处理,得到标准时间文本,最后根据预设规则对已标注的标准时间文本进行时间提取;本方法在对文本中的时间进行提取前,通过构建时间特征规则对文本数据进行初步处理,然后再构建规则注册器池,根据规则注册器池对处理后的文本数据进行过滤,再对过滤后的时间文本进行标注,以得到标准时间文本,然后再对标注后的标准时间文本根据预设的规则进行时间提取,可以有效、灵活地对相对时间进行时间标准化转换以及运用,同时还对初始文本数据进行多次筛选,得到最终的目标文本,然后对目标文本进行处理,减少了时间提取的时间成本和人工成本。
[0013]本专利技术还提供了一种时间提取系统,由于该系统与该时间提取方法解决相同的技术问题,属于相同的技术构思,理应具有相同的有益效果,在此不再赘述。
附图说明
[0014]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0015]图1为本专利技术实施例中时间提取方法的流程图;
图2为本专利技术实施例中时间提取系统的框架图。
具体实施方式
[0016]为了使本领域的技术人员更好地理解本申请中的技术方案,下面将对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0017]如图1所示,本专利技术实施例提供一种时间提取方法,包括如下步骤:S1.获取多种类型的文本数据;S2.构建时间特征规则;S3.将文本数据和时间特征规则进行匹配,以获取包含多种时间特征的目标文本;S4.构建规则注册器池;S5.根据规则注册器池对目标文本进行过滤,对过滤后的目标文本进行标注处理,以获取标准时间文本;S6.根据预设规则对标准时间文本进行时间提取。
[0018]步骤S1中,首先获取需要进行时间提取的多种类型的文本数据,若本实施例采用的文本数据较长,可以考虑根据实际需求进行分段,然后再对分段的文本数据进行排序,后续可以按照顺序处理文本数据;步骤S2中,由于现有的时间提取规则不满足相对时间的处理,所以将重新构建时间特征规则,便于可以扩大时间处理的范围,使用此时间调整规则,既可以将常规的时间特征进行处理,也可以对相对时间时间特征进行处理;步骤S3中,将文本数据与时间特征规则进行匹配,以剔除掉没有包含时间特征的文本数据,从而留下包含多种时间特征的目标文本,便于后续处理,同时也节省了工作时间,加快工作效率,减少了人工成本;步骤S4中,首先构造规则注册器,然后根据应用场景放入规则注册器中,形成包含多种应用场景的规则注册器池,便于应用于多种场景,减少应用切换环境时的风险,避免造成业务功能而产生的问题,本实施例中的应用场景为包含相对时间的应用场景,如:昨日、今日、5点之后。
[0019]步骤S5至S6中,首先采用规则注册器池中的规则器通过正则表达式对目标文本进行过滤处理,然后对过滤后的标准时间文本进行识别,将具有的相对时间特征进本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种时间提取方法,其特征在于,包括如下步骤:获取多种类型的文本数据;构建时间特征规则;将所述文本数据和所述时间特征规则进行匹配,以获取包含多种时间特征的目标文本;构建规则注册器池;根据所述规则注册器池对所述目标文本进行过滤后,对过滤后的目标文本进行标注处理,以获取标准时间文本;根据预设的规则对所述标准时间文本进行时间提取。2.根据权利要求1所述的时间提取方法,其特征在于,所述时间特征规则包括:相对时间元素基本规则、相对时间表达语言种类规则和相对时间字体表示规则。3.根据权利要求2所述的时间提取方法,其特征在于,所述将所述文本数据和所述时间特征规则进行匹配,以获取包含多种时间特征的目标文本,包括如下步骤:将所述文本数据和所述相对时间元素基本规则进行匹配,以提取包含相对时间元素的目标文本;将所述文本数据和所述相对时间表达语言种类规则进行匹配,以提取包含时间表达语言种类的目标文本;将所述文本数据和所述相对时间字体表示规则进行匹配,以提取包含时间字体表示的目标文本。4.根据权利要求1所述的时间提取方法,其特征在于,所述根据预设规则对所述...

【专利技术属性】
技术研发人员:李国庆孟果左勇
申请(专利权)人:智慧眼科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1