一种面向文本的时间信息抽取方法及装置制造方法及图纸

技术编号:35271214 阅读:13 留言:0更新日期:2022-10-19 10:43
本发明专利技术公开一种面向文本的时间信息抽取方法及装置,该方法包括:初始化计算环境;接收输入的文本串及文本串所用的语言类型,根据语言类型选取合适时间语素插件,并对文本串进行特征抽取,将输入的文本串转换为一组有序的特征序列;扫描特征序列,将特征序列中有语言特色的数值特征统一转换为由阿拉伯数字表示;依次扫描特征序列,查看是否存在两个数值的”特征距离<5并且字符距离<16”;若发现符合条件的两个数值特征,记录其为一个特征段等;本发明专利技术在文本串的特定情况下提取时间信息拥有明显的效率优势,且对国际化有很好的支持。且对国际化有很好的支持。

【技术实现步骤摘要】
一种面向文本的时间信息抽取方法及装置


[0001]本专利技术涉及一种面向文本的时间信息抽取方法及装置,属于计算机时间信息解析


技术介绍

[0002]时间信息解析是自然语言理解的基础技术之一,在数据处理领域中存在广泛的应用需求。
[0003]在我们的日常生活中搜索引擎的网络爬虫在爬取到新闻后,需要提取其中的题目、作者、发文时间、正文等内容;题目、作者、正文等信息在正确定位信息位置后,便可提取。但是发文时间信息除能正确定位外,还需要能正确的解析并将其格式化后才能够使用;其相对其它几项信息而言有一定的格式规律,即主要由年、月、日、时、分、秒6个要素组成(注:其它时间要素如季度,星期几等可由这6要素推算出,至于更细粒度的时间如毫秒、微秒等只在特定有精度要求的领域会使用到,暂不做考虑。),但其格式组合情况十分多样,难以穷举。尤其是在全球互联网的应用中,不同的语言环境有不同的书写习惯,不同的语言表达方式,即便是在同一语言环境下也存在诸多的格式变化。如:“2020

07

2713:15:00”,中文环境里可被描述为“2020年7月27日13时15分”,也可描述为“2020年7月27日下午1:15”;英文环境中可被描述为“July 27,20201:15PM”、“27/7/2013:15:00”、“27/7/202013:15:00”等;西班牙语环境为“27dejulio de 2020,13:15PM”等;俄语环境为“27июль2020,13:15”等。更有些应用环境里只有日期如:“2020

07

27”或者是只标注了发文的时/分信息如“13:15”,在只标注了时/分信息的语境中,一般特指当天,这类信息需要进行时间补足。也有些情况下,时间信息会被标注为“Yesterday 13:15”、“前天13:15”等,这样的相对时间类型也需要进行翻译解析。
[0004]目前绝大多数面向文本的时间定位与抽取技术都是构建在正则表达式的基础上的。该类技术通过预制多个不同的时间表达式来定位与抽取文本中的时间,正则表达式将整个时间信息作为一个整体进行匹配,若时间信息有一点不符合正则表达式,则匹配无法命中。在实际应用时,为尽可能地找到不同格式的时间信息,会尝试用不同的正则表达式对文本进行扫描,直到获得有效的时间信息。若无法获得有效时间信息,且文本中存在时间信息,则扩展正则表达式,使其能够适应当前文本中的时间格式。该技术通过扩展正则表达式的方式来满足不同时间格式的定位与解析需求。该类技术基本是一个穷举式的方法,每一次尝试用一个正则表达式对文本进行扫描,当需要尝试多个表达式时,就需要对文本进行多次扫描,即使对表达式采用了诸如按权重等的管理优化方式,也无法大幅提升算法的速度。另外,由于时间表述的自由度很高,很难穷举时间的正则表达式。故该类方法存在一定的缺陷。
[0005]一种文本中时间信息的处理方法(专利申请号:CN108549694A)。该专利提出了一种基于树形序列规则的时间解析方法。其对文本进行分词,并对所分词按照预设的映射表进行标记,随后将标记序列与规则树中的规则进行匹配。在匹配命中某规则后,利用规则记
录的运算符推导计算出时间。该专利主要应用于中文语境,其中其根据中文语义抽象定义了大量运算符及运算规则。能够有效的适应中文环境中的时间描述,但对于计算机标准化时间其专利中描述仍会使用正则表达式匹配,则其也会遇到上述采用正则表达式方法描述到的问题。另外,其并未将时间的表达理解为统一表达,区分了机读标准时间表达、中文描述时间表达,这也限制了其支持其他语言时间表达的友好性。
[0006]面对如此多样的时间格式,在海量文本中有效的发现并正确的识别时间就变的非常困难,因此必须提供自动化的抽取方法来解决此类问题。

技术实现思路

[0007]针对上述现有技术存在的问题,本专利技术提供一种面向文本的时间信息抽取方法及装置,将时间的文本格式认知为时间6要素的数值与时间语素的自由组合关系,采用了时间语素插件来扩展对不同语言环境中时间的表达的差异,因此对时间串的国际表达也有良好的支持。
[0008]为了实现上述目的,本专利技术采用的技术方案是:
[0009]第一方面,本申请提供一种面向文本的时间信息抽取方法及装置,包括以下步骤:
[0010]S1、初始化计算环境;
[0011]S2、接收输入的文本串及文本串所用的语言类型,根据语言类型选取合适时间语素插件,并对文本串进行特征抽取,将输入的文本串转换为一组有序的特征序列;
[0012]S3、扫描特征序列,将特征序列中有语言特色的数值特征统一转换为由阿拉伯数字表示;
[0013]S4、依次扫描特征序列,查看是否存在两个数值的”特征距离<5并且字符距离<16”;若发现符合条件的两个数值特征,记录其为一个特征段;若特征序列扫描完成,跳到步骤9;
[0014]其中:
[0015]所述的特征距离具体指两个特征间相隔的特征的个数;
[0016]所述的字符距离具体指两个特征间相隔特征的字符的个数;
[0017]S5、对特征段中的数值特征进行校验,检测其是否符合时间值范围;如符合时间值特征转入步骤6,不符合则转回步骤S4;
[0018]S6、判断特征段是否为时、分、秒格式,即两个数值特征间的特征是否符合时、分、秒格式中的时间语素;其若特征段符合时、分、秒格式则转入步骤S7,否则转入步骤S8;
[0019]S7、以特征段的首个数值特征为起点,在特征序列中依据时间语素依次解析;
[0020]其中:所述的解析具体为提取时、分、秒的数值信息及上下午信息,将时间转换为标准时间格式并标记时间的准确度;
[0021]然后将转换后的时间对象加入队列,并跳转到步骤4;
[0022]S8、判断特征段是否为日期格式,即两个数值特征间的特征是否符合日期相关的时间语素;将时间对象加入队列并跳转到步骤4;若无有效时间信息,则直接跳转到步骤4。
[0023]S9、返回解析到的时间对象序列;时间对象序列中的每个时间对象都包含其准确程度的说明,后续处理时可参考准确程度进行时间对象的取舍。
[0024]一实施例中,一种面向文本的时间信息抽取方法还包括:初始化计算环境具体为
语素插件管理器装载所有时间语素插件,并建立语言与时间语素插件的关系。
[0025]一实施例中,一种面向文本的时间信息抽取方法还包括:步骤S2中的特征具体地包括:字符串特征、数值特征及符号特征三类。
[0026]一实施例中,一种面向文本的时间信息抽取方法还包括:步骤S8中的判断特征段是否为日期格式是以特征段为基础,前向后向延伸特征段,以求特征段内包含完整的时间信息;对特征段内的特征按照时间语素提取,包括:年、月、日、时、分、秒以及上、下午等;若能有效提取时间信息,将信息转换为标准时间格式并标记时间信息的准确度。
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向文本的时间信息抽取方法,其特征在于,包括以下步骤:S1、初始化计算环境;S2、接收输入的文本串及文本串所用的语言类型,根据语言类型选取合适时间语素插件,并对文本串进行特征抽取,将输入的文本串转换为一组有序的特征序列;S3、扫描特征序列,将特征序列中有语言特色的数值特征统一转换为由阿拉伯数字表示;S4、依次扫描特征序列,查看是否存在两个数值的”特征距离<5并且字符距离<16”;若发现符合条件的两个数值特征,记录其为一个特征段;若特征序列扫描完成,跳到步骤9;其中:所述的特征距离具体指两个特征间相隔的特征的个数;所述的字符距离具体指两个特征间相隔特征的字符的个数;S5、对特征段中的数值特征进行校验,检测其是否符合时间值范围;如符合时间值特征转入步骤6,不符合则转回步骤S4;S6、判断特征段是否为时、分、秒格式,即两个数值特征间的特征是否符合时、分、秒格式中的时间语素;其若特征段符合时、分、秒格式则转入步骤S7,否则转入步骤S8;S7、以特征段的首个数值特征为起点,在特征序列中依据时间语素依次解析;其中:所述的解析具体为提取时、分、秒的数值信息及上下午信息,将时间转换为标准时间格式并标记时间的准确度;然后将转换后的时间对象加入队列,并跳转到步骤4;S8、判断特征段是否为日期格式,即两个数值特征间的特征是否符合年、月、日格式中相关的时间语素;若符合特征将时间对象加入队列并跳转到步骤4;若无有效时间信息,则直接跳转到步骤4。S9、返回解析到的时间对象序列;时间对象序列中的每个时间对象都包含其准确程度的说明,后续处理时可参考准确程度进行时间对象的取舍。2.根据权利要求1所述的一种面向文本的时间信息抽取方法,其特征在于,所述的步骤S1中的初始化计算环境具体为语素插件管理器装载所有时间语素插件,并建立语言与时间语素插件的关系。3.根据权利要求1所述的一种面向文本的时间信息抽取方法,其特征在于,所述的步骤S2中的特征具体地包括:字符串特征、数值特征及符号特...

【专利技术属性】
技术研发人员:汤泰鼎
申请(专利权)人:北京数由科技有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1