一种直接引语素材库的生成方法技术

技术编号:6863774 阅读:224 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种直接引语素材库的生成方法,包括如下的步骤:(1)对于一篇文章,首先抽取引号内的直接引语内容;(2)以直接引语内容所在位置为中心,考察前一句和后一句的内容,通过词性标注识别出前一句和后一句中的人名和/或机构名;(3)对于识别出来的存在于前一句或者后一句内容中的所有人名和/或机构名,作为直接引语陈述者的候选集合,从该候选集合中挑选出真正的直接引语陈述者;(4)将挑选出来的直接引语陈述者和直接引语内容添加到直接引语素材库中。利用本方法生成的直接引语素材库,可以在互联网中提供更新、搜索、查询等服务,也可以在媒体资讯领域为写作、编辑、专题制作等提供技术支持。

【技术实现步骤摘要】

本专利技术涉及一种语言素材库的生成方法,尤其涉及一种针对直接引语的句子级素材库生成方法,属于计算语言学

技术介绍
素材库也称语料库(corpus),是存储于计算机中并可利用计算机进行检索、查询、 分析的语言素材的总体。素材库具有“大规模”和“真实性”这两个特点,因此是最理想的语言知识资源。文本是最基本、最常用的信息载体。在计算机语言处理工作中,文本的加工与处理技术显得尤为重要。句子作为能够表达完整的意思最小语言单位,在信息处理与应用中,具有多种表现形式和使用价值,尤其是在媒体资讯的检索、写作、整理等过程中更是如此。但在当前存在的各种语言处理技术中,以句子作为处理颗粒的尚不多见。在2003年举行的全国第七届计算语言学联合学术会议中,苗传江、刘智颖合作发表了论文《现代汉语语料的句子级语义标注》。在该论文中,讨论了一种标注现代汉语语料的方案。它有两个特点一是采取自下而上的标注方式,即先标注大的语言单位,再标注小的语言单位;二是对句子进行语义标注,标注了句子及句内子句的语义类型和它们的下一级语义构成成分。按此方案建立的语料库是现代汉语句子语义研究和处理的重要资源。另外,在申请号为200810065527. 7的中国专利技术专利申请中,公开了一种用电子装置对文章句子进行快速分类及检索的方法。在该技术方案中,电子装置按特定的分类方法生成文章句子的分类目录表。在检索时用户打开的电子书内容,处理器逐个提取每个句子,并查找到该句子所在的分类目录,将分类目录名称作为分类标记附注添加到该句子上, 带分类标记的句子被用户选中后,句子读取指针定位到分类目录,对其中的句子进行输出。 电子装置可对文章句子进行分类贮存,其步骤如下1)显示屏上显示由若干条句子组成的文章内容;幻通过编辑器为其中的任意句子做上特定分类标记;幻贮存器中建立与上述每个分类标记对应的类别目录,如果目录已经存在,则不建立;4)处理器对有分类标记的句子进行检测及识别,自动将每个有分类标记的句子保存到对应的上述类别目录中。但是,该专利申请中对句子的挖掘与整理在很大程度上依赖于人工,工作效率并不高,根本无法满足海量中文文本数据的处理要求。
技术实现思路
本专利技术所要解决的技术问题在于提供一种针对直接引语的句子级素材库生成方法。该方法以句子为颗粒抽取文本中的直接引语信息,从而将原始的文章数据库转换为所需的直接引语素材库。为实现上述的专利技术目的,本专利技术采用下述的技术方案,其特征在于包括如下的步骤(1)对于一篇文章,首先从左至右扫描,当扫描到的字符为左引号时,从下一个字符开始记录,一直记录到当前字符为右引号为止,在这个过程中记录的内容为直接引语内容;(2)以直接引语内容所在位置为中心,考察前一句和后一句的内容,通过词性标注识别出前一句和后一句中的人名和/或机构名;(3)对于识别出来的存在于前一句或者后一句内容中的所有人名和/或机构名, 作为直接引语陈述者的候选集合,从该候选集合中挑选出真正的直接引语陈述者;(4)将挑选出来的直接引语陈述者和直接引语内容添加到直接引语素材库中。其中,在所述步骤⑴中,所述左引号为全角左引号、半角左引号、单引号、双引号中的任意一种。所述右引号为全角右引号、半角右引号、单引号、双引号中的任意一种。所述步骤O)中,以人工收集的机构名后缀词和常用构成词作为识别触发条件, 根据隐马尔科夫模型或者最大熵模型进行识别机构名的计算。所述步骤(3)按照如下情况分别进行处理(31)如果候选集合中不存在人名和/或机构名,则丢弃掉该直接引语内容,不进行处理;(32)如果候选集合中只存在一个人名或者机构名,则将识别出来的人名或者机构名作为直接引语陈述者;(33)如果候选集合中存在多个人名或者机构名,则对候选集合中的人名或者机构名进行选择,选出一个作为直接引语陈述者。所述步骤(3 中,根据以下因素对于候选人名或者机构名进行打分1.字符距离,考察候选人名或者机构名与直接引语的字符距离,通过计算文本中两者间隔的字符数来获得字符距离;2.语义距离,考察句子的词性架构,使用浅层语义分析,分析出候选人名或者候选机构名与直接引语的结构距离;将字符距离和语义距离相加,找出距离最小的候选人名或者候选机构名作为直接引语陈述者。在进行所述浅层语义分析时,首先统计出主语为人名或者机构名与引语谓词近距离搭配的文字片段,进而统计表达模式的数量以获得所有常见的表达模式,最终根据模式统计值、谓词统计值,综合计算信度值。所述步骤中,以数据库方式保存直接引语陈述者和直接引语内容,即在数据库中设立两个字段,一个字段保存直接引语陈述者,另一个字段保存直接引语内容。或者, 以文本方式保存直接引语陈述者和直接引语内容,即将直接引语按照“直接引语陈述者直接引语内容”的方式保存为文本文件,其中直接引语陈述者与直接引语内容之间用间隔符号分开。本专利技术所提供的直接引语素材库生成方法具有如下的优点1.可以实现直接引语的准确识别,实现了对于有引号但非引语表达内容的准确判别;2.可以实现对原说话者的准确识别,根据直接引语位置,从其附近位置准确识别原说话者候选集;3.可以实现直接引语与原说话者的准确对应,两者的准确映射结果就形成了完整的直接引语结果数据。利用本方法生成的直接引语素材库,可以在互联网中提供更新、搜索、查询等服务,也可以在媒体资讯领域为写作、编辑、专题制作等提供技术支持。 附图说明下面结合附图和具体实施方式对本专利技术作进一步的详细说明。图1为从文章库转换为句子级素材库的基本操作流程示意图;图2为直接引语素材库的生成过程示意图。具体实施例方式图1为句子级素材库生成方法中,从文章库转换为句子级素材库的基本流程示意图。从图1可以看出,对于文章库中的每一篇中文文章,可以通过句子级素材抽取操作获得各种类型的句子素材,例如“直接引语”句子、“大事记”句子等。这些“直接引语”句子、“大事记”句子等可以分别放入相应的直接引语素材库或者大事记素材库中进行保存。需要说明的是,对于文本中的诸多句子,并非每一个句子都可以形成有价值、有意义的素材。只有那些确定类型,并进行结构化处理后的句子类型,才可以形成对应的句子级素材。根据网络编辑工作的实际需要,句子级素材库中的一个子集-直接引语素材库十分有用。下面对它的生成过程进行详细的说明。直接引语是指作者在文本中直接引用别人的话,即采用直接引述别人原话内容的方式并且把原话内容放入引号中,这些原话内容即为直接引语。直接引语作为一种常见的写作表达方式,在文章中非常普遍,尤其是在媒体资讯的报道性、评论性文章中,更是大量存在。与直接引语相对应的是间接引语,间接引语是不用引号而引述别人讲话内容的一种表述方式。在文本中,直接引语是大量存在的。如何通过计算机技术自动识别并结构化抽取直接引语是我们要着力解决的问题。抽取的直接引语,其结构化结果至少包含两部分直接引语和原说话者。直接引语处理技术通过识别引语内容,识别原说话者,进而建立两者之间的对应关系,实现信息的抽取与结构化。作为观点的引述,一般直接引语的原始说话者会被清晰明确地描述出来,因此, “原说话者+说话内容”就成为可以独立出来、且其语义内容相对完整的数据记录。将多个这样的数据记录,依据字段将其内容存入数据库,则形成了直接引语的句子级素材库,可供后续查询本文档来自技高网
...

【技术保护点】
1.一种直接引语素材库的生成方法,其特征在于包括如下的步骤:(1)对于一篇文章,首先从左至右扫描,当扫描到的字符为左引号时,从下一个字符开始记录,一直记录到当前字符为右引号为止,在这个过程中记录的内容为直接引语内容;(2)以直接引语内容所在位置为中心,考察前一句和后一句的内容,通过词性标注识别出前一句和后一句中的人名和/或机构名;(3)对于识别出来的存在于前一句或者后一句内容中的所有人名和/或机构名,作为直接引语陈述者的候选集合,从该候选集合中挑选出真正的直接引语陈述者;(4)将挑选出来的直接引语陈述者和直接引语内容添加到直接引语素材库中。

【技术特征摘要】

【专利技术属性】
技术研发人员:宋传宝张旭成
申请(专利权)人:天津海量信息技术有限公司
类型:发明
国别省市:12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1