题目内容提取方法、装置、可读存储介质及计算机设备制造方法及图纸

技术编号:25836499 阅读:19 留言:0更新日期:2020-10-02 14:17
一种题目内容提取方法、装置、可读存储介质及计算机设备,该方法包括:提取Word文本中的文字内容和各个非文字对象,并将提取到的信息转换为html格式文本;建立所述非文字对象的ID字典,并根据所述ID字典将所述html格式文本中的非文字对象的信息替换为对应的ID标识,所述ID字典包括各个所述非文字对象的信息与各个ID标识的对应关系;利用预训练的NCRF模型对替换后的所述html格式文本进行自动切题,以得到各个题目的完整题目内容;根据所述ID字典将所述题目内容中的ID标识替换为对应的非文字对象的信息。本发明专利技术不仅实现了准确提取图片和公式信息,保证了入库题目中公式的可视化和美观性,提高了用户体验,另一方面提高了题目内容提取效率。

【技术实现步骤摘要】
题目内容提取方法、装置、可读存储介质及计算机设备
本专利技术涉及电子
,特别是涉及一种题目内容提取方法、装置、可读存储介质及计算机设备。
技术介绍
在“互联网+”教育领域,若要建立一个强大的精准教学系统,那么高质量的智能题库的建立与维护是必不可少的。入库题目的来源文档格式一般有word格式、pdf格式和图片格式等,其中,基于word格式的试题文档入库为最常见的一种。现有技术中基于word文本的题目入库过程中若均依赖于人工录入,且人工标注题目相关信息,则整个过程既费时又费力,效率很低。此外,在数学、物理等理科试题中,由于文本中有大量的公式,而公式的准确识别以及在网页上准确而清晰的显示是一个技术难关,使得基于word文本提取理科类题目变得非常困难,这也是理科试卷试题信息提取的重点和难点。
技术实现思路
鉴于上述状况,有必要针对现有技术中关于word文本题目内容的提取效率低和提取困难的问题提供一种题目内容提取方法、装置、可读存储介质及计算机设备。一种题目内容提取方法,包括:提取Word文本中的文字内容和各个非文字对象,并将提取到的信息转换为html格式文本;建立所述非文字对象的ID字典,并根据所述ID字典将所述html格式文本中的非文字对象的信息替换为对应的ID标识,所述ID字典包括各个所述非文字对象的信息与各个ID标识的对应关系;利用预训练的NCRF模型对替换后的所述html格式文本进行自动切题,以得到各个题目的题目内容;根据所述ID字典将所述题目内容中的ID标识替换为对应的非文字对象的信息。进一步的,上述题目内容提取方法,其中,所述利用预训练的NCRF模型对替换后的所述html格式文本进行自动切题,以得到各个题目的题目内容的步骤包括:通过预训练的NCRF模型对所述html格式文本进行序列标注,以对每个题目添加标签,所述标签包括起始行标签和结束行标签;根据所述起始行标签和所述结束行标签确定各个题目的起始行和结束行的位置,并根据所述起始行和所述结束行的位置确定各个题目的内容范围。进一步的,上述题目内容提取方法,其中,每个题目添加标签还包括题型标签,所述题型标签用于区分题目类型,所述根据所述起始行和所述结束行的位置确定各个题目的内容范围的步骤之前还包括:根据所述题型标签确定所述html格式文本中的各个题型的内容区域,并根据各个题目所属的内容区域确定各个题目的题型;当判断到任意一所述题目的起始行和结束行不符合对应的题型的题型特点时,对判断的当前题目的所述起始行和所述结束行的位置进行调整。进一步的,上述题目内容提取方法,其中,当所述非文字对象为图片时,所述将提取到的信息转换为html格式文本的步骤包括:将提取到的各个所述非文字对象分别进行存储;将所述非文字对象的存储地址嵌入所述文字内容中,并转换为html格式文本。进一步的,上述题目内容提取方法,其中,当所述非文字对象为公式时,所述将提取到的信息转换为html格式文本的步骤包括:利用计算机语言读取所述公式,以得到wmf格式的矢量图;将所述矢量图转换为非矢量图并存储;获取所述公式对应的latex格式表达式;将所述公式的矢量图的存储地址以及所述latex表达式嵌入所述文字内容中,并转换为html格式文本。本专利技术实施例还提供了一种题目内容提取装置,包括:文本转换模块,用于提取Word文本中的文字内容和各个非文字对象,并将提取到的信息转换为html格式文本;第一替换模块,用于建立所述非文字对象的ID字典,并根据所述ID字典将所述html格式文本中的非文字对象的信息替换为对应的ID标识,所述ID字典包括各个所述非文字对象的信息与各个ID标识的对应关系;题目内容切割模块,用于利用预训练的NCRF模型对替换后的所述html格式文本进行自动切题,以得到各个题目的题目内容;第二替换模块,用于根据所述ID字典将所述题目内容中的ID标识替换为对应的非文字对象的信息。进一步的,上述题目内容提取装置,其中,所述题目内容切割模块包括:标注模块,用于通过预训练的NCRF模型对所述html格式文本进行序列标注,以对每个题目添加标签,所述标签包括起始行标签和结束行标签;题目内容确定子模块,用于根据所述起始行标签和所述结束行标签确定各个题目的起始行和结束行的位置,并根据所述起始行和所述结束行的位置确定各个题目的内容范围。进一步的,上述题目内容提取装置,其中,每个题目添加标签还包括题型标签,所述题型标签用于区分题目类型,所述题目内容提取装置还包括:题型确定模块,用于根据所述题型标签确定所述html格式文本中的各个题型的内容区域,并根据各个题目所属的内容区域确定各个题目的题型;调整模块,用于当判断到任意一所述题目的起始行和结束行不符合对应的题型的题型特点时,对判断的当前题目的所述起始行和所述结束行的位置进行调整。本专利技术实施例还提供了一种可读存储介质,其上存储有程序,所述程序被处理器执行时实现上述任一所述的方法。本专利技术实施例还提供了一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现上述任意一项所述的方法。本专利技术实施例通过word文本进行格式转换得到html格式文本,并将该html格式文本中的非文字对象的信息替换为对应的ID标识后,再通过预训练的NCRF模型进行题目内容切割。其不仅实现了准确识别图片、公式等信息,保证了入库题目中公式的可视化和美观性,提高了用户体验,还实现了题目的自动切割,方便了题目的结构化入库管理,一方面提高了老师的工作效率,大大降低人工成本,另一方面也大大加快了理科类在线题库建设的效率和准确度,进一步提高了用户体验,对自然语言处理技术、信息提取技术在理科类基础学科专业领域上的应用也起到了很大的促进作用。附图说明图1为本专利技术第一实施例中的题目内容提取方法的流程图;图2为本专利技术第二实施例中的题目内容提取方法的流程图;图3为本专利技术第三实施例中的题目内容提取装置的结构框图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能理解为对本专利技术的限制。参照下面的描述和附图,将清楚本专利技术的实施例的这些和其他方面。在这些描述和附图中,具体公开了本专利技术的实施例中的一些特定实施方式,来表示实施本专利技术的实施例的原理的一些方式,但是应当理解,本专利技术的实施例的范围不受此限制。相反,本专利技术的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。请参阅图1,为本专利技术第一实施例中的题目内容提取方法,包括步骤S11~S14。步骤S11,提取Word文本中的文本文档来自技高网...

【技术保护点】
1.一种题目内容提取方法,其特征在于,包括:/n提取Word文本中的文字内容和各个非文字对象,并将提取到的信息转换为html格式文本;/n建立所述非文字对象的ID字典,并根据所述ID字典将所述html格式文本中的非文字对象的信息替换为对应的ID标识,所述ID字典包括各个所述非文字对象的信息与各个ID标识的对应关系;/n利用预训练的NCRF模型对替换后的所述html格式文本进行自动切题,以得到各个题目的题目内容;/n根据所述ID字典将所述题目内容中的ID标识替换为对应的非文字对象的信息。/n

【技术特征摘要】
1.一种题目内容提取方法,其特征在于,包括:
提取Word文本中的文字内容和各个非文字对象,并将提取到的信息转换为html格式文本;
建立所述非文字对象的ID字典,并根据所述ID字典将所述html格式文本中的非文字对象的信息替换为对应的ID标识,所述ID字典包括各个所述非文字对象的信息与各个ID标识的对应关系;
利用预训练的NCRF模型对替换后的所述html格式文本进行自动切题,以得到各个题目的题目内容;
根据所述ID字典将所述题目内容中的ID标识替换为对应的非文字对象的信息。


2.如权利要求1所述的题目内容提取方法,其特征在于,所述利用预训练的NCRF模型对替换后的所述html格式文本进行自动切题,以得到各个题目的题目内容的步骤包括:
通过预训练的NCRF模型对所述html格式文本进行序列标注,以对每个题目添加标签,所述标签包括起始行标签和结束行标签;
根据所述起始行标签和所述结束行标签确定各个题目的起始行和结束行的位置,并根据所述起始行和所述结束行的位置确定各个题目的内容范围。


3.如权利要求2所述的题目内容提取方法,其特征在于,每个题目添加标签还包括题型标签,所述题型标签用于区分题目类型,所述根据所述起始行和所述结束行的位置确定各个题目的内容范围的步骤之前还包括:
根据所述题型标签确定所述html格式文本中的各个题型的内容区域,并根据各个题目所属的内容区域确定各个题目的题型;
当判断到任意一所述题目的起始行和结束行不符合对应的题型的题型特点时,对判断的当前题目的所述起始行和所述结束行的位置进行调整。


4.如权利要求1所述的题目内容提取方法,其特征在于,当所述非文字对象为图片时,所述将提取到的信息转换为html格式文本的步骤包括:
将提取到的各个所述非文字对象分别进行存储;
将所述非文字对象的存储地址嵌入所述文字内容中,并转换为html格式文本。


5.如权利要求1所述的题目内容提取方法,其特征在于,当所述非文字对象为公式时,所述将提取到的信息转换为html格式文本的步骤包括:
利用计算机语言读取所述公式,以得到wmf格式的矢量图;
将所述矢量图转换为非...

【专利技术属性】
技术研发人员:郑文娟
申请(专利权)人:江西风向标教育科技有限公司
类型:发明
国别省市:江西;36

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1