题目内容提取方法、装置、可读存储介质及计算机设备制造方法及图纸

技术编号：25836499 阅读：19 留言：0更新日期：2020-10-02 14:17

一种题目内容提取方法、装置、可读存储介质及计算机设备，该方法包括：提取Word文本中的文字内容和各个非文字对象，并将提取到的信息转换为html格式文本；建立所述非文字对象的ID字典，并根据所述ID字典将所述html格式文本中的非文字对象的信息替换为对应的ID标识，所述ID字典包括各个所述非文字对象的信息与各个ID标识的对应关系；利用预训练的NCRF模型对替换后的所述html格式文本进行自动切题，以得到各个题目的完整题目内容；根据所述ID字典将所述题目内容中的ID标识替换为对应的非文字对象的信息。本发明专利技术不仅实现了准确提取图片和公式信息，保证了入库题目中公式的可视化和美观性，提高了用户体验，另一方面提高了题目内容提取效率。

全部详细技术资料下载

【技术实现步骤摘要】
题目内容提取方法、装置、可读存储介质及计算机设备
本专利技术涉及电子
，特别是涉及一种题目内容提取方法、装置、可读存储介质及计算机设备。
技术介绍
在“互联网+”教育领域，若要建立一个强大的精准教学系统，那么高质量的智能题库的建立与维护是必不可少的。入库题目的来源文档格式一般有word格式、pdf格式和图片格式等，其中，基于word格式的试题文档入库为最常见的一种。现有技术中基于word文本的题目入库过程中若均依赖于人工录入，且人工标注题目相关信息，则整个过程既费时又费力，效率很低。此外，在数学、物理等理科试题中，由于文本中有大量的公式，而公式的准确识别以及在网页上准确而清晰的显示是一个技术难关，使得基于word文本提取理科类题目变得非常困难，这也是理科试卷试题信息提取的重点和难点。
技术实现思路
鉴于上述状况，有必要针对现有技术中关于word文本题目内容的提取效率低和提取困难的问题提供一种题目内容提取方法、装置、可读存储介质及计算机设备。一种题目内容提取方法，包括：提取Word文本中的文字内容和各个非文字对象，并将提取到的信息转换为html格式文本；建立所述非文字对象的ID字典，并根据所述ID字典将所述html格式文本中的非文字对象的信息替换为对应的ID标识，所述ID字典包括各个所述非文字对象的信息与各个ID标识的对应关系；利用预训练的NCRF模型对替换后的所述html格式文本进行自动切题，以得到各个题目的题目内容；根据所述ID字典将...

【技术保护点】
1.一种题目内容提取方法，其特征在于，包括：/n提取Word文本中的文字内容和各个非文字对象，并将提取到的信息转换为html格式文本；/n建立所述非文字对象的ID字典，并根据所述ID字典将所述html格式文本中的非文字对象的信息替换为对应的ID标识，所述ID字典包括各个所述非文字对象的信息与各个ID标识的对应关系；/n利用预训练的NCRF模型对替换后的所述html格式文本进行自动切题，以得到各个题目的题目内容；/n根据所述ID字典将所述题目内容中的ID标识替换为对应的非文字对象的信息。/n

【技术特征摘要】
1.一种题目内容提取方法，其特征在于，包括：
提取Word文本中的文字内容和各个非文字对象，并将提取到的信息转换为html格式文本；
建立所述非文字对象的ID字典，并根据所述ID字典将所述html格式文本中的非文字对象的信息替换为对应的ID标识，所述ID字典包括各个所述非文字对象的信息与各个ID标识的对应关系；
利用预训练的NCRF模型对替换后的所述html格式文本进行自动切题，以得到各个题目的题目内容；
根据所述ID字典将所述题目内容中的ID标识替换为对应的非文字对象的信息。

2.如权利要求1所述的题目内容提取方法，其特征在于，所述利用预训练的NCRF模型对替换后的所述html格式文本进行自动切题，以得到各个题目的题目内容的步骤包括：
通过预训练的NCRF模型对所述html格式文本进行序列标注，以对每个题目添加标签，所述标签包括起始行标签和结束行标签；
根据所述起始行标签和所述结束行标签确定各个题目的起始行和结束行的位置，并根据所述起始行和所述结束行的位置确定各个题目的内容范围。

3.如权利要求2所述的题目内容提取方法，其特征在于，每个题目添加标签还包括题型标签，所述题型标签用于区分题目类型，所述根据所述起始行和所述结束行的位置确定各个题目的内容范围的步骤之前还包括：
根据所述题型标签确定所述html格式文本中的各个题型的内容区域，并根据各个题目所属的内容区域确定各个题目的题型；
当判断到任意一所述题目的起始行和结束行不符合对应的题型的题型特点时，对判断的当前题目的所述起始行和所述结束行的位置进行调整。

4.如权利要求1所述的题目内容提取方法，其特征在于，当所述非文字对象为图片时，所述将提取到的信息转换为html格式文本的步骤包括：
将提取到的各个所述非文字对象分别进行存储；
将所述非文字对象的存储地址嵌入所述文字内容中，并转换为html格式文本。

5.如权利要求1所述的题目内容提取方法，其特征在于，当所述非文字对象为公式时，所述将提取到的信息转换为html格式文本的步骤包括：
利用计算机语言读取所述公式，以得到wmf格式的矢量图；
将所述矢量图转换为非...

【专利技术属性】
技术研发人员：郑文娟，
申请(专利权)人：江西风向标教育科技有限公司，
类型：发明
国别省市：江西;36

全部详细技术资料下载我是这个专利的主人