一种文本内容定位方法、系统、设备及存储介质技术方案

技术编号：35986930 阅读：27 留言：0更新日期：2022-12-17 23:00

本发明专利技术公开了一种文本内容定位方法、系统、设备及存储介质，其中，方法包括：获取待定位文本；对所述待定位文本进行图像转换处理，确定文本图像；对所述待定位文本进行坐标信息获取处理，确定文本坐标信息；将所述文本图像输入预先训练好的图表目标检测定位模型，得到图表坐标信息；将所述图表坐标信息与所述文本坐标信息进行坐标映射处理，确定目标定位文本内容；本发明专利技术实施例能够准确地定位文本内容，可广泛应用于目标检测技术领域。可广泛应用于目标检测技术领域。可广泛应用于目标检测技术领域。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本内容定位方法、系统、设备及存储介质

[0001]本专利技术涉及目标检测
，尤其是一种文本内容定位方法、系统、设备及存储介质。

技术介绍

[0002]在医疗器械说明书及临床文献中，存在着大量文字、表格和图文组成的关键数据信息，这些数据对于医疗器械行业的研究机构来说价值非常大。但是这些数据在临床文献和产品说明书中，通常存在两栏式和一栏式混排的文本布局、图片表格的形状和位置不定、表格内无明显分界线等特点。使用相关的文本定位技术，难以将这些非格式化的文本、表格等内容进行详细精准的定位，从而更好地利用这些数据。

技术实现思路

[0003]有鉴于此，本专利技术实施例提供一种文本内容定位方法、系统、设备及存储介质，以实现准确定位文本内容。
[0004]一方面，本专利技术提供了一种文本内容定位方法，包括：
[0005]获取待定位文本；
[0006]对所述待定位文本进行图像转换处理，确定文本图像；
[0007]对所述待定位文本进行坐标信息获取处理，确定文本坐标信息；
[0008]将所述文本图像输入预先训练好的图表目标检测定位模型，得到图表坐标信息；
[0009]将所述图表坐标信息与所述文本坐标信息进行坐标映射处理，确定目标定位文本内容。
[0010]可选地，在所述获取待定位文本之前，包括：
[0011]获取待处理文本；
[0012]对所述待处理文本进行文字识别转换处理，确定待定位文本。
[0013]可选地，所述对所述待定位文本...

【技术保护点】

【技术特征摘要】
1.一种文本内容定位方法，其特征在于，包括：获取待定位文本；对所述待定位文本进行图像转换处理，确定文本图像；对所述待定位文本进行坐标信息获取处理，确定文本坐标信息；将所述文本图像输入预先训练好的图表目标检测定位模型，得到图表坐标信息；将所述图表坐标信息与所述文本坐标信息进行坐标映射处理，确定目标定位文本内容。2.根据权利要求1所述的一种文本内容定位方法，其特征在于，在所述获取待定位文本之前，包括：获取待处理文本；对所述待处理文本进行文字识别转换处理，确定待定位文本。3.根据权利要求1所述的一种文本内容定位方法，其特征在于，所述对所述待定位文本进行图像转换处理，确定文本图像，包括：对所述待定位文本进行图像格式转换，确定文本图像，所述文本图像的图像大小与所述待定位文本的页面大小相同。4.根据权利要求1所述的一种文本内容定位方法，其特征在于，所述对所述待定位文本进行坐标信息获取处理，确定文本坐标信息，包括：根据文本信息提取库对所述待定位文本的每个字符的坐标信息进行获取，确定文本坐标信息，所述文本坐标信息包括所述待定位文本中所有字符的坐标信息。5.根据权利要求1所述的一种文本内容定位方法，其特征在于，在所述将所述文本图像输入预先训练好的图表目标检测定位模型，得到图表坐标信息之前，包括：获取训练数据集；通过注解脚本对所述训练数据集进行标注处理，确定索引文件；将所述索引文件输入训练脚本进行模型训练，确定权重文件；将所述权重文件输入待训练模型进行参数更新处理，确定训练好的图...

【专利技术属性】
技术研发人员：余戈磊，郑珂，
申请(专利权)人：广州众成大数据科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人