System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 大语言模型驱动的低成本公报数据抽取方法技术_技高网

大语言模型驱动的低成本公报数据抽取方法技术

技术编号:40470645 阅读:5 留言:0更新日期:2024-02-26 19:08
本发明专利技术涉及一种能够在常规电脑设备上,高效地从公报发布网页中提取预定义指标数据的系统方法。该系统方法主要包括四步:首先,利用爬虫工具和正文抽取算法获取公报正文内容。其次,用表格图片识别工具识别报告中的表格图片,将全部信息整合为纯文本。接下来,将文本信息分段,并通过大语言模型API加上特定的提示词提取每一段中的指标名称和数据。最后,生成已提取到的全部指标名称的词向量和预定义指标名称的词向量,并经过词向量匹配筛选和调用大语言模型API做二次判定,确定并记录已提取到的全部指标中是否有预定义指标。通过这种方式,本系统实现了对不同地区发布的网页公报内容中的大量数据指标的自动提取,显著提高了市场调研的效率。

【技术实现步骤摘要】


技术介绍


技术实现思路

【技术保护点】

1.一种大语言模型驱动的低成本公报数据抽取方法,其特征在于,通过对应的模块对数据进行抽取,所述抽取方法包括以下步骤:

2.根据权利要求1所述的大语言模型驱动的低成本公报数据抽取方法,其特征在于,所述网页正文获取模块采用全自动化的爬虫工具来获取动态加载的全部网页信息,并且采用基于文本密度的网页正文抽取算法获取公报正文的内容,仅需要输入公报的网址即可启动运行。

3.根据权利要求1所述的大语言模型驱动的低成本公报数据抽取方法,其特征在于,所述报告信息解析模块具有图片识别功能和附件文档内容提取功能,图片识别功能采用了在本地常规电脑设备上可用的轻量级AI模型,可以获取表格图片里每个单元格的文字以及单元格位置信息。

4.根据权利要求1所述的大语言模型驱动的低成本公报数据抽取方法,其特征在于,所述指标数据提取模块向大语言模型API输入每一段的文本和特定提示词,来提取每一段中的数据指标;其中的特定提示词内容包括提取指标数据的要求和按JSON列表格式返回的要求;其中,JSON列表格式形如“[{指标名称:指标数值},…]”。

5.根据权利要求1所述的大语言模型驱动的低成本公报数据抽取方法,其特征在于,所述词向量匹配和大语言模型判定模块中,可以在方法运行前手动添加多个预定义指标名称及其同义名称,词向量匹配功能采用了在本地常规电脑设备上可用的轻量级词向量模型;对经过词向量匹配筛选出相似度高于设定阈值的一组指标,再调用大语言模型API判定其中是否有与预定义指标名称同义的指标,如果有就记录数据到表格,没有就留空。

6.根据权利要求1所述的大语言模型驱动的低成本公报数据抽取方法,其特征在于,可以在联网的常规电脑设备上全程自动运行,且一台设备的性能足以支持多个程序同时运行。

...

【技术特征摘要】

1.一种大语言模型驱动的低成本公报数据抽取方法,其特征在于,通过对应的模块对数据进行抽取,所述抽取方法包括以下步骤:

2.根据权利要求1所述的大语言模型驱动的低成本公报数据抽取方法,其特征在于,所述网页正文获取模块采用全自动化的爬虫工具来获取动态加载的全部网页信息,并且采用基于文本密度的网页正文抽取算法获取公报正文的内容,仅需要输入公报的网址即可启动运行。

3.根据权利要求1所述的大语言模型驱动的低成本公报数据抽取方法,其特征在于,所述报告信息解析模块具有图片识别功能和附件文档内容提取功能,图片识别功能采用了在本地常规电脑设备上可用的轻量级ai模型,可以获取表格图片里每个单元格的文字以及单元格位置信息。

4.根据权利要求1所述的大语言模型驱动的低成本公报数据抽取方法,其特征在于,所述指标数据提取模块向大语言模型api输...

【专利技术属性】
技术研发人员:伍三威
申请(专利权)人:深圳小鹰网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1