System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 文档的分类拆分方法、设备及存储介质技术_技高网

文档的分类拆分方法、设备及存储介质技术

技术编号:43893973 阅读:2 留言:0更新日期:2025-01-03 13:08
本发明专利技术涉及文档处理领域,公开了一种文档的分类拆分方法、设备及存储介质。该方法包括:接收文档向量化指令,以及接收所述文档向量化指令对应的文档数据;当文档类型为Excel类型,则利用预置Apache POI组件,对所述文档数据进行解析处理,得到文档字符串;当文档类型为PDF类型,则利用预置pdfplumber组件,对所述文档数据进行解析处理,得到文档字符串;当文档类型为通用文档,则利用LangChain4j组件解析所述文档数据,得到文档字符串;接收用户的存储指令,以及根据所述存储指令,将所述文档分片数据存储至预置向量数据库中。在本发明专利技术实施例中,通过基于文档数据的种类进行分类拆分,提高了文档拆分的文档准确度,实现语料输入AI大模型后AI大模型答复更加精准的效果。

【技术实现步骤摘要】

本专利技术涉及文档处理领域,尤其涉及一种文档的分类拆分方法、设备及存储介质


技术介绍

1、随着人工智能和互联网信息技术的发展,智能化聊天系统因其巨大的潜力和开发价值受到越来越多研究者和从业者的关注,聊天的主要种类包括通用类、工具类、faq、推理类等。目前ai已经广泛应用在智能客服、智能医疗、智能金融、智能教育、智能能源、智能农业等众多场景。

2、智能化聊天能否准确回答用户提出的问题,需要关注ai智能模型内所存储的知识是否完善以及是否准确。为了达到回答准确的效果,就要保证向量库内的内容是准确的,目前现有技术无法满足正确的切分文档,且不能满足按照段落或章节拆分,这会导致出现很多断句,从而也就导致片段内容不正确或切分位置不对导致片段内容不完整,进而使得ai大模型回答不全面或回答有误。因此,为了能解决当前文档数据的切分不准确影响ai大模型的数据处理的技术问题,需要一种新的技术来解决当前问题。


技术实现思路

1、本专利技术的主要目的在于解决当前文档数据的切分不准确影响ai大模型的数据处理的技术问题。

2、本专利技术第一方面提供了一种文档的分类拆分方法,所述文档的分类拆分方法包括:

3、接收文档向量化指令,以及接收所述文档向量化指令对应的文档数据,其中,所述文档向量化指令包括:通用拆分模式,所述文档数据包括:文档类型;

4、当文档类型为excel类型,则利用预置apache poi组件,对所述文档数据进行解析处理,得到文档字符串,以及根据预置正则表达式,对所述文档字符串进行拆分处理,得到文档分片数据;

5、当文档类型为pdf类型,则利用预置pdfplumber组件,对所述文档数据进行解析分片处理,得到文档分片数据;

6、当文档类型为通用文档,则利用langchain4j组件解析所述文档数据,得到文档字符串,以及根据所述通用拆分模式,对所述文档字符串进行拆分处理,得到文档分片数据;

7、可视化展示所述文档分片数据;

8、接收用户的存储指令,以及根据所述存储指令,将所述文档分片数据存储至预置向量数据库中。

9、可选的,在本专利技术第一方面的第一种实现方式中,所述根据所述通用拆分模式,对所述文档字符串进行拆分处理,得到文档分片数据包括:

10、当通用拆分模式为字符拆分时,则根据预置documentbycharactersplitter拆分组件,对所述文档字符串进行拆分处理,得到文档分片数据。

11、可选的,在本专利技术第一方面的第二种实现方式中,所述根据所述通用拆分模式,对所述文档字符串进行拆分处理,得到文档分片数据还包括:

12、当通用拆分模式为段落拆分时,则根据预置正则表达式,对所述文档字符串进行拆分处理,得到文档分片数据。

13、可选的,在本专利技术第一方面的第三种实现方式中,所述根据所述通用拆分模式,对所述文档字符串进行拆分处理,得到文档分片数据还包括:

14、当通用拆分模式为按行拆分时,则基于预设正则表达式,对所述文档字符串进行拆分处理,得到文档分片数据。

15、可选的,在本专利技术第一方面的第四种实现方式中,所述可视化展示所述文档分片数据包括:

16、可视化展示所述文档分片数据,得到所述文档分片数据对应的可编辑分片界面。

17、可选的,在本专利技术第一方面的第五种实现方式中,在所述可视化展示所述文档分片数据之后,在所述接收用户的存储指令,以及根据所述存储指令,将所述文档分片数据存储至预置向量数据库中之前,还包括:

18、接收用户的调整指令;

19、基于所述调整指令,对所述可编辑分页界面进行内容调整处理,生成调整分页界面。

20、可选的,在本专利技术第一方面的第六种实现方式中,所述接收用户的存储指令,以及根据所述存储指令,将所述文档分片数据存储至预置向量数据库中包括:

21、接收用户的存储指令,其中,所述存储指令包括:页面id;

22、将所述页面id对应调整分页界面的显示数据存储至预置向量数据库中。

23、可选的,在本专利技术第一方面的第七种实现方式中,所述根据所述存储指令,将所述文档分片数据存储至预置向量数据库中包括:

24、将所述文档分片数据缓存至预置mongodb数据库中;

25、根据所述存储指令,将所述存储指令对应的文档分片数据从所述mongodb数据库同步存储至预置向量数据库中。

26、本专利技术第二方面提供了一种文档的分类拆分设备,包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;所述至少一个处理器调用所述存储器中的所述指令,以使得所述文档的分类拆分设备执行上述的文档的分类拆分方法。

27、本专利技术的第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的文档的分类拆分方法。

28、在本专利技术实施例中,通过基于文档数据的种类进行分类解析,将文档数据以excel类型、pdf类型、通用类型进行精确解析出字符串,并配合正则表达式拆分字符串,避免了文档数据拆分错误导致切分后的文件内容不清晰,实现对文档数据按照内容关联性的片段切分,提高了文档拆分的文档准确度,实现语料输入ai大模型后ai大模型答复更加精准的效果。

本文档来自技高网...

【技术保护点】

1.一种文档的分类拆分方法,其特征在于,包括步骤:

2.根据权利要求1所述的文档的分类拆分方法,其特征在于,所述根据所述通用拆分模式,对所述文档字符串进行拆分处理,得到文档分片数据包括:

3.根据权利要求1所述的文档的分类拆分方法,其特征在于,所述根据所述通用拆分模式,对所述文档字符串进行拆分处理,得到文档分片数据还包括:

4.根据权利要求1所述的文档的分类拆分方法,其特征在于,所述根据所述通用拆分模式,对所述文档字符串进行拆分处理,得到文档分片数据还包括:

5.根据权利要求1所述的文档的分类拆分方法,其特征在于,所述可视化展示所述文档分片数据包括:

6.根据权利要求5所述的文档的分类拆分方法,其特征在于,在所述可视化展示所述文档分片数据之后,在所述接收用户的存储指令,以及根据所述存储指令,将所述文档分片数据存储至预置向量数据库中之前,还包括:

7.根据权利要求6所述的文档的分类拆分方法,其特征在于,所述接收用户的存储指令,以及根据所述存储指令,将所述文档分片数据存储至预置向量数据库中包括:

8.根据权利要求1所述的文档的分类拆分方法,其特征在于,所述接收用户的存储指令,以及根据所述存储指令,将所述文档分片数据存储至预置向量数据库中还包括:

9.一种文档的分类拆分设备,其特征在于,所述文档的分类拆分设备包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;

10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-8中任一项所述的文档的分类拆分方法。

...

【技术特征摘要】

1.一种文档的分类拆分方法,其特征在于,包括步骤:

2.根据权利要求1所述的文档的分类拆分方法,其特征在于,所述根据所述通用拆分模式,对所述文档字符串进行拆分处理,得到文档分片数据包括:

3.根据权利要求1所述的文档的分类拆分方法,其特征在于,所述根据所述通用拆分模式,对所述文档字符串进行拆分处理,得到文档分片数据还包括:

4.根据权利要求1所述的文档的分类拆分方法,其特征在于,所述根据所述通用拆分模式,对所述文档字符串进行拆分处理,得到文档分片数据还包括:

5.根据权利要求1所述的文档的分类拆分方法,其特征在于,所述可视化展示所述文档分片数据包括:

6.根据权利要求5所述的文档的分类拆分方法,其特征在于,在所述可视化展示所述文档分片数据之后,在所述接收用户的存储指令,以及根据所...

【专利技术属性】
技术研发人员:李璐彤
申请(专利权)人:深圳市中政汇智管理咨询有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1