文本数据的表示方法、装置、电子设备及存储介质制造方法及图纸

技术编号:37108784 阅读:31 留言:0更新日期:2023-04-01 05:07
本申请提供的一种文本数据的表示方法、装置、电子设备及存储介质,通过对目标文本数据中所有元素的属性信息进行分析确定文档结构信息,并构建所述文档结构信息对应的结构数据,将目标文本数据嵌入至所述结构数据中,基于所述基于所述结构数据中的向量信息,确定用以表示所述文本数据的向量,能够更好地表示文本数据。本数据。本数据。

【技术实现步骤摘要】
文本数据的表示方法、装置、电子设备及存储介质


[0001]本申请涉及自然语言处理
,特别地涉及一种文本数据的表示方法、装置、电子设备及存储介质。

技术介绍

[0002]在日常处理自然语言处理任务的过程中,我们所面临的的数据主要包含结构化数据、半结构化数据、非结构化数据、文件数据。结构化数据来源于数据库、Excel表格等,半结构化数据来源于web页面我们需要爬取的相关xml数据,非结构化数据来源于人类使用的自然语言,文件数据来源于我们日常使用的Office办公软件,例如doc、docx、pdf格式的文件。文件数据包含特别多的丰富信息,其中文件结构包括:文档标题、文档开头、段落标题、段落次级标题、段落正文、文档结尾以及他们之间的层级关系等,如何更优更完备提取信息对于NLP下游任务至关重要。
[0003]当前,对文本数据的空间表示主要借助于语言模型,当下语言模型可以概括为静态的语言模型和动态的语言模型,静态语言模型主要包含词频逆文档模型(TF

IDF)、静态局部模型(Word2Vec)、静态全局模型(Glove)等,动态语言模型包含NNLM、LSTM、BERT、XLNET等。静态语言模型的词向量不能根据语义进行调整,动态语言模型的词向量可以根据语义调整但是在长文本数据适应性不好,但是不管是动态语言模型和静态语言模型,都没有对文件数据的文件结构进行适应,破坏了文件结构信息,使得文件数据的表示不够准确。

技术实现思路

[0004]针对上述相关技术中的问题,本申请提供一种文本数据的表示方法、装置、电子设备及存储介质。
[0005]本申请提供了一种文本数据的表示方法,所述方法包括:
[0006]获取文本数据;
[0007]对所述文本数据进行预处理,得到目标文本数据;
[0008]基于所述目标文本数据中所有元素的属性信息确定文档结构信息,并构建所述文档结构信息对应的结构数据,其中,一个元素为目标文本数据中的一行文本数据;
[0009]将所述目标文本数据嵌入至所述结构数据中,以将所述目标文本数据进行向量化;
[0010]基于所述结构数据中的向量信息,确定用以表示所述文本数据的向量。
[0011]在一些实施例中,所述对所述文本数据进行预处理,得到目标文本数据,包括:
[0012]遍历所述文本数据中每个元素的字符的编码;
[0013]去除除数字、字母、标点符号和换行符对应的编码之外的其他编码,得到目标文本数据。
[0014]在一些实施例中,所述属性信息包括:左坐标信息、右坐标信息、字体粗细信息、是否居中的信息,所述基于所述目标文本数据中所有元素的属性信息确定文档结构信息,包
括:
[0015]基于各个元素的字体粗细信息和是否居中的信息确定文档标题和段落标题;
[0016]基于元素的左坐标信息、右坐标信息、字体粗细信息、是否居中的信息确定段落正文;
[0017]至少基于所述文档标题、段落标题、段落正文确定文档结构信息。
[0018]在一些实施例中,所述属性信息还包括:位置信息,所述方法还包括:
[0019]将各个元素、各个元素对应的位置信息和字体粗细信息输入至文本分类器,输出文档开头和文档结尾;
[0020]所述至少基于所述文档标题、段落标题、段落正文确定文档结构信息,包括:基于所述文档标题、段落标题、段落正文、文档开头和文档结尾确定文档结构信息。
[0021]在一些实施例中,所述基于所述结构数据中的向量信息,确定用以表示所述文本数据的向量,包括:
[0022]基于结构数据中文档标题对应的向量确定文档标题向量;
[0023]基于结构数据中所有段落标题对应的向量和各个段落标题的段落正文对应的向量确定段落向量;
[0024]基于数据结构中文档开头对应的向量确定文档开头向量;
[0025]基于数据结构中文档结尾对应的向量确定文档结尾向量;
[0026]基于文档标题向量、段落向量、文档开头向量和文档结尾向量确定用以表示所述文本数据的向量。
[0027]在一些实施例中,段落标题包括多个等级段落标题,基于结构数据中所有段落标题对应的向量和各个段落标题的段落正文对应的向量确定段落向量,包括:
[0028]确定各个段落标题中各个等级段落标题的向量与各个等级段落标题对应的段落正文的向量之间的相似度;
[0029]对各个段落标题中各个等级段落标题的向量与各个等级段落标题对应的段落正文的向量之间的相似度进行归一化处理得到归一化相似度;
[0030]基于各个归一化相似度、各个等级段落标题的向量、各个等级段落标题对应的段落正文的向量确定各个初始段落向量;
[0031]求取各个初始段落向量的平均值得到段落向量。
[0032]在一些实施例中,所述基于文档标题向量、段落向量、文档开头向量和文档结尾向量确定用以表示所述文本数据的向量,包括:
[0033]获取文档标题的权重、文档开头的权重、文档结尾的权重和段落的权重;
[0034]将文档标题的权重乘以文档标题向量得到第一计算结果;
[0035]将文档开头的权重乘以文档开头向量得到第二计算结果;
[0036]将文档结尾的权重乘以文档结尾向量得到第三计算结果;
[0037]将段落的权重乘以段落向量得到第四计算结果;
[0038]将第一计算结果、第二计算结果、第三计算结果、第四计算结果进行求和得到目标向量;
[0039]将所述目标向量表示为所述文本数据的向量。
[0040]本申请实施例提供一种文本数据的表示装置,包括:
[0041]第一获取模块,用于获取文本数据;
[0042]预处理模块,用于对所述文本数据进行预处理,得到目标文本数据;
[0043]第一确定模块,用于基于所述目标文本数据中所有元素的属性信息确定文档结构信息,并构建所述文档结构信息对应的结构数据,其中,一个元素为目标文本数据中的一行文本数据;
[0044]嵌入模块,用于将所述目标文本数据嵌入至所述结构数据中;
[0045]第二确定模块,用基于所述结构数据中的向量信息,确定用以表示所述文本数据的向量。
[0046]本申请实施例提供一种电子设备,包括:包括存储器和处理器,所述存储器上存储有计算机程序,该计算机程序被所述处理器执行时,执行如上述任意一项所述文本数据的表示方法。
[0047]本申请实施例提供一种存储介质,该存储介质存储的计算机程序,能够被一个或多个处理器执行,能够用来实现上述任一项所述的文本数据的表示方法。
[0048]本申请实施例提供一种文本数据的表示方法、装置、电子设备及存储介质,通过对目标文本数据中所有元素的属性信息进行分析确定文档结构信息,并构建所述文档结构信息对应的结构数据,将目标文本数据嵌入至所述结构数据中,基于所述结构数据中的向量信息,确定用以表示所述文本数据的向量,能够更本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本数据的表示方法,其特征在于,包括:获取文本数据;对所述文本数据进行预处理,得到目标文本数据;基于所述目标文本数据中所有元素的属性信息确定文档结构信息,并构建所述文档结构信息对应的结构数据,其中,一个元素为目标文本数据中的一行文本数据;将所述目标文本数据嵌入至所述结构数据中,以将所述目标文本数据进行向量化;基于所述结构数据中的向量信息,确定用以表示所述文本数据的向量。2.根据权利要求1所述的方法,其特征在于,所述对所述文本数据进行预处理,得到目标文本数据,包括:遍历所述文本数据中每个元素的字符的编码;去除除数字、字母、标点符号和换行符对应的编码之外的其他编码,得到目标文本数据。3.根据权利要求1所述的方法,其特征在于,所述属性信息包括:左坐标信息、右坐标信息、字体粗细信息、是否居中的信息,所述基于所述目标文本数据中所有元素的属性信息确定文档结构信息,包括:基于各个元素的字体粗细信息和是否居中的信息确定文档标题和段落标题;基于元素的左坐标信息、右坐标信息、字体粗细信息、是否居中的信息确定段落正文;至少基于所述文档标题、段落标题、段落正文确定文档结构信息。4.根据权利要求3所述的方法,其特征在于,所述属性信息还包括:位置信息,所述方法还包括:将各个元素、各个元素对应的位置信息和字体粗细信息输入至文本分类器,输出文档开头和文档结尾;所述至少基于所述文档标题、段落标题、段落正文确定文档结构信息,包括:基于所述文档标题、段落标题、段落正文、文档开头和文档结尾确定文档结构信息。5.根据权利要求4所述的方法,其特征在于,所述基于所述结构数据中的向量信息,确定用以表示所述文本数据的向量,包括:基于结构数据中文档标题对应的向量确定文档标题向量;基于结构数据中所有段落标题对应的向量和各个段落标题的段落正文对应的向量确定段落向量;基于数据结构中文档开头对应的向量确定文档开头向量;基于数据结构中文档结尾对应的向量确定文档结尾向量;基于文档标题向量、段落向量、文档开头向量和文档结尾向量确定用以表示所述文本数据的向量。6.根据权利要求5所述的方法,其特征在于,段落标题包括多个等级段落...

【专利技术属性】
技术研发人员:段兴涛赵国庆周长安
申请(专利权)人:北京中关村科金技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1