一种提纲确定方法及装置制造方法及图纸

技术编号:30964291 阅读:12 留言:0更新日期:2021-11-25 20:30
本发明专利技术实施例提供了一种提纲确定方法及装置,上述方法包括:获得待生成文本的描述信息;获得所述描述信息的语义特征,作为第一语义特征;基于预设提纲的语义特征与所述第一语义特征,从所述预设提纲中确定所述待生成文本的提纲。应用本发明专利技术实施例提供的方案确定提纲时,能够提高提纲确定效率。能够提高提纲确定效率。能够提高提纲确定效率。

【技术实现步骤摘要】
一种提纲确定方法及装置


[0001]本专利技术涉及数据处理
,特别是涉及一种提纲确定方法及装置。

技术介绍

[0002]文本自动生成是自然语言处理的一个研究分支,实现让电子设备生成文本。通过电子设备生成的文本,能够辅助用户高效地创作高质量文本。在生成文本之前,通常需要确定文本的提纲,电子设备基于各提纲生成文本。
[0003]现有技术中,通常由工作人员手动从数量较多的提纲中选择提纲。然而,采用这种方法费时费力,导致提纲确定的效率较低。

技术实现思路

[0004]本专利技术实施例的目的在于提供一种提纲确定方法及装置,以提高提纲确定的效率。具体技术方案如下:
[0005]第一方面,本专利技术实施例提供了一种提纲确定方法,所述方法包括:
[0006]获得待生成文本的描述信息;
[0007]获得所述描述信息的语义特征,作为第一语义特征;
[0008]基于预设提纲的语义特征与所述第一语义特征,从所述预设提纲中选择所述待生成文本的提纲。
[0009]本专利技术的一个实施例中,上述基于预设提纲的语义特征与所述第一语义特征,从所述预设提纲中确定所述待生成文本的提纲,包括:
[0010]基于预设提纲的语义特征与所述第一语义特征间的相似度,从所述预设提纲中选择所述待生成文本的提纲。
[0011]本专利技术的一个实施例中,上述基于预设提纲的语义特征与所述第一语义特征间的相似度,从所述预设提纲中选择所述待生成文本的提纲,包括:
[0012]基于各个提纲组的聚类中心的语义特征与所述第一语义特征间的相似度,从各个提纲组中选择所述待生成文本的提纲所属的提纲组,作为备选提纲组,其中,所述各个提纲组为:按照提纲的语义特征间的相似度聚类得到的提纲组;
[0013]根据所述备选提纲组中各个提纲的语义特征与所述第一语义特征间的相似度,从所述备选提纲组的各个提纲中选择所述待生成文本的提纲。
[0014]本专利技术的一个实施例中,上述根据所述备选提纲组中各个提纲的语义特征与所述第一语义特征间的相似度,从所述备选提纲组的各个提纲中选择所述待生成文本的提纲,包括:
[0015]从所述备选提纲组中,选择聚类中心的语义特征与所述第一语义特征相似度最高的备选提纲组;
[0016]根据所选择的备选提纲组中各个提纲的语义特征与所述第一语义特征间的相似度,从所选择的备选提纲组内的各个提纲中,选择所述待生成文本的提纲。
[0017]本专利技术的一个实施例中,上述根据所述备选提纲组中各个提纲的语义特征与所述第一语义特征间的相似度,从所述备选提纲组的各个提纲中选择所述待生成文本的提纲,包括:
[0018]计算所述备选提纲组中的各个提纲的语义特征与所述第一语义特征间的相似度;
[0019]按照计算得到的各个提纲对应相似度由高到低的顺序,从各个提纲中选择前第一预设数量个提纲,作为所述待生成文本的提纲。
[0020]本专利技术的一个实施例中,上述基于各个提纲组的聚类中心的语义特征与所述第一语义特征间的相似度,从各个提纲组中选择所述待生成文本的提纲所属的提纲组,包括:
[0021]计算各个提纲组的聚类中心的语义特征与所述第一语义特征间的相似度;
[0022]按照计算得到的各个提纲组对应相似度由高到低的顺序,从各个提纲组中选择前第二预设数量个提纲组;
[0023]确定所选择的各个提纲组中包含所述描述信息的提纲的提纲数量;
[0024]根据所确定的提纲数量,从所选择的提纲组中确定所述待生成文本的提纲所属的提纲组。
[0025]本专利技术的一个实施例中,上述方法还包括:
[0026]从所述待生成文本的提纲对应的预设段落中选择所述待生成文本的段落。
[0027]本专利技术的一个实施例中,上述从所述待生成文本的提纲对应的预设段落中选择所述待生成文本的段落,包括:
[0028]基于所述待生成文本的提纲对应的预设段落的语义特征与所述第一语义特征间的相似度,从所述待生成文本的提纲对应的预设段落中选择所述待生成文本的段落。
[0029]本专利技术的一个实施例中,上述预设段落为预先确定的段落,包括如下步骤:
[0030]获取预设提纲对应的预先选择的文本;
[0031]从所述文本中预设提纲对应的各个段落中提取段落,作为提纲对应的预设段落。
[0032]本专利技术的一个实施例中,上述从所述文本中预设提纲对应的各个段落中提取段落,作为提纲对应的预设段落,包括:
[0033]确定所述文本中所述预设提纲对应的各个段落的特征信息;
[0034]基于所述各个段落的特征信息,从所述各个段落中选择备选段落,将所述备选段落确定为所述文本中所述预设提纲对应的预设段落。
[0035]本专利技术的一个实施例中,上述将所述备选段落确定为所述文本中所述预设提纲对应的预设段落,包括:
[0036]针对每一备选段落,确定该备选段落的语义特征以及该备选段落中各个词的词义特征,并将所确定的语义特征以及词义特征输入至预先训练的段落质量评价模型中,获得该备选段落的质量分数值,将质量分数值大于预设质量分数阈值的段落作为所述文本中所述预设提纲对应的预设段落;
[0037]其中,所述段落质量评价模型为:由样本段落的语义特征以及样本段落中各个词的词义特征为模型输入、以样本段落的标注质量分数值为训练基准、对预设的神经网络模型进行训练得到的、用于获得段落的质量分数值。
[0038]本专利技术的一个实施例中,上述方法还包括:
[0039]基于所述待生成文本的提纲,对所选择的所述待生成文本的段落进行排序,生成
包含所述待生成文本的提纲和排序后段落的文本。
[0040]本专利技术的一个实施例中,上述描述信息包括以下信息中的至少一种:用户画像、关键词、实体词、关键句以及文本类型。
[0041]第二方面,本专利技术实施例提供了一种提纲确定装置,所述装置包括:
[0042]信息获得模块,用于获得待生成文本的描述信息;
[0043]特征获得模块,用于获得所述描述信息的语义特征,作为第一语义特征;
[0044]提纲选择模块,用于基于预设提纲的语义特征与所述第一语义特征,从所述预设提纲中选择所述待生成文本的提纲。
[0045]本专利技术的一个实施例中,上述提纲选择模块,具体用于基于预设提纲的语义特征与所述第一语义特征间的相似度,从所述预设提纲中选择所述待生成文本的提纲。
[0046]本专利技术的一个实施例中,上述提纲选择模块,包括:
[0047]提纲组选择子模块,用于基于各个提纲组的聚类中心的语义特征与所述第一语义特征间的相似度,从各个提纲组中选择所述待生成文本的提纲所属的提纲组,作为备选提纲组,其中,所述各个提纲组为:按照提纲的语义特征间的相似度聚类得到的提纲组;
[0048]提纲选择子模块,用于根据所述备选提纲组中各个提纲的语义特征与所述第一语义特征间的相似度,从所述备选提纲组的各个提纲中选择所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种提纲确定方法,其特征在于,所述方法包括:获得待生成文本的描述信息;获得所述描述信息的语义特征,作为第一语义特征;基于预设提纲的语义特征与所述第一语义特征,从所述预设提纲中确定所述待生成文本的提纲。2.根据权利要求1所述的方法,其特征在于,所述基于预设提纲的语义特征与所述第一语义特征,从所述预设提纲中确定所述待生成文本的提纲,包括:基于预设提纲的语义特征与所述第一语义特征间的相似度,从所述预设提纲中选择所述待生成文本的提纲。3.根据权利要求2所述的方法,其特征在于,所述基于预设提纲的语义特征与所述第一语义特征间的相似度,从所述预设提纲中选择所述待生成文本的提纲,包括:基于各个提纲组的聚类中心的语义特征与所述第一语义特征间的相似度,从各个提纲组中选择所述待生成文本的提纲所属的提纲组,作为备选提纲组,其中,所述各个提纲组为:按照提纲的语义特征间的相似度聚类得到的提纲组;根据所述备选提纲组中各个提纲的语义特征与所述第一语义特征间的相似度,从所述备选提纲组的各个提纲中选择所述待生成文本的提纲。4.根据权利要求3所述的方法,其特征在于,所述根据所述备选提纲组中各个提纲的语义特征与所述第一语义特征间的相似度,从所述备选提纲组的各个提纲中选择所述待生成文本的提纲,包括:从所述备选提纲组中,选择聚类中心的语义特征与所述第一语义特征相似度最高的备选提纲组;根据所选择的备选提纲组中各个提纲的语义特征与所述第一语义特征间的相似度,从所选择的备选提纲组内的各个提纲中,选择所述待生成文本的提纲。5.根据权利要求3所述的方法,其特征在于,所述根据所述备选提纲组中各个提纲的语义特征与所述第一语义特征间的相似度,从所述备选提纲组的各个提纲中选择所述待生成文本的提纲,包括:计算所述备选提纲组中的各个提纲的语义特征与所述第一语义特征间的相似度;按照计算得到的各个提纲对应相似度由高到低的顺序,从各个提纲中选择前第一预设数量个提纲,作为所述待生成文本的提纲。6.根据权利要求3

5中任一项所述的方法,其特征在于,所述基于各个提纲组的聚类中心的语义特征与所述第一语义特征间的相似度,从各个提纲组中选择所述待生成文本的提纲所属的提纲组,包括:计算各个提纲组的聚类中心的语义特征与所述第一语义特征间的相似度;按照计算得到的各个提纲组对应相似度由高到低的顺序,从各提纲组中选择前第二预设数量个提纲组;确定所选择的各个提纲组中包含所述描述信息的提纲的提纲数量;根据所确定的提纲数量,从所选择的提纲组中确定所述待生成文本的提纲所属的提纲组。7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
从所述待生成文本的提纲对应的预设段落中选择所述待生成文本的段落。8.根据权利要求7所述的方法,其特征在于,所述从所述待生成文本的提纲对应的预设段落中选择所述待生成文本的段落,包括:基于所述待生成文本的提纲对应的预设段落的语义特征与所述第一语义特征间的相似度,从所述待生成文本的提纲对应的预设段落中选择所述待生成文本的段落。9.根据权利要求8所述的方法,其...

【专利技术属性】
技术研发人员:王浪陈启贤余燕
申请(专利权)人:北京金山办公软件股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1