用于处理文档的方法、装置、设备和存储介质制造方法及图纸

技术编号:21299247 阅读:25 留言:0更新日期:2019-06-12 07:50
本公开涉及用于处理文档的方法、装置、设备和存储介质。根据一个示例性实现方式,提供了一种文档处理方法。在该方法中,确定一组文档中包括一组词语。基于一组文档生成一组伪文档,一组伪文档中的伪文档描述一组词语中的词语与一组词语中的其他词语之间的关联关系。基于指定一组文档的目标方面的关键字以及一组伪文档,确定一组词语中的各个词语与关键字之间的关联的概率分布。基于概率分布,确定一组文档所涉及的与目标方面相关联的至少一个主题。采用上述实现方式,可以以更为准确的方式确定由关键字指定的目标方面下的至少一个主题。

Methods, devices, devices and storage media for processing documents

The present disclosure relates to methods, devices, devices and storage media for processing documents. According to an example implementation, a document processing method is provided. In this method, it is determined that a set of documents contains a set of words. Based on a set of documents, a set of pseudo documents in a pseudo document describes the relationship between words in a group of words and other words in a group of words. The probability distribution of the association between each word in a set of words and keywords is determined based on the keywords in the target aspect of a specified set of documents and a set of pseudo-documents. Based on the probability distribution, determine at least one topic associated with the target aspect of a set of documents. With the above implementation, at least one topic under the target aspect specified by the keyword can be determined in a more accurate way.

【技术实现步骤摘要】
用于处理文档的方法、装置、设备和存储介质
本公开内容的实现方式概括地涉及文档处理,并且更具体地,涉及用于确定一组文档在指定方面下的主题的方法、装置、设备和计算机存储介质。
技术介绍
随着计算机技术的发展,目前已经出现了越来越多类型的文档。尤其是,随着社交网络、电子商务网络进入人们的生活,这使得人们可以经由这些网络平台来编辑文档、发布自己的评论等。面临来自网络或者其他媒体的海量文档,如何以更为准确的方式从海量文档中挖掘文档所涉及的主题成为一个技术难题。
技术实现思路
根据本公开内容的示例实现方式,提供了一种用于文档处理的方案。在本公开内容的第一方面中,提供了一种文档处理方法。在该方法中,获取一组文档中包括一组词语。基于一组文档生成一组伪文档,一组伪文档中的伪文档描述一组词语中的词语与一组词语中的其他词语之间的关联关系。基于指定一组文档的目标方面的关键字以及一组伪文档,确定一组词语中的各个词语与关键字之间的关联的概率分布。基于概率分布,确定一组文档所涉及的与目标方面相关联的至少一个主题。在本公开内容的第二方面中,提供了一种文档处理装置。该装置包括:获取模块,配置用于获取一组文档中包括一组词语;生成模块,配置用于基于一组文档生成一组伪文档,一组伪文档中的伪文档描述一组词语中的词语与一组词语中的其他词语之间的关联关系;确定模块,配置用于基于指定一组文档的目标方面的关键字以及一组伪文档,确定一组词语中的各个词语与关键字之间的关联的概率分布;以及主题模块,配置用于基于概率分布,确定一组文档所涉及的与目标方面相关联的至少一个主题。在本公开内容的第三方面中,提供了一种设备。该设备包括一个或多个处理器;以及存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现根据本公开内容的第一方面的方法。在本公开内容的第四方面中,提供了一种其上存储有计算机程序的计算机可读介质,该程序在被处理器执行时实现根据本公开内容的第一方面的方法。应当理解,
技术实现思路
部分中所描述的内容并非旨在限定本公开内容的实现方式的关键或重要特征,亦非用于限制本公开内容的范围。本公开内容的其他特征将通过以下的描述变得容易理解。附图说明结合附图并参考以下详细说明,本公开内容的各实现方式的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素,其中:图1示意性示出了文档、词语和主题之间的关系的示意图;图2示意性示出了特定文档、该特定文档所包括的词语和主题之间的关系的示意图;图3示意性示出了根据本公开内容的示例性实现方式的用于文档处理的技术方案的框图;图4示意性示出了根据本公开内容的示例性实现方式的用于文档处理的方法的流程图;图5A和图5B分别示意性示出了根据本公开内容的示例性实现方式的基于滑动窗口来确定词语的共同出现的框图;图6示意性示出了根据本公开内容的示例性实现方式的伪文档的格式的框图;图7示意性示出了根据本公开内容的示例性实现方式的基于概率分布模型来确定一组伪文档中包括的词语与关键字之间的关联的概率分布的框图;图8示意性示出了根据本公开内容的示例性实现方式的概率分布模型中的各个参数的框图;图9示意性示出了根据本公开内容的示例性实现方式的文档处理装置的框图;以及图10示出了能够实施本公开内容的多个实现方式的计算设备的框图。具体实施方式下面将参照附图更详细地描述本公开内容的实现方式。虽然附图中显示了本公开内容的某些实现方式,然而应当理解的是,本公开内容可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实现方式,相反提供这些实现方式是为了更加透彻和完整地理解本公开内容。应当理解的是,本公开内容的附图及实现方式仅用于示例性作用,并非用于限制本公开内容的保护范围。在本公开内容的实现方式的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实现方式”或“该实现方式”应当理解为“至少一个实现方式”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。目前已经出现了用于确定一组文档的主题的多种方案。例如,目前已经提出了主题模型的概念,可以基于主题模型来确定一组文档所涉及的主题。然而,主题模型涉及面向所有的方面的对文档的全部文本进行全分析,以便挖掘所有的主题。首先参见图1描述文档、词语和主题之间的关系。图1示意性示出了文档、词语和主题之间的关系的示意图100。图1示出了一组文档110,在此的一组文档110例如可以是来自网络或者其他媒体的文章、论坛中各个用户的评论等。一组文档110中的每个文档可以包括不同数量的词语130、132、……、以及134等。在此,主题是指文档中的词语所表示的语义结构的主题,也即文档中包括的词语所讨论的话题。如图1所示,一组文档110可以涉及多个主题,例如,主题120、……、以及主题122等。进一步,各个主题120、……、以及主题122可以分别涉及不同的词语。例如,主题120可以涉及词语130、132和134,而主题122可以涉及主题130和132。在下文中,将参见图2详细介绍文档、主题和词语的更多细节。图2示意性示出了特定文档、该特定文档所包括的词语和主题之间的关系的示意图200。图2示意性示出了特定文档210,该文档210包括文本:“尼康(Nikon)和佳能(Canon)两家照相机厂商在市场中处于竞争地位,两家厂商的产品各具优势。例如,对于照相机屏幕而言,清晰度……”。目前已经提出了主题模型的概念,基于主题模型来分析文档210,可以获得该文档210所涉及的多个主题220、222和224。例如,文档210可以涉及如下三个主题:主题220“尼康”、主题222“佳能”和主题224“屏幕”。进一步,基于主题模型还可以确定与各个主题相关联的词语。例如,主题220涉及词语:尼康、Nikon等,主题222涉及词语佳能、Canon等,而主题224涉及词语:屏幕、清晰度等。然而,主题模型涉及面向所有方面来对文档的全部词语进行全分析,以便挖掘所有的主题。如果期望获得给定目标方面的主题,则需要在挖掘到的全部主题中寻找与目标方面相关的主题。因而,基于主题模型获得的主题是粗糙的,并不能详尽地描述目标方面。例如,如果期望分析有关照相机的一组文档中的目标方面“屏幕”下的更多主题,则需要首先获得一组文档所涉及的全部方面,继而在全部方面中基于“屏幕”进行过滤。此时,如何以更为细化的粒度来处理文档以获得在指定目标方面下的(一个或多个)主题,成为一个有待解决的问题。为了至少部分地解决上述技术方案中的不足,根据本公开的示例性实现,提供了一种文档处理以便确定文档所涉及的目标方面下的主题的技术方案。将会理解,不同于传统的基于主题模型来确定文档主题的技术方案,在此的主题是指预定的目标方面下的主题。在此,主题是指文档中的词语所表示的语义结构的主题,也即表示词语的多项概率分布,一个主题下的具有较高概率词语可以表达这个主题语义上的含义。在下文中,将参见图3概括描述本公开的示例性实现。图3示意性示出了根据本公开内容的示例性实现方式的用于文档处理的技术方案的框图300。如图3所示,首先确定一组文档1本文档来自技高网
...

【技术保护点】
1.一种文档处理方法,包括:获取一组文档中包括一组词语;基于所述一组文档生成一组伪文档,所述一组伪文档中的伪文档描述所述一组词语中的词语与所述一组词语中的其他词语之间的关联关系;基于指定一组文档的目标方面的关键字以及所述一组伪文档,确定所述一组词语中的各个词语与所述关键字之间的关联的概率分布;以及基于所述概率分布,确定所述一组文档所涉及的与所述目标方面相关联的至少一个主题。

【技术特征摘要】
1.一种文档处理方法,包括:获取一组文档中包括一组词语;基于所述一组文档生成一组伪文档,所述一组伪文档中的伪文档描述所述一组词语中的词语与所述一组词语中的其他词语之间的关联关系;基于指定一组文档的目标方面的关键字以及所述一组伪文档,确定所述一组词语中的各个词语与所述关键字之间的关联的概率分布;以及基于所述概率分布,确定所述一组文档所涉及的与所述目标方面相关联的至少一个主题。2.根据权利要求1所述的方法,其中基于所述一组文档生成所述一组伪文档包括:生成所述一组文档中的与所述一组词语中的第一词语相关联的第一伪文档,包括:基于所述第一词语与所述一组词语中的多个其他词语之间的共同出现,确定所述第一词语与所述多个其他词语之间的共同出现频率;以及基于所述共同出现频率建立所述一组伪文档中的与所述第一词语相关联的所述第一伪文档。3.根据权利要求2所述的方法,其中确定所述共同出现频率包括:基于预定长度的滑动窗口来扫描所述一组文档中的各个文档;以及响应于确定所述第一词语在所述滑动窗口的当前范围内与所述多个其他词语中的词语共同出现,增加所述共同出现频率;以及将所述滑动窗口移动预定步长。4.根据权利要求2所述的方法,其中基于所述共同出现频率生成所述一组伪文档中的与所述第一词语相关联的所述第一伪文档包括:向所述第一伪文档添加所述第一词语以作为所述第一伪文档的文档头;以及向所述第一伪文档添加与所述第一词语共同出现的第二词语以作为所述第一伪文档的文档体。5.根据权利要求4所述的方法,其中向所述第一伪文档添加与所述第一词语共同出现的第二词语包括:基于所述共同出现频率,向所述第一伪文档中添加所述第二词语。6.根据权利要求4所述的方法,其中所述文档体中包括的词语是无序的。7.根据权利要求1所述的方法,其中确定所述一组词语中的各个词语与所述关键字之间的关联的概率分布包括:获取描述词语与关键字之间的关联的概率分布模型;以及基于所述一组伪文档中的一组词语和所述关键字训练所述概率分布模型,以获取所述一组词语中的各个词语与所述关键字相关联的概率分布。8.根据权利要求7所述的方法,其中获取所述概率分布进一步包括:获取与所述目标方面相关联的至少一个主题的数量;以及基于所述数量和所述概率分布模型,获取所述数量的至少一个概率分布。9.根据权利要求1所述的方法,其中确定所述一组文档所涉及的与所述指定方面相关联的至少一个主题包括:基于所述概率分布,将所述多个词语进行排序;以及基于排序的所述多个词语,标识所述至少一个主题中的主题。10.根据权利要求1所述的方法,其中获取一组文档中包括一组词语包括:针对所述一组文档中的文档执行文本处理,以从所述一组文档中提取具有语义的词语以作为所述一组词语。11.一种文档处理装置,包括:获取模块,配置用于获取一组文档中包括一组词语;生成模块,配置用于基于所述一组文档生成一组伪文档,所述一组伪文档中的伪文档描述所述一组词语中的词语与所述一组词语中的其他词语之间的关联关系;确定模块,配置用于基于指定一组文档的目标方面...

【专利技术属性】
技术研发人员:李健
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1