The present disclosure relates to methods, devices, devices and storage media for processing documents. According to an example implementation, a document processing method is provided. In this method, it is determined that a set of documents contains a set of words. Based on a set of documents, a set of pseudo documents in a pseudo document describes the relationship between words in a group of words and other words in a group of words. The probability distribution of the association between each word in a set of words and keywords is determined based on the keywords in the target aspect of a specified set of documents and a set of pseudo-documents. Based on the probability distribution, determine at least one topic associated with the target aspect of a set of documents. With the above implementation, at least one topic under the target aspect specified by the keyword can be determined in a more accurate way.
【技术实现步骤摘要】
用于处理文档的方法、装置、设备和存储介质
本公开内容的实现方式概括地涉及文档处理,并且更具体地,涉及用于确定一组文档在指定方面下的主题的方法、装置、设备和计算机存储介质。
技术介绍
随着计算机技术的发展,目前已经出现了越来越多类型的文档。尤其是,随着社交网络、电子商务网络进入人们的生活,这使得人们可以经由这些网络平台来编辑文档、发布自己的评论等。面临来自网络或者其他媒体的海量文档,如何以更为准确的方式从海量文档中挖掘文档所涉及的主题成为一个技术难题。
技术实现思路
根据本公开内容的示例实现方式,提供了一种用于文档处理的方案。在本公开内容的第一方面中,提供了一种文档处理方法。在该方法中,获取一组文档中包括一组词语。基于一组文档生成一组伪文档,一组伪文档中的伪文档描述一组词语中的词语与一组词语中的其他词语之间的关联关系。基于指定一组文档的目标方面的关键字以及一组伪文档,确定一组词语中的各个词语与关键字之间的关联的概率分布。基于概率分布,确定一组文档所涉及的与目标方面相关联的至少一个主题。在本公开内容的第二方面中,提供了一种文档处理装置。该装置包括:获取模块,配置用于获取一组文档中包括一组词语;生成模块,配置用于基于一组文档生成一组伪文档,一组伪文档中的伪文档描述一组词语中的词语与一组词语中的其他词语之间的关联关系;确定模块,配置用于基于指定一组文档的目标方面的关键字以及一组伪文档,确定一组词语中的各个词语与关键字之间的关联的概率分布;以及主题模块,配置用于基于概率分布,确定一组文档所涉及的与目标方面相关联的至少一个主题。在本公开内容的第三方面中,提供了一种设备。该 ...
【技术保护点】
1.一种文档处理方法,包括:获取一组文档中包括一组词语;基于所述一组文档生成一组伪文档,所述一组伪文档中的伪文档描述所述一组词语中的词语与所述一组词语中的其他词语之间的关联关系;基于指定一组文档的目标方面的关键字以及所述一组伪文档,确定所述一组词语中的各个词语与所述关键字之间的关联的概率分布;以及基于所述概率分布,确定所述一组文档所涉及的与所述目标方面相关联的至少一个主题。
【技术特征摘要】
1.一种文档处理方法,包括:获取一组文档中包括一组词语;基于所述一组文档生成一组伪文档,所述一组伪文档中的伪文档描述所述一组词语中的词语与所述一组词语中的其他词语之间的关联关系;基于指定一组文档的目标方面的关键字以及所述一组伪文档,确定所述一组词语中的各个词语与所述关键字之间的关联的概率分布;以及基于所述概率分布,确定所述一组文档所涉及的与所述目标方面相关联的至少一个主题。2.根据权利要求1所述的方法,其中基于所述一组文档生成所述一组伪文档包括:生成所述一组文档中的与所述一组词语中的第一词语相关联的第一伪文档,包括:基于所述第一词语与所述一组词语中的多个其他词语之间的共同出现,确定所述第一词语与所述多个其他词语之间的共同出现频率;以及基于所述共同出现频率建立所述一组伪文档中的与所述第一词语相关联的所述第一伪文档。3.根据权利要求2所述的方法,其中确定所述共同出现频率包括:基于预定长度的滑动窗口来扫描所述一组文档中的各个文档;以及响应于确定所述第一词语在所述滑动窗口的当前范围内与所述多个其他词语中的词语共同出现,增加所述共同出现频率;以及将所述滑动窗口移动预定步长。4.根据权利要求2所述的方法,其中基于所述共同出现频率生成所述一组伪文档中的与所述第一词语相关联的所述第一伪文档包括:向所述第一伪文档添加所述第一词语以作为所述第一伪文档的文档头;以及向所述第一伪文档添加与所述第一词语共同出现的第二词语以作为所述第一伪文档的文档体。5.根据权利要求4所述的方法,其中向所述第一伪文档添加与所述第一词语共同出现的第二词语包括:基于所述共同出现频率,向所述第一伪文档中添加所述第二词语。6.根据权利要求4所述的方法,其中所述文档体中包括的词语是无序的。7.根据权利要求1所述的方法,其中确定所述一组词语中的各个词语与所述关键字之间的关联的概率分布包括:获取描述词语与关键字之间的关联的概率分布模型;以及基于所述一组伪文档中的一组词语和所述关键字训练所述概率分布模型,以获取所述一组词语中的各个词语与所述关键字相关联的概率分布。8.根据权利要求7所述的方法,其中获取所述概率分布进一步包括:获取与所述目标方面相关联的至少一个主题的数量;以及基于所述数量和所述概率分布模型,获取所述数量的至少一个概率分布。9.根据权利要求1所述的方法,其中确定所述一组文档所涉及的与所述指定方面相关联的至少一个主题包括:基于所述概率分布,将所述多个词语进行排序;以及基于排序的所述多个词语,标识所述至少一个主题中的主题。10.根据权利要求1所述的方法,其中获取一组文档中包括一组词语包括:针对所述一组文档中的文档执行文本处理,以从所述一组文档中提取具有语义的词语以作为所述一组词语。11.一种文档处理装置,包括:获取模块,配置用于获取一组文档中包括一组词语;生成模块,配置用于基于所述一组文档生成一组伪文档,所述一组伪文档中的伪文档描述所述一组词语中的词语与所述一组词语中的其他词语之间的关联关系;确定模块,配置用于基于指定一组文档的目标方面...
【专利技术属性】
技术研发人员:李健,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。