一种用户文本信息分析方法及装置制造方法及图纸

技术编号：21629196 阅读：29 留言：0更新日期：2019-07-17 11:10

本发明专利技术提供一种用户文本信息分析方法，对待分析文本信息进行预处理；对预处理后的待分析文本信息进行潜在主题挖掘，获取文本的主题概率分布；针对所述主题概率分布计算文本的相似度，根据相似度进行用户特征值聚类；对聚类后的待分析文本信息进行数字化标记，得到待分析样本数据；将待分析样本数据输入预先建立的用户偏好分析模型中，得到用户偏好分析结果。该方案中，通过深入挖掘用户文本特征，计算用户间文本相似度，并根据相似度距离进行聚类分析，简化深度神经网络隐含层的结构，提高深度神经网络的学习效率。

A User Text Information Analysis Method and Device

全部详细技术资料下载

【技术实现步骤摘要】
一种用户文本信息分析方法及装置
本专利技术涉及数据挖掘领域，具体涉及一种用户文本信息分析方法及装置。
技术介绍
随着市场竞争的加剧，企业间的竞争已经不仅仅是产品间的竞争，更重要的是客户之间的竞争，客户作为市场消费的主体，满足他们的需求是企业经营管理的出发点。于是如何收集客户信息、整合客户数据、挖掘客户之间的潜在信息显得至关重要，这是企业能够制定合理的产品和服务的前提，也是企业经营决策正确性的有力保证。为了更好的服务用户，企业会收集用户的信息形成文本数据，由于用户的数据量较大，因此收集用户信息形成的文本也是海量文本数据。在用户的文本信息中，会记载用户的偏好，用户对产品的关注程度，购买喜好等等，这些信息可以从侧面反应出用户的个人需求，如果企业可以获取众多客户的偏好需求或其相关数据，便可以为市场经营与决策人员制定相应的策略提供依据，因此如何从用户的海量文本数据中分析用户的特点，指导企业更好的为用户提供服务。
技术实现思路
因此，本专利技术要解决的技术问题在于现有技术中的无法从用户的海量文本数据中分析用户的特点。一种用户文本信息分析方法，包括如下步骤：对待分析文本信息进行预处理；对预处理后的待分析文本信息进行潜在主题挖掘，获取文本的主题概率分布；针对所述主题概率分布计算文本的相似度，根据相似度进行用户特征值聚类；对聚类后的待分析文本信息进行数字化标记，得到待分析样本数据；将待分析样本数据输入预先建立的用户偏好分析模型中，得到用户偏好分析结果。优选地，所述用户偏好分析模型的建立方法，包括：对用户文本信息进行预处理；对预处理后的用户文本信息进行潜在主题挖掘，获取文本的主题...

【技术保护点】
1.一种用户文本信息分析方法，其特征在于，包括如下步骤：对待分析文本信息进行预处理；对预处理后的待分析文本信息进行潜在主题挖掘，获取文本的主题概率分布；针对所述主题概率分布计算文本的相似度，根据相似度进行用户特征值聚类；对聚类后的待分析文本信息进行数字化标记，得到待分析样本数据；将待分析样本数据输入预先建立的用户偏好分析模型中，得到用户偏好分析结果。

【技术特征摘要】
1.一种用户文本信息分析方法，其特征在于，包括如下步骤：对待分析文本信息进行预处理；对预处理后的待分析文本信息进行潜在主题挖掘，获取文本的主题概率分布；针对所述主题概率分布计算文本的相似度，根据相似度进行用户特征值聚类；对聚类后的待分析文本信息进行数字化标记，得到待分析样本数据；将待分析样本数据输入预先建立的用户偏好分析模型中，得到用户偏好分析结果。2.根据权利要求1所述的用户文本信息分析方法，其特征在于，所述用户偏好分析模型的建立方法，包括：对用户文本信息进行预处理；对预处理后的用户文本信息进行潜在主题挖掘，获取文本的主题概率分布；针对所述主题概率分布计算文本的相似度，根据相似度进行用户特征值聚类；对聚类后的用户文本信息进行数字化标记，得到用户样本数据；使用用户样本数据对神经网络模型进行训练，根据训练后的神经网络模型得到用户偏好分析模型。3.根据权利要求2所述的方法，其特征在于，还包括将所述用户样本数据分为训练集和测试集，使用所述训练集对所述神经网络模型进行训练，使用测试集对所述神经网络模型进行验证，识别率达到预设阈值时，将所述神经网络模型作为用户偏好分析模型。4.根据权利要求1或2或3所述的方法，其特征在于，所述对预处理后的待分析文本信息进行潜在主题挖掘的步骤，包括：对所述待分析文本信息进行中文分词处理，获取关键词；生成可被狄利克雷模型处理的文档并采用狄利克雷模型进行潜在主题挖掘。5.根据权利要求1所述的方法，其特征在于，所述相似度计算公式如下：w1k、w2k分别表示文本D1和D2第k个特征项的权值，1≤k≤N。6.根据权利要求1所述的方法，其特征在于，所述对聚类后的用户文本信息进行数字化标记，得到...

【专利技术属性】
技术研发人员：张健，齐林，何琼，李飞，胡泽，
申请(专利权)人：北京信息科技大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人