本发明专利技术提供一种用户文本信息分析方法,对待分析文本信息进行预处理;对预处理后的待分析文本信息进行潜在主题挖掘,获取文本的主题概率分布;针对所述主题概率分布计算文本的相似度,根据相似度进行用户特征值聚类;对聚类后的待分析文本信息进行数字化标记,得到待分析样本数据;将待分析样本数据输入预先建立的用户偏好分析模型中,得到用户偏好分析结果。该方案中,通过深入挖掘用户文本特征,计算用户间文本相似度,并根据相似度距离进行聚类分析,简化深度神经网络隐含层的结构,提高深度神经网络的学习效率。
A User Text Information Analysis Method and Device
【技术实现步骤摘要】
一种用户文本信息分析方法及装置
本专利技术涉及数据挖掘领域,具体涉及一种用户文本信息分析方法及装置。
技术介绍
随着市场竞争的加剧,企业间的竞争已经不仅仅是产品间的竞争,更重要的是客户之间的竞争,客户作为市场消费的主体,满足他们的需求是企业经营管理的出发点。于是如何收集客户信息、整合客户数据、挖掘客户之间的潜在信息显得至关重要,这是企业能够制定合理的产品和服务的前提,也是企业经营决策正确性的有力保证。为了更好的服务用户,企业会收集用户的信息形成文本数据,由于用户的数据量较大,因此收集用户信息形成的文本也是海量文本数据。在用户的文本信息中,会记载用户的偏好,用户对产品的关注程度,购买喜好等等,这些信息可以从侧面反应出用户的个人需求,如果企业可以获取众多客户的偏好需求或其相关数据,便可以为市场经营与决策人员制定相应的策略提供依据,因此如何从用户的海量文本数据中分析用户的特点,指导企业更好的为用户提供服务。
技术实现思路
因此,本专利技术要解决的技术问题在于现有技术中的无法从用户的海量文本数据中分析用户的特点。一种用户文本信息分析方法,包括如下步骤:对待分析文本信息进行预处理;对预处理后的待分析文本信息进行潜在主题挖掘,获取文本的主题概率分布;针对所述主题概率分布计算文本的相似度,根据相似度进行用户特征值聚类;对聚类后的待分析文本信息进行数字化标记,得到待分析样本数据;将待分析样本数据输入预先建立的用户偏好分析模型中,得到用户偏好分析结果。优选地,所述用户偏好分析模型的建立方法,包括:对用户文本信息进行预处理;对预处理后的用户文本信息进行潜在主题挖掘,获取文本的主题概率分布;针对所述主题概率分布计算文本的相似度,根据相似度进行用户特征值聚类;对聚类后的用户文本信息进行数字化标记,得到用户样本数据;使用用户样本数据对神经网络模型进行训练,根据训练后的神经网络模型得到用户偏好分析模型。优选地,还包括将所述用户样本数据分为训练集和测试集,使用所述训练集对所述神经网络模型进行训练,使用测试集对所述神经网络模型进行验证,识别率达到预设阈值时,将所述神经网络模型作为用户偏好分析模型。优选地,所述对预处理后的待分析文本信息进行潜在主题挖掘的步骤,包括:对所述待分析文本信息进行中文分词处理,获取关键词;生成可被狄利克雷模型处理的文档并采用狄利克雷模型进行潜在主题挖掘。优选地,所述相似度计算公式如下:w1k、w2k分别表示文本D1和D2第k个特征项的权值,1≤k≤N。优选地,所述对聚类后的用户文本信息进行数字化标记,得到用户样本数据的步骤包括:根据上下文解读词的具体含义,形成一个词表V,里面的每一个词wi都有一个编号i∈{1,...,|V|},那么词wi的一位有效编码表示就是一个维度为|V|的向量,其中第i个元素值非零,其余元素全为0;利用词向量构建的结果,进行评论集的标注,然后将用户偏好特性映射为一个向量,将分词后用户文本信息中所有单词对应词向量相加做平均,每一个特征对应一个向量。优选地,所述使用用户样本数据对神经网络模型进行训练的过程,包括:在原始神经网络中从特征空间输入到神经网络中,并用类别标签与输出空间来衡量误差,用最优化理论不断求得极小值,从而得到一个与类别标签相近的输出。此外,本专利技术还提供一种用户文本信息分析装置,包括:预处理单元,用于对待分析文本信息进行预处理;主题挖掘单元,用于对预处理后的待分析文本信息进行潜在主题挖掘,获取文本的主题概率分布;聚类单元,用于针对所述主题概率分布计算文本的相似度,根据相似度进行用户特征值聚类;标记单元,用于对聚类后的待分析文本信息进行数字化标记,得到待分析样本数据;分析单元,用于将待分析样本数据输入预先建立的用户偏好分析模型中,得到用户偏好分析结果。本专利技术提供一种计算机装置,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行所述用户文本信息分析方法。本专利技术提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序用于使所述计算机执行所述的用户文本信息分析方法。本专利技术技术方案,具有如下优点:1.本专利技术提供的用户文本信息分析方法,对待分析文本信息进行预处理;对预处理后的待分析文本信息进行潜在主题挖掘,获取文本的主题概率分布;针对所述主题概率分布计算文本的相似度,根据相似度进行用户特征值聚类;对聚类后的待分析文本信息进行数字化标记,得到待分析样本数据;将待分析样本数据输入预先建立的用户偏好分析模型中,得到用户偏好分析结果。该方案中,通过深入挖掘用户文本特征,计算用户间文本相似度,并根据相似度距离进行聚类分析,简化深度神经网络隐含层的结构,提高深度神经网络的学习效率。可以对用户信息系统中的海量文本数据进行分析、处理、预测,最终根据用户设定的条件,实现最优方案。采用深度神经网络进行用户偏好分类预测,使学习网络在满足精度要求的前提下,减少隐层节点数,从而简化网络结构,加快深度神经网络的学习速度,并通过潜在概率主题模型进行用户潜在偏好主题信息。这种方法可以使深度神经网络分布式的进行网络参数和网络结构的自适应调整,可以消除主观选择固定节点权重选择对网络性能的影响,达到进一步改善神经网络学习效率和精度的目的,在此基础上对学习结果进行用户潜在概率分布发现潜在偏好,进一步提高用户价值评估的全面性和准确性,本方法采用的分布式处理对目前环境下海量数据有较好的数据处理效果。2.本专利技术提供的用户文本信息分析方法,对用户偏好文档进行潜在狄利克雷模型的主题挖掘,计算文本主题间的相似度并进行聚类,通过聚类后的用户偏好矩阵进行深度学习,提高深度学习模型的效率及准确度。为保证分析过程的稳定性高效性,本技术采用分布式数据处理技术应对海量用户数据,该技术可以有效提高偏好分析模型的可靠性和扩展性。附图说明为了更清楚地说明本专利技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例1中用户文本信息分析方法的一个具体示例的流程图;图2为本专利技术实施例1中用户文本信息分析方法的概率模型结构图;图3、图4为专利技术实施例1中用户文本信息分析方法的神经网络机构示意图;图5为专利技术实施例2中的用户文本信息分析装置的结构图。具体实施方式下面将结合附图对本专利技术的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。此外,下面所描述的本专利技术不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。实施例1本实施例中提供一种用户文本信息分析方法,用户根据收集到的用户的文本信息对用户进行分析,尤其是可以获得用户的偏好信息,从而为企业营销或维持客户、拓展客户提供参考。首先,建立分析模型,本实施例中建立的模型为用户偏好分析模型,采用栈式自编码神经网络训本文档来自技高网...
【技术保护点】
1.一种用户文本信息分析方法,其特征在于,包括如下步骤:对待分析文本信息进行预处理;对预处理后的待分析文本信息进行潜在主题挖掘,获取文本的主题概率分布;针对所述主题概率分布计算文本的相似度,根据相似度进行用户特征值聚类;对聚类后的待分析文本信息进行数字化标记,得到待分析样本数据;将待分析样本数据输入预先建立的用户偏好分析模型中,得到用户偏好分析结果。
【技术特征摘要】
1.一种用户文本信息分析方法,其特征在于,包括如下步骤:对待分析文本信息进行预处理;对预处理后的待分析文本信息进行潜在主题挖掘,获取文本的主题概率分布;针对所述主题概率分布计算文本的相似度,根据相似度进行用户特征值聚类;对聚类后的待分析文本信息进行数字化标记,得到待分析样本数据;将待分析样本数据输入预先建立的用户偏好分析模型中,得到用户偏好分析结果。2.根据权利要求1所述的用户文本信息分析方法,其特征在于,所述用户偏好分析模型的建立方法,包括:对用户文本信息进行预处理;对预处理后的用户文本信息进行潜在主题挖掘,获取文本的主题概率分布;针对所述主题概率分布计算文本的相似度,根据相似度进行用户特征值聚类;对聚类后的用户文本信息进行数字化标记,得到用户样本数据;使用用户样本数据对神经网络模型进行训练,根据训练后的神经网络模型得到用户偏好分析模型。3.根据权利要求2所述的方法,其特征在于,还包括将所述用户样本数据分为训练集和测试集,使用所述训练集对所述神经网络模型进行训练,使用测试集对所述神经网络模型进行验证,识别率达到预设阈值时,将所述神经网络模型作为用户偏好分析模型。4.根据权利要求1或2或3所述的方法,其特征在于,所述对预处理后的待分析文本信息进行潜在主题挖掘的步骤,包括:对所述待分析文本信息进行中文分词处理,获取关键词;生成可被狄利克雷模型处理的文档并采用狄利克雷模型进行潜在主题挖掘。5.根据权利要求1所述的方法,其特征在于,所述相似度计算公式如下:w1k、w2k分别表示文本D1和D2第k个特征项的权值,1≤k≤N。6.根据权利要求1所述的方法,其特征在于,所述对聚类后的用户文本信息进行数字化标记,得到...
【专利技术属性】
技术研发人员:张健,齐林,何琼,李飞,胡泽,
申请(专利权)人:北京信息科技大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。