System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于多源数据聚类分析的跨域线索发现方法技术_技高网

一种基于多源数据聚类分析的跨域线索发现方法技术

技术编号:44181942 阅读:7 留言:0更新日期:2025-02-06 18:24
本发明专利技术公开了一种基于多源数据聚类分析的跨域线索发现方法,包括:获取样本数据;基于概率模型对所述样本数据进行聚类分析得到跨域特征分类目标与推荐;所述概率模型是指最大后验概率的分类方案;所述分类方案是指根据所述样本数据计算N概率的模型;所述N概率是产生长度为N的特征词序列的概率;所述后验概率是指所述分类方案基于预设的后验模型计算得到的概率。根据本发明专利技术,该方法实现目标属性分析判证以及构建特征聚类模型实现特定行为特征的目标分析识别,并基于识别结果完成特征分类目标发现和推荐。

【技术实现步骤摘要】

本专利技术涉及数据处理的,特别涉及一种基于多源数据聚类分析的跨域线索发现方法


技术介绍

1、现实世界数据的逐步网络化和虚拟化,使得网络上数据的数量迅猛增长。随着数据的不断积累,网络上面的数据隐含了大量固有知识,可以帮助人们完成数据分析、决策支持等一系列的智能应用。人们越来越渴望从这些大量的数据中获取信息和知识,便于揭示出隐含的,先前未知的并有潜在价值的信息。数据挖掘相关领域也再度成为当下热门的研究方向之一。聚类分析是数据挖掘中的一个很活跃的研究领域。简单来说,它是将物理或者抽象的对象集合进行分析,把特征相似的对象分到同一个类,而特征不相似的对象分到不同的类的过程。聚类算法在模式识别,智能搜索,生物信息和语义消歧等领域都发挥重大的作用。现有的聚类分析模型不能很好的分析隐含在文本数据中不易直接统计得出的信息,特别是更好的发现线索、形成高效可用的跨域流量元数据。


技术实现思路

1、针对现有技术中存在的不足之处,本专利技术的目的是提供一种基于多源数据聚类分析的跨域线索发现方法,实现目标属性分析判证以及构建特征聚类模型实现特定行为特征的目标分析识别,并基于识别结果完成特征分类目标发现和推荐。为了实现根据本专利技术的上述目的和其他优点,提供了一种基于多源数据聚类分析的跨域线索发现方法,包括:

2、获取样本数据;

3、基于概率模型对所述样本数据进行聚类分析得到跨域特征分类目标与推荐;

4、所述概率模型是指最大后验概率的分类方案;

5、所述分类方案是指根据所述样本数据计算n概率的模型;

6、所述n概率是产生长度为n的特征词序列的概率;

7、所述后验概率是指所述分类方案基于预设的后验模型计算得到的概率。

8、优选的,所述后验概率计算方法,包括:

9、计算每个潜在的划分方案ω*的后验概率,所述潜在的划分方案ω*的后验概率为:

10、p(ω*|d)∝∏d∈dp(ψ(d))p(d|c(d))  (1),

11、计算时可将公式(1)变换为:

12、

13、其中,d为文章,k为预期的类别数,k为一个类别,d为样本数据。

14、优选的,所述一个分类方案中产生长度为n的特征词序列的概率为:

15、

16、其中,π(n|ck)表示ck产生长度为n的序列的概率;文章的长度与类别无关,则文章的长度为一常数,进而所述一个分类方案中产生长度为n的特征词序列的概率为最终为:

17、

18、优选的,所述潜在的划分方案ω*的后验概率简化为:

19、

20、其中,|ck|表示类别ck中的文档个数;其中隐含有约束条件且和

21、一种基于多源数据聚类分析的跨域线索发现装置,包括:

22、接收模块,用于获取样本数据;

23、模型选择模块,用于概率模型的选择;

24、计算模块,用于计算不同的分类方案通过后验模型得到多个后验概率及分类方案的具体形式为一个分类方案中产生长度为n的特征词序列的概率。

25、一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现基于多源数据聚类分析的跨域线索发现方法。

26、一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现基于多源数据聚类分析的跨域线索发现方法。

27、本专利技术与现有技术相比,其有益效果是:通过聚类分析将所有样品或变量分别聚合到不同的类中,使同一类中的个体有较大的相似性,不同类中的个体差异较大,实现目标属性分析判证以及构建特征聚类模型实现特定行为特征的目标分析识别,并基于识别结果完成特征分类目标发现和推荐。通过后验模型大大降低了参数学习的复杂度,可以直接求解精确的最大后验估计,避免了似然模型采用em算法估计最大似然概率引起的复杂性和计算量。进而在这一点上,避免了em算法陷入局部极大值引起的误差。

本文档来自技高网...

【技术保护点】

1.一种基于多源数据聚类分析的跨域线索发现方法,其特征在于,包括:

2.如权利要求1所述的一种基于多源数据聚类分析的跨域线索发现方法,其特征在于,所述后验概率计算方法,包括:

3.如权利要求1所述的一种基于多源数据聚类分析的跨域线索发现方法,其特征在于,所述一个分类方案中产生长度为N的特征词序列的概率为:

4.如权利要求2所述的一种基于多源数据聚类分析的跨域线索发现方法,其特征在于,所述潜在的划分方案Ω*的后验概率简化为:

5.一种基于多源数据聚类分析的跨域线索发现装置,其特征在于,包括:

6.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述的方法。

7.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的方法。

【技术特征摘要】

1.一种基于多源数据聚类分析的跨域线索发现方法,其特征在于,包括:

2.如权利要求1所述的一种基于多源数据聚类分析的跨域线索发现方法,其特征在于,所述后验概率计算方法,包括:

3.如权利要求1所述的一种基于多源数据聚类分析的跨域线索发现方法,其特征在于,所述一个分类方案中产生长度为n的特征词序列的概率为:

4.如权利要求2所述的一种基于多源数据聚类分析的跨域线索发现方法,其特征在于,所述潜在的划分方案ω*的...

【专利技术属性】
技术研发人员:杨贻宏
申请(专利权)人:上海飞旗网络技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1