一种基于矩阵分解和遗传算法的皮肤癌关联基因预测系统技术方案

技术编号:37717782 阅读:6 留言:0更新日期:2023-06-02 00:14
本发明专利技术涉及皮肤癌关联基因预测技术领域,一种基于可解释矩阵分解与遗传算法的皮肤癌关联基因预测系统,包括输入模块和中间处理模块;中间处理模块包括两个阶段任务,可解释矩阵分解阶段得到候选推荐列表,高维多目标优化阶段采用遗传算法在候选推荐列表中进行寻优计算得到最佳推荐结果;输出模块将所述最佳推荐结果即输入模块中提到的皮肤癌分别对应的指定数量的相关联的基因序列列表发送给用户。本发明专利技术提高了推荐结果精度的同时使得推荐结果兼具准确性、新颖性、可解释性和多样性。可解释性和多样性。可解释性和多样性。

【技术实现步骤摘要】
一种基于矩阵分解和遗传算法的皮肤癌关联基因预测系统


[0001]本专利技术涉及皮肤癌关联基因预测
,特别是涉及一种基于可解释矩阵分解与遗传算法的皮肤癌关联基因预测系统。

技术介绍

[0002]皮肤癌即皮肤恶性肿瘤,根据肿瘤细胞的来源不同而有不同的命名,包括表皮、皮肤附属器、皮肤软组织、周围神经、黑素细胞、皮肤淋巴网状组织和造血组织等。还有一部分是发生在其他组织转移到皮肤的转移性肿瘤。
[0003]皮肤癌的预防和前期治疗过程中,能够识别皮肤癌关联的基因序列,对皮肤癌的预防和治疗有着很大的意义。
[0004]如何设计一种能够提供兼具准确性、新颖性、可解释性和多样性的推荐结果的预测系统,成为本领域亟需解决的技术问题。

技术实现思路

[0005]本专利技术的目的是提供一种基于矩阵分解和遗传算法的皮肤癌关联基因预测系统,通过本专利技术能够解决针对于皮肤癌推荐的关联基因序列的结果无法兼具准确性、新颖性、可解释性和多样性的问题。
[0006]本专利技术所采用的技术方案是:一种基于矩阵分解和遗传算法的皮肤癌关联基因预测系统,包括以下模块:
[0007]输入模块:输入现有的皮肤癌数据集,并确定皮肤癌的种类和各种皮肤癌相关联的基因序列数,经过预处理后得到一个大小为N
种类
*N
序列
的有缺失的皮肤癌基因序列关联矩阵,其中,N
种类
为皮肤癌的种类数,N
序列
为基因序列的种类数,在有缺失的皮肤癌基因序列关联矩阵中,行代表皮肤癌的种类,列代表基因序列的种类,用“1”代表该种类皮肤癌与该种类基因确定序列相关,用“0”表示该种类皮肤癌与该种类基因确定序列不相关或者不确定相关,输入模块将有缺失的皮肤癌基因序列关联矩阵发送给中间处理模块;
[0008]在当前的研究中,每种类皮肤癌都发现了与之相关的部分基因种类,同时还发现存在不能明确判断是否与该种类皮肤癌相关的基因种类,将基于当前研究内容,形成的皮肤癌基因序列关联矩阵称之为有缺失的皮肤癌基因序列关联矩阵。通过可解释矩阵分解阶段,将基于当前研究中的不能明确判断是否与皮肤癌相关的基因种类分为与皮肤癌相关的基因种类和与皮肤癌不相关的基因种类,从而形成一个新的皮肤癌基因序列关联矩阵,这个新的皮肤癌基因序列关联矩阵称之为补全的皮肤癌基因序列关联矩阵。
[0009]中间处理模块:本模块包括可解释矩阵分解阶段和高维多目标优化阶段两个阶段,可解释矩阵分解阶段,训练矩阵分解模型得到补全的皮肤癌基因序列关联矩阵,并将该矩阵中的每一行元素由大到小排列,并将元素由大到小排序对应的基因序列种类进行顺序编号,将前100位的基因序列种类在该矩阵行中的位置编号作为候选推荐列表;高维多目标优化阶段,利用改进的遗传算法从候选推荐列表中得到每种皮肤癌对应的多位长度的相关
联的基因序列列表,并发送给输出模块;
[0010]输出模块:将最佳推荐结果即输入模块中提到的每种皮肤癌对应的10位长度的相关联的基因序列列表发送给用户。
[0011]可解释矩阵分解阶段详细步骤如下:
[0012]步骤一:通过公式(1)计算任意两个皮肤癌间相似度sim(i1,i2),得到任意两个皮肤癌的相似度矩阵,该皮肤癌相似度矩阵中的元素是通过公式(1)计算得到的皮肤癌间相似度;
[0013][0014]其中,i1为任意两个皮肤癌中的一个皮肤癌,称之为第一皮肤癌,i2为任意两个皮肤癌中的另一个皮肤癌,称之为第二皮肤癌,N(i1,i2)表示针对于第一皮肤癌i1和第二皮肤癌i2的风险系数均为1的基因序列的集合,代表第一皮肤癌i1对针对于第一皮肤癌i1和第二皮肤癌i2的风险系数均为1的基因序列的集合N(i1,i2)中的任一基因序列j
m
的风险系数,代表第二皮肤癌i2对针对于第一皮肤癌i1和第二皮肤癌i2的风险系数均为1的基因序列的集合N(i1,i2)中的任一基因序列j
m
的风险系数,代表第一皮肤癌i1对针对于第一皮肤癌i1的风险系数为1的基因序列集合N(i10中的任一基因序列j
n
的风险系数,代表第二皮肤癌i2对针对于第二皮肤癌i2的风险系数为1的基因序列集合N(i2)中的任一基因序列j
z
的风险系数,表示第一皮肤癌i1对基因序列集合N(i1)中的所有基因序列的风险系数的平均数,表示第二皮肤癌i2对基因序列集合N(i2)中的所有基因序列的风险系数的平均数,N(i1)是针对于第一皮肤癌i1的风险系数为1的基因序列集合,N(i2)是针对于第二皮肤癌i2的风险系数为1的基因序列集合,m的取值范围为集合N(i1,i2)中所有基因序列的位置编号集合,n的取值范围为集合N(i1)中所有基因序列的位置编号集合,z的取值范围为集合N(i2)中所有基因序列的位置编号集合;
[0015]步骤二:通过公式(2)计算得到有缺失的皮肤癌基因序列关联矩阵中的任一皮肤癌i和任一基因序列j的可解释性权重W
ij
,组成一个元素是可解释性权重W
ij
的可解释性权重矩阵;
[0016][0017]其中,N
K
(i)表示皮肤癌i最相似的K个皮肤癌集合,该集合由步骤一中得到的皮肤癌相似度矩阵中的每一行由大到小排序后的除该皮肤癌i外的前K个其他种类皮肤癌构成,N

表示皮肤癌i最相似的K个皮肤癌集合中对基因序列j具有风险系数为1的基因序列集合,θ是自定义设置W
ij
的阈值,|N

|表示皮肤癌i最相似的K个皮肤癌集合中对基因序列j具有风险系数为1的基因序列集合的长度,|N
K
(i)|表示皮肤癌i最相似的K个皮肤癌集合的长度;
[0018]W
ij
值越大可解释性越高意味着向皮肤癌i推荐的基因序列j是与大多数该皮肤癌i
相似的皮肤癌相关的即推荐结果越具有说服力;如果所得W
ij
大于该阈值θ,则设定W
ij
=θ,否则,设定W
ij
=0;
[0019]步骤三:通过公式(3)、(4)、(5)训练矩阵分解模型,可得到一个补全的皮肤癌基因序列关联矩阵,该矩阵中的元素是通过公式(3)计算得到的皮肤癌基因序列关联矩阵中的风险系数r
ij
;公式(3)是改进的矩阵分解损失函数;
[0020]通过步骤二得到皮肤癌i和基因序列j的可解释性权重矩阵后将其中的可解释性权重W
ij
作为可解释性约束项系数添加到矩阵分解的定义损失函数中,以得到具有准确性和可解释性的推荐结果,添加可解释性权重W
ij
后形成的改进的矩阵分解损失函数如下所示:
[0021][0022]其中,J代表该矩阵分解模型的损失,该损失越小则模型的拟合程度越高,r
ij
表示皮肤癌i对于基因序列j的风险系数,β、λ是约束项参数,是矩阵分解的公式定义,其中p
i...

【技术保护点】

【技术特征摘要】
1.一种基于矩阵分解和遗传算法的皮肤癌关联基因预测系统,其特征在于:包括以下模块:输入模块:输入现有的皮肤癌数据集,并确定皮肤癌的种类和各种皮肤癌相关联的基因序列数,经过预处理后得到一个大小为N
种类
*N
序列
的有缺失的皮肤癌基因序列关联矩阵,其中,N
种类
为皮肤癌的种类数,N
序列
为基因序列的种类数,在有缺失的皮肤癌基因序列关联矩阵中,行代表皮肤癌的种类,列代表基因序列的种类,用“1”代表该种类皮肤癌与该种类基因确定序列相关,用“0”表示该种类皮肤癌与该种类基因确定序列不相关或者不确定相关,输入模块将有缺失的皮肤癌基因序列关联矩阵发送给中间处理模块;中间处理模块:本模块包括可解释矩阵分解阶段和高维多目标优化阶段两个阶段,可解释矩阵分解阶段,训练矩阵分解模型得到补全的皮肤癌基因序列关联矩阵,并将该矩阵中的每一行元素由大到小排列,并将元素由大到小排序对应的基因序列种类进行顺序编号,将前100位的基因序列种类在该矩阵行中的位置编号作为候选推荐列表;高维多目标优化阶段,利用改进的遗传算法从候选推荐列表中得到每种皮肤癌对应的多位长度的相关联的基因序列列表,并发送给输出模块;输出模块:将最佳推荐结果即输入模块中提到的每种皮肤癌对应的10位长度的相关联的基因序列列表发送给用户。2.根据权利要求1所述的一种基于矩阵分解和遗传算法的皮肤癌关联基因预测系统,其特征在于:可解释矩阵分解阶段详细步骤如下:步骤一:通过公式(1)计算任意两个皮肤癌间相似度sim(i1,i2),得到任意两个皮肤癌的相似度矩阵,该皮肤癌相似度矩阵中的元素是通过公式(1)计算得到的皮肤癌间相似度;其中,i1为任意两个皮肤癌中的一个皮肤癌,称之为第一皮肤癌,i2为任意两个皮肤癌中的另一个皮肤癌,称之为第二皮肤癌,N(i1,i2)表示针对于第一皮肤癌i1和第二皮肤癌i2的风险系数均为1的基因序列的集合,代表第一皮肤癌i1对针对于第一皮肤癌i1和第二皮肤癌i2的风险系数均为1的基因序列的集合N(i1,i2)中的任一基因序列j
m
的风险系数,代表第二皮肤癌i2对针对于第一皮肤癌i1和第二皮肤癌i2的风险系数均为1的基因序列的集合N(i1,i2)中的任一基因序列j
m
的风险系数,代表第一皮肤癌i1对针对于第一皮肤癌i1的风险系数为1的基因序列集合N(i1)中的任一基因序列j
n
的风险系数,代表第二皮肤癌i2对针对于第二皮肤癌i2的风险系数为1的基因序列集合N(i2)中的任一基因序列j
z
的风险系数,表示第一皮肤癌i1对基因序列集合N(i1)中的所有基因序列的风险系数的平均数,表示第二皮肤癌i2对基因序列集合N(i2)中的所有基因序列的风险系数的平均数,N(i1)是针对于第一皮肤癌i1的风险系数为1的基因序列集合,N(i2)是针对于第二皮肤癌i2的风险系数为1的基因序列集合,m的取值范围为集合N(i1,i2)中所有基因序列的位置编号集合,n的取值范围为集合N(i1)中所有基因序列的位置编号集合,z的取值范围为集合N(i2)中所有基因序列的位置编号集合;
步骤二:通过公式(2)计算得到有缺失的皮肤癌基因序列关联矩阵中的任一皮肤癌i和任一基因序列j的可解释性权重W
ij
,组成一个元素是可解释性权重W
ij
的可解释性权重矩阵;其中,N
K
(i)表示皮肤癌i最相似的K个皮肤癌集合,该集合由步骤一中得到的皮肤癌相似度矩阵中的每一行由大到小排序后的除该皮肤癌i外的前K个其他种类皮肤癌构成,N

表示皮肤癌i最相似的K个皮肤癌集合中对基因序列j具有风险系数为1的基因序列集合,θ是自定义设置W
ij
的阈值,|N

|表示皮肤癌i最相似的K个皮肤癌集合中对基因序列j具有风险系数为1的基因序列集合的长度,|N
K
(i)|表示皮肤癌i最相似的K个皮肤癌集合的长度;W
ij
值越大可解释性越高意味着向皮肤癌i推荐的基因序列j是与大多数该皮肤癌i相似的皮肤癌相关的即推荐结果越具有说服力;如果所得W
ij
大于该阈值θ,则设定W
ij
=θ,否则,设定W
ij
=0;步骤三:通过公式(3)、(4)、(5)训练矩阵分解模型,可得到一个补全的皮肤癌基因序列关联矩阵,该矩阵中的元素是通过公式(3)计算得到的皮肤癌基因序列关联矩阵中的风险系数r
ij
;公式(3)是改进的矩阵分解损失函数;通过步骤二得到皮肤癌i和基因序列j的可解释性权重矩阵后将其中的可解释性权重W
ij
作为可解释性约束项系数添加到矩阵分解的定义损失函数中,以得到具有准确性和可解释性的推荐结果,添加可解释性权重W
ij
后形成的改进的矩阵分解损失函数如下所示:其中,J代表该矩阵分解模型的损失,该损失越小则模型的拟合程度越高,r
ij
表示皮肤癌i对于基因序列j的风险系数,β、λ是约束项参数,是矩阵分解的公式定义,其中p
i
和q
j
为向r
ij
拟合的隐向量,(p
i

q
j
)2表示隐向量p
i
和q
j
之间的距离,如果基因序列j对皮肤癌i...

【专利技术属性】
技术研发人员:蔡星娟赵浩辰崔志华杨瑾谦
申请(专利权)人:太原科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1