基于人工智能的癌症诊断和癌症类型预测方法技术

技术编号:39500530 阅读:11 留言:0更新日期:2023-11-24 11:30
本发明专利技术涉及一种基于人工智能的癌症诊断和癌症类型预测方法,更具体地,涉及一种基于人工智能的癌症诊断和癌症类型预测方法,该方法从生物样品中提取核酸以获取序列信息,并因此基于比对的核酸片段生成矢量化数据,然后将其输入到经训练的人工智能模型中以分析计算值

【技术实现步骤摘要】
【国外来华专利技术】基于人工智能的癌症诊断和癌症类型预测方法


[0001]本专利技术涉及一种基于人工智能的用于诊断癌症和预测癌症类型的方法,以及更具体地说,涉及一种基于人工智能的通过从生物样品中提取核酸以获得序列信息,基于比对的读段
(reads)
生成矢量化数据,并分析通过将矢量化数据输入至经训练的人工智能模型获得的计算值来诊断癌症和预测癌症类型的方法


技术介绍

[0002]临床实践中的癌症诊断通常在病史检查

体格检查和临床评估后通过组织活检来进行

只有当癌细胞的数量为
10
亿或更多且癌的直径为
1cm
或更大时,基于临床试验的癌症诊断才是可行的

在这种情况下,癌细胞已经具有转移的潜力,并且其中至少一半已经转移

此外,组织活检是侵入性的,这不利地引起患者相当大的不适,并且通常无法适应癌症治疗

此外,用于监测由癌直接或间接产生的物质的肿瘤标志物用于癌症筛查

然而,肿瘤标志物的准确度有限,因为即使在存在癌的情况下超过一半的肿瘤标志物筛查结果也显示正常,并且即使在不存在癌的情况下肿瘤标志物筛查结果也通常显示阳性

[0003]最近,响应于对癌症诊断方法的要求,诸如相对容易

非侵入性

高灵敏度和高特异性,使用来自患者的体液的液体活检已经广泛用于癌症诊断和随访复查

液体活检是一种非侵入性的诊断方法,其作为传统侵入性诊断和检查方法的替代方法引起了极大的关注

然而,没有大规模研究的结果去证实液体活检作为诊断癌症的方法的效果,并且没有关于通过液体活检诊断不明确癌症或区分不明确癌症类型的研究结果

[0004]已经有大量的研究工作致力于癌症诊断和治疗以减轻癌症对健康的影响

特别是,
SMCT(
基于体细胞突变的癌症分型
)
是最重要的研究问题之一
。SMCT
能够根据基于患者的体细胞基因突变确定的癌症类型
/
亚型来制定治疗计划

最近
DNA
测序成本的降低带来了
DNA
测序数据的快速增长,并且从而极大地促进了
SMCT
的发展

与通常基于肿瘤的形态学外观或基因表达水平
(
即,
mRNA
谱或蛋白质谱
)
的常规癌症分型方法不同,
SMCT
可以区分具有相似组织病理学外观的肿瘤,从而更好地反映癌症微环境,并有利于提供准确的癌症分类结果
(Sun,Y.
等人,
Sci Rep Vol.9,17256,2019)。
[0005]最近,除了
SMCT
之外,还报道了使用染色体的三维结构或拷贝数异常来预测癌症类型的方法
(Yuan
等人,
BMC Genomics

Vol.19(Suppl 6)

pp.565

2018

10

2019

0036494)。
[0006]同时,将人类拥有的有效模式识别方法应用于实际计算机的研究正在积极地进行,作为将工程领域中经常遇到的输入模式分类到特定组的问题的解决方案

[0007]在许多基于计算机的研究中,有对人工神经网络的研究,该人工神经网络是通过以工程方式对发生有效模式识别的人脑细胞结构进行建模而获得的

为了解决将输入模式分类到特定组的问题,人工神经网络使用了模拟人类学习能力的算法

通过该算法,人工神经网络可以创建输入模式和输出模式之间的映射,该映射被表示为具有学习能力的人工神经网络

此外,人工神经网络具有泛化的能力,使得它可以基于经训练的结果针对不用于学
习的输入模式生成相对正确的输出

由于人工神经网络具有学习和泛化的两种典型性能,它正被用于解决使用传统的顺序编程方法难以解决的问题

人工神经网络具有广泛的用途并被积极地应用于领域诸如模式分类

连续映射

非线性系统识别

非线性控制和机器人控制

[0008]同时,人工神经网络是在软件或硬件中实现的计算模型,其使用通过连接线连接的大量人工神经元来模拟生物系统的计算能力

人工神经网络使用人工神经元,其以简化的形式表示生物神经元的功能

人工神经网络通过具有相应连接强度的连接线互连人工神经元来进行人类认知或学习过程

术语“连接强度”可与“连接权重”互换,是指连接线的预定值

人工神经网络学习可以分类为监督学习和无监督学习

监督学习是一种向神经网络提供输入数据和与其对应的输出数据,并更新连接线的连接强度,从而输出与输入数据对应的输出数据的方法

代表性的学习算法包括
δ
规则和反向传播学习

无监督学习是一种其中人工神经网络仅使用输入数据独立地学习连接强度而没有目标值的方法

无监督学习基于输入模式之间的相关性更新连接权重

[0009]将大量数据应用于机器学习会导致所谓的“维数灾难”问题,这是由于复杂性的增加和更多维数的增加

换句话说,当所需数据的维数趋近于无穷大时,任意两点之间的距离也趋近于无穷大,并且数据量
(
即,密度
)
在高维空间中变得更低,从而无法正确反映数据的特征
(Richard Bellman,Dynamic Programming,2003,chapter 1)。
最近发展的深度学习具有在输入层和输出层之间存在隐藏层的结构,并且已经报道通过用非线性函数处理从输入层传输的变量值的线性组合,极大地提高了分类器在高维数据诸如图像

视频和信号数据方面的性能
(Hinton,Geoffrey,
等人
,IEEE Signal Processing Magazine Vol.29.6,pp.82

97,2012)。
[0010]各个专利
(KR 10

2017

0185041、KR 10

2017

0144237

KR 10

2018

124550)
描述了人工神经网络在生物领域中的用途,但是缺乏通过基于细胞本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.
一种基于人工智能提供信息以诊断癌症和预测癌症类型的方法,所述方法包括
:(a)
从生物样品中提取核酸以获得序列信息;
(b)
将所述序列信息
(
读段
)
与参考基因组数据库进行比对;
(c)
基于比对的序列信息
(
读段
)
使用核酸片段生成矢量化数据;
(d)
将生成的矢量化数据输入至经训练的人工智能模型,分析所得的输出值,并将所述所得的输出值与截断值进行比较,以确定是否存在癌症;以及
(e)
通过所述输出值的比较来预测所述癌症类型
。2.
根据权利要求1所述的方法,其中,步骤
(a)
包括:
(a

i)
从血液

精液

阴道细胞

毛发

唾液

尿液

口腔细胞

含有胎盘细胞或胎儿细胞的羊水

组织细胞或其混合物中获得核酸;
(a

ii)
使用盐析法

柱色谱法或珠粒法从获得的核酸中去除蛋白质

脂肪和其它残余物,以获得纯化的核酸;
(a

iii)
为所述纯化的核酸或通过酶消化

粉碎或水力剪切方法随机片段化的核酸制备单端测序或双端测序文库;
(a

iv)
用下一代测序仪反应所制备的文库;以及
(a

v)
获得下一代测序仪中所述核酸的序列信息
(
读段
)。3.
根据权利要求1所述的方法,其中,步骤
(c)
的所述矢量化数据是
GrandCanyon

(GC

)。4.
根据权利要求3所述的方法,其中,所述
GC
图的特征在于,通过基于每个
bin
中核酸片段的计数或核酸片段之间的距离计算每个染色体
bin
中的比对的核酸片段的分布来生成所述矢量化数据
。5.
根据权利要求4所述的方法,其中,基于核酸片段的计数来计算在每个染色体
bin
中的比对的序列信息的分布是使用包括以下步骤的方法进行的:
i)
将染色体分成预定的
bin

ii)
确定在每个
bin
中的比对的核酸片段的所述计数;
iii)
将确定的每个
bin
中核酸片段的计数除以所述样品中核酸片段的总数以进行归一化;以及
iv)
创建
GC
图,其中
X
轴上是相应
bin
的顺序,
Y
轴上是步骤
iii)
中计算的归一化值
。6.
根据权利要求4所述的方法,其中,基于核酸片段之间的所述距离计算在每个染色体
bin
中的所述比对的序列信息的分布是使用包括以下步骤的方法进行的:
i)
将染色体分成预定的
bin

ii)
计算在每个
bin
中的比对的核酸片段之间的所述距离
(
片段距离,
FD)

iii)
基于每个
bin
中计算的片段距离,确定每个
bin
的片段之间的代表性距离
(RepFD)

iv)
将步骤
iii)
中计算的片段之间的代表性距离
(RepFD)
除以代表性总核酸片段距离以进行归一化;以及
iv)
创建<...

【专利技术属性】
技术研发人员:奇昌锡赵银海李俊男安眞模孙周爀金建旼金旼焕
申请(专利权)人:血液诊断株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1