System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 提取关于蛋白质序列修饰的信息的方法技术_技高网

提取关于蛋白质序列修饰的信息的方法技术

技术编号:42225315 阅读:4 留言:0更新日期:2024-08-02 13:43
本发明专利技术公开了提取关于蛋白质中的蛋白质序列修饰的信息的方法。接收源自对来自至少两种酶促消化的肽所进行的质谱测量的蛋白质数据。鉴定候选序列修饰。确定所述候选序列修饰的、相比所述候选序列修饰的其余部分具有较高的代表真实序列修饰的平均概率的子集。候选序列修饰的所述子集的确定包括根据候选序列修饰位于被各自含有所述修饰的至少两种不同的肽物种所覆盖的氨基酸序列位置处来选择所述候选序列修饰的步骤。

【技术实现步骤摘要】
【国外来华专利技术】

本公开涉及提取关于蛋白质中的蛋白质序列修饰的信息。


技术介绍

1、复杂的生物技术制造过程可能会在治疗性蛋白质中引入各种修饰,从而可能产生高度异质性的产品。根据它们的位置和类型,这些修饰可以显著影响蛋白质的结构、稳定性、免疫原性和生物活性。因此,治疗性蛋白质的广泛表征对于为患者提供安全和有效的药物至关重要。

2、用于鉴定治疗性蛋白质中的修饰的常用技术是蛋白水解消化蛋白质与色谱肽分离和质谱(lc-ms/ms)的组合。蛋白水解酶胰蛋白酶是用于这种方法的黄金标准。其他蛋白酶(诸如胰凝乳蛋白酶、lysc、lysn、aspn、gluc和argc)也用于蛋白质组学,但程度较小。已经提出了通过利用平行或顺序蛋白水解消化的组合来最大化序列覆盖的多酶策略。

3、这些方法产生了大量的质谱(ms)数据。当寻找序列变体(sv)的存在情况时尤其如此。sv代表蛋白质一级结构中可以通过突变和错误掺入发生的氨基酸取代。为了鉴定ms原始数据中的sv,可以使用特殊软件如mascot error tolerance search(matrix scienceinc.)或byonic(protein metrics inc.)。这些软件解决方案可以鉴定意外的质量偏移,并将这些质量偏移注释为修饰或序列变体。

4、由于对于肽序列内每个氨基酸上的sv存在多种可能性,因此与常规数据库搜索翻译后修饰(ptm)(如化学修饰或聚糖)相比,由软件ms/ms算法鉴定的随机匹配(“假阳性命中”)的可能性很高。

5、将真阳性与大量假阳性区分开来具有挑战性。目前,此验证过程是手动执行的,并且可能需要几天或甚至几周才能完成,而且容易出现人为错误。

6、对于典型的序列变体分析实验,样品制备、lc-ms/ms仪器上的样品分析和软件搜索大约需要2至3天。然而,通过检查诸如保留时间、质量准确度和ms/ms谱的各种标准进行的后续手动“命中验证”可能需要数天或甚至数周。


技术实现思路

1、本专利技术的一个目的是提供用于提取关于蛋白质序列修饰(诸如sv)的信息的改进方法。

2、根据本专利技术的一个方面,提供了一种提取关于蛋白质中的蛋白质序列修饰的信息的计算机实现方法,该方法包括:接收至少部分源自对通过对蛋白质的代表性样品的相应子样品进行的至少两种不同的酶促消化获得的肽进行的质谱测量的蛋白质数据;使用经接收的蛋白质数据鉴定该蛋白质中的候选序列修饰;确定候选序列修饰的、相比候选序列修饰的其余部分具有较高的代表真实序列修饰的平均概率的子集;以及输出代表经确定的候选序列修饰的子集的数据,其中:该候选序列修饰的该子集的该确定包括根据候选序列修饰位于被各自含有该修饰的至少两种不同的肽物种覆盖的氨基酸序列位置处来选择该候选序列修饰的步骤。

3、因此,提供了一种方法,该方法经由计算机自动化程序鉴定更有可能正确的候选序列修饰的子集,由此节省人力/时间和/或减少错误。接收来自通过至少两种不同的酶促消化获得的肽的蛋白质数据增加了蛋白质序列的可靠覆盖,并且如下所解释的,为可以进一步减少假阳性的进一步过滤标准提供了基础。

4、在一个实施例中,候选序列修饰的子集的确定包括根据候选序列修饰位于以下氨基酸序列位置处来选择候选序列修饰的步骤:覆盖该氨基酸序列位置且含有该候选序列修饰的肽物种的数量与覆盖该氨基酸序列位置且不含该候选序列修饰的肽物种的数量的比率等于或高于预定的比率阈值。该标准排除了肽物种中的候选修饰,其中与对应的未经修饰(野生型)肽物种相比,对应的经修饰肽物种的出现相对罕见。专利技术人已发现这种过滤方法有效减少假阳性。

5、在一个实施例中,该方法包括预处理蛋白质数据以鉴定与经选择的肽物种的子集相关的数据,以及将经选择的肽物种的子集从在候选序列修饰的子集的确定中的使用中排除。预处理进一步改善了性能。

6、预处理可以包括排除以下情况下的肽物种:a)存在候选修饰;以及b)具有相同氨基酸序列但没有候选修饰的对应肽物种(“野生型”)的质谱测量中的最高强度低于预定的强度阈值。这种过滤方法基于以下认识:一些肽由于其理化特性(由它们各自的序列定义),其强度低于其他肽。对此类序列的修饰通常不会完全改变电离特性。因此,低强度“野生型”往往与低强度(并且因此鉴定相对不可靠)的经修饰肽相关联。因此,从后续分析中排除此类肽物种有助于有效减少假阳性。

7、预处理可以包括排除以下情况下的肽物种:a)存在候选修饰;以及b)具有相同氨基酸序列但没有候选修饰的对应肽物种的质谱测量中的最高准确度分数低于预定的分数阈值。准确度分数代表质谱测量中理论片段与观察到的片段之间的匹配程度。这种过滤方法基于以下认识:针对野生型肽物种的低准确度分数表明从具有修饰的对应肽物种获得的信息将相对不可靠。因此,从后续分析中排除此类肽物种有助于有效减少假阳性。

8、预处理可以包括排除在产生肽物种的酶促消化的切割位点处具有候选修饰的每种肽物种。这种过滤方法基于以下认识:修饰可以影响酶的消化行为,这意味着具有对应于修饰位置的起点或终点的肽物种对于检测该修饰来说并不是最佳的。因此,从后续分析中排除这些肽物种有助于减少假阳性。

9、预处理可以包括排除长度高于预定的长度阈值的肽物种。这种过滤方法基于以下认识:长肽物种中鉴定的修饰通常更难以验证并且因此可靠性较低。因此,排除长于预定的长度阈值的肽物种对于减少假阳性是有效的。

10、在一个实施例中,候选序列修饰的子集的确定包括根据候选序列修饰位于被各自含有修饰并且源自使用不同酶促消化获得的肽的至少两种不同肽物种覆盖的氨基酸序列位置处来选择候选修饰的步骤。专利技术人已发现这种方法在消除假阳性方面非常有效。

11、根据本专利技术的另一方面,提供了一种提取关于蛋白质中的蛋白质序列修饰的信息的计算机实现方法,该方法包括:接收至少部分源自对通过对蛋白质的代表性样品的相应子样品进行的至少两种不同的酶促消化获得的肽进行的质谱测量的蛋白质数据;使用经接收的蛋白质数据鉴定该蛋白质中的候选序列修饰;确定候选序列修饰的、相比候选序列修饰的其余部分具有较高的代表真实序列修饰的平均概率的子集;以及输出代表经确定的候选序列修饰的子集的数据,其中:候选序列修饰的该子集的该确定包括根据候选序列修饰位于以下氨基酸序列位置处来选择该候选序列修饰的步骤:覆盖该氨基酸序列位置且含有该候选序列修饰的肽物种的数量与覆盖该氨基酸序列位置且不含该候选序列修饰的肽物种的数量的比率等于或高于预定的比率阈值。

12、因此,提供了一种方法,该方法经由计算机自动化程序鉴定更有可能正确的候选序列修饰的子集,由此节省人力/时间和/或减少错误。根据定义的比率排除候选修饰排除了候选修饰,其中与对应的未经修饰(野生型)肽物种相比,对应的经修饰肽物种的出现相对罕见。专利技术人已发现这种过滤方法有效减少假阳性。

13、在一些实施例中,经接收的蛋白质数据源自对通过对蛋白质的代表性样品的相应子样品进行的五种或六种不同的酶促消化获得的肽本文档来自技高网...

【技术保护点】

1.一种提取关于蛋白质中的蛋白质序列修饰的信息的计算机实现方法,所述方法包括:

2.根据权利要求1所述的方法,其中每种肽物种由至少以下项定义:

3.根据权利要求2所述的方法,其中每种肽物种由以下项进一步定义:

4.根据权利要求1至3中任一项所述的方法,其包括:

5.根据权利要求4所述的方法,其中所述预处理包括排除以下情况下的肽物种:a)存在候选修饰;以及b)具有相同氨基酸序列但没有所述候选修饰的对应肽物种的所述质谱测量中的最高强度低于预定的强度阈值。

6.根据权利要求4或5所述的方法,其中所述预处理包括排除以下情况下的肽物种:a)存在候选修饰;以及b)具有相同氨基酸序列但没有所述候选修饰的对应肽物种的所述质谱测量中的最高准确度分数低于预定的分数阈值,所述准确度分数代表所述质谱测量中理论片段与观察到的片段之间的匹配程度。

7.根据权利要求4至6中任一项所述的方法,其中所述预处理包括:

8.根据前述权利要求中任一项所述的方法,其中候选序列修饰的所述子集的所述确定包括根据候选序列修饰位于被各自含有所述修饰并且源自使用不同的酶促消化所获得的肽的至少两种不同的肽物种所覆盖的氨基酸序列位置处来选择所述候选序列修饰的步骤。

9.根据前述权利要求中任一项所述的方法,其中候选序列修饰的所述子集的所述确定包括根据候选序列修饰位于以下氨基酸序列位置处来选择所述候选序列修饰的步骤:其中覆盖所述氨基酸序列位置且含有所述候选序列修饰的肽物种的数量与覆盖所述氨基酸序列位置且不含所述候选序列修饰的肽物种的数量的比率等于或高于预定的比率阈值。

10.一种提取关于蛋白质中的蛋白质序列修饰的信息的计算机实现方法,所述方法包括:

11.根据权利要求9或10所述的方法,其中所述预定的比率阈值在2%至10%的范围内。

12.根据前述权利要求中任一项所述的方法,其中候选序列修饰的所述子集的所述确定包括根据候选序列修饰满足定量条件来选择所述候选序列修饰的步骤,所述定量条件指示通过具有所述候选序列修饰的肽物种的至少选定子集的所述质谱测量所检测到的量相对于通过具有和不具有所述候选序列修饰的相同肽物种的所述质谱测量所检测到的总量高于预定的定量阈值。

13.一种提取关于蛋白质中的蛋白质序列修饰的信息的计算机实现方法,所述方法包括:

14.根据权利要求12或13所述的方法,其中所述选定子集包括来自所述至少两种不同的酶促消化中的多种或全部不同的酶促消化的多种或全部肽物种。

15.根据权利要求12至14中任一项所述的方法,其中所述至少两种不同的酶促消化包括一种或多种序列特异性酶促消化和一种或多种非特异性酶促消化。

16.根据权利要求15所述的方法,其中至少针对被使用序列特异性酶促消化所衍生的至少一种肽物种所覆盖的候选序列修饰,选择所述肽物种的所述选定子集以排除使用所述一种或多种非特异性酶促消化所衍生的肽物种。

17.根据权利要求16所述的方法,其中针对未被使用序列特异性酶促消化所衍生的至少一种肽物种所覆盖的候选序列修饰,选择肽物种的所述选定子集以包括使用所述一种或多种非特异性酶促消化所衍生的肽物种。

18.根据权利要求16或17所述的方法,其中所述序列特异性酶促消化包括以下各项中的一项或多项:胰蛋白酶、胞内蛋白酶AspN、胞内蛋白酶LysC、胞内蛋白酶GluC。

19.根据权利要求16至18中任一项所述的方法,其中所述非特异性酶促消化包括以下各项中的一项或多项:嗜热菌蛋白酶、弹性蛋白酶、链霉蛋白酶、ProAlanase、胃蛋白酶、胰凝乳蛋白酶。

20.根据权利要求12至19中任一项所述的方法,其中所述质谱测量包括液相色谱-串联质谱。

21.根据权利要求20所述的方法,其中对于每种肽物种,通过所述质谱测量所检测到的量定义为:

22.根据前述权利要求中任一项所述的方法,其中每种酶促消化使用以下各项中的不同项或组合:胰蛋白酶;嗜热菌蛋白酶;AspN;弹性蛋白酶;胰凝乳蛋白酶;LysC;LysN;GluC;ArgC;链霉蛋白酶;胃蛋白酶;ProAlanase。

23.根据前述权利要求中任一项所述的方法,其中经接收的蛋白质数据源自对通过对所述蛋白质的所述代表性样品的相应子样品进行的五种或六种不同的酶促消化所获得的肽所进行的质谱测量,优选地其中五种或六种酶促消化中的每一者使用以下各项中的不同项:胰蛋白酶、嗜热菌蛋白酶、AspN、链霉蛋白酶、胃蛋白酶、ProAlanase。

24.根据前述权利要求中任一项所述的方法,其进一步...

【技术特征摘要】
【国外来华专利技术】

1.一种提取关于蛋白质中的蛋白质序列修饰的信息的计算机实现方法,所述方法包括:

2.根据权利要求1所述的方法,其中每种肽物种由至少以下项定义:

3.根据权利要求2所述的方法,其中每种肽物种由以下项进一步定义:

4.根据权利要求1至3中任一项所述的方法,其包括:

5.根据权利要求4所述的方法,其中所述预处理包括排除以下情况下的肽物种:a)存在候选修饰;以及b)具有相同氨基酸序列但没有所述候选修饰的对应肽物种的所述质谱测量中的最高强度低于预定的强度阈值。

6.根据权利要求4或5所述的方法,其中所述预处理包括排除以下情况下的肽物种:a)存在候选修饰;以及b)具有相同氨基酸序列但没有所述候选修饰的对应肽物种的所述质谱测量中的最高准确度分数低于预定的分数阈值,所述准确度分数代表所述质谱测量中理论片段与观察到的片段之间的匹配程度。

7.根据权利要求4至6中任一项所述的方法,其中所述预处理包括:

8.根据前述权利要求中任一项所述的方法,其中候选序列修饰的所述子集的所述确定包括根据候选序列修饰位于被各自含有所述修饰并且源自使用不同的酶促消化所获得的肽的至少两种不同的肽物种所覆盖的氨基酸序列位置处来选择所述候选序列修饰的步骤。

9.根据前述权利要求中任一项所述的方法,其中候选序列修饰的所述子集的所述确定包括根据候选序列修饰位于以下氨基酸序列位置处来选择所述候选序列修饰的步骤:其中覆盖所述氨基酸序列位置且含有所述候选序列修饰的肽物种的数量与覆盖所述氨基酸序列位置且不含所述候选序列修饰的肽物种的数量的比率等于或高于预定的比率阈值。

10.一种提取关于蛋白质中的蛋白质序列修饰的信息的计算机实现方法,所述方法包括:

11.根据权利要求9或10所述的方法,其中所述预定的比率阈值在2%至10%的范围内。

12.根据前述权利要求中任一项所述的方法,其中候选序列修饰的所述子集的所述确定包括根据候选序列修饰满足定量条件来选择所述候选序列修饰的步骤,所述定量条件指示通过具有所述候选序列修饰的肽物种的至少选定子集的所述质谱测量所检测到的量相对于通过具有和不具有所述候选序列修饰的相同肽物种的所述质谱测量所检测到的总量高于预定的定量阈值。

13.一种提取关于蛋白质中的蛋白质序列修饰的信息的计算机实现方法,所述方法包括:

14.根据权利要求12或13所述的...

【专利技术属性】
技术研发人员:M·A·比特纳J·菲奇特尔E·沃西卡
申请(专利权)人:豪夫迈·罗氏有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1