蛋白质组学

阅读 / 问答 / 标签

利用质谱技术进行临床癌症蛋白质组学研究

肿瘤生物标志物是目前肿瘤临床研究的关键点,因此在早期诊断、风险分级和检测患者的治疗应答等方面需要不断挖掘新的生物标志物并加以验证。基因组和转录组研究已经发现了很多可用的标志物,但蛋白质表达改变更能反映出肿瘤病理生理学的变化。在过去,临床诊断一直依赖于基于抗体检测的各种方法,但这些方法都存在局限性。而质谱(MS)是一种强大的方法,使人们能全面洞悉蛋白质组的变化,从而促进个性化医疗的发展。本文将以肿瘤学为重点介绍基于MS技术的临床蛋白质组学的研究进展,对临床样品制备、蛋白定量检测方法、MS配置和数据分析进行详细叙述。此外,MS技术灵敏度不断提高,涌现出新形式的肿瘤特异性蛋白标志物如翻译后修饰和源于基因组畸变的变异。这些进步不仅巩固了以MS为基础的临床蛋白质组学在癌症研究中的地位,还使其向成为常规分析和临床实践的方向加速发展。 临床样品的制备方法 对于临床组织研究,为了保证从手术切除到蛋白质酶解过程中的蛋白质量,正确的保存方式非常关键。有几种方法可以选择:新鲜冷冻(FF)、福尔马林固定石蜡包埋(FFPE)和OCT包埋。FF与FFPE相比可检测到更多的蛋白质,但现有的FFPE已经储存了几年甚至十几年,是临床随访等回顾性研究的重要样品来源。虽然组织的蛋白质组学研究可探究生物机制信息,但临床蛋白质组学研究以发现新的生物标志物为主要目标,因此“体液”样品如血液(血清、血浆)、尿液、唾液、泪液和脑脊液等是较为理想的样品形式,还可用于检测癌症和治疗反应发展的纵向研究中。当临床样品质量不足以支持研究时,可考虑使用模型系统如转基因动物模型、癌细胞系、异种移植模型(CDX、PDX)、类器官等。 蛋白质组样品制备没有统一的方案,要根据样品复杂性、样品量和研究目的选择合适的方法并优化。制备的主要方法有FASP、MStern、S-trap、SP3和iST等。这里以FASP为例进行介绍。FASP,即过滤器辅助的样品制备法,首先使用阴离子表面活性剂十二烷基硫酸钠(SDS)溶解蛋白质,然后使用分子量(MW)过滤将蛋白质结合到硝酸纤维素过滤器上,而较低MW的物质则被过滤掉,连续的尿素洗涤有助于更好地去除SDS,最后是过滤器上的蛋白酶解和洗脱获得多肽产物。 MS检测原理及流程 为了在检测时增加蛋白质组的覆盖率,肽段样品首先通过反相液相色谱等方法分成不同馏分后进入MS分析。利用软电离技术(ESI或MALDI)对肽段进行离子化,雾化的多肽可以通过离子迁移率进一步分离,从而降低一级质谱(MS1)的复杂性和二级质谱(MS2)的污染,并最终实现更大的蛋白质组覆盖率。这样的技术包括离子淌度(TIMS)和高强场离子迁移谱和(FAIMS)。在质谱扫描模式的选择上,传统的数据依赖采集(DDA)模式在蛋白质组学研究非常成熟,且兼容基于标签的定量技术。在DDA中,MS1扫描结果中信号最强的前n个母离子才会被选择并进行顺序碎裂和MS2检测。但是,这种模式的检测重复性差,且存在MS1中高丰度肽影响低丰度肽检出的问题。由于DDA的缺点,蛋白质组学研究开始倾向于使用数据非依赖采集(DIA)模式。在该模式下,在多个小范围的质荷比窗口中的所有母离子顺序碎裂产生更复杂的MS2结果。然后将这些结果与预先定义好的谱图库进行匹配,通过大范围的肽分级达到最大的蛋白质组深度。 蛋白定量检测方法 蛋白定量检测技术多种多样,按照检测范围可分为靶向与非靶向技术,也可按照定量方式分为相对定量或绝对定量技术。其中,相对定量技术又可分为标记技术(TMT和iTRAQ)和非标记技术(label-free、DIA)。标记相对定量技术中TMT标签可增加样品通量到16个。然而, TMT方法需要多级的肽分级来获得深入的蛋白质组图谱,并且1-2个TMT通道常用于检测所有样品的混样来减少批间差,这降低了各个项目之间进行有效比较的能力,并增加检测成本。而label-free技术,得益于数据分析软件的发展,可以从MS1的肽离子峰分数计算出蛋白质的相对丰度。与标记技术相比,非标记技术具有更宽广的动态范围,但精准度会稍差一些。因此,对于患者间和患者内存在较大蛋白质表达差异的临床样品,label-free定量技术更适合鉴定出更多的差异表达蛋白。 通过非靶向相对定量检测技术筛选到的目标蛋白质需要进行表达验证,如基于抗体的ELISA和基于MS的靶向分析技术。其中,基于MS的靶向定量技术有多反应检测(MRM)和平行反应检测(PRM)两种。MRM使用三重四极杆质谱仪进行分析,需要先确定目标母离子和碎片离子的质荷比,由四极杆选择母离子和3-5个相关碎片离子的组合并进行定量分析。而PRM利用高分辨率质谱提高特异性。PRM中所有碎片离子都是在分析中生成并被记录,所以只需要确定目标母离子的质荷比并直接从二级质谱中选择最好的碎片离子即可进行定量分析。如果加入用稳定同位素标记的肽标准品做对照,这两种靶向技术可达到绝对定量水平。两种技术相比,PRM能可靠地监测更多的靶点。 临床蛋白质组学的应用方向 在肿瘤学研究中,组织分析能够最准确地反映肿瘤的生理状态,发现生物标志物、生物学通路,并与现有的基因组学和转录组学结果整合做多组学分析。这类研究通常使用同一患者的癌组织样品和癌旁“健康”对照样品比较寻找潜在的诊断biomarker。同时,对不同癌症分期患者比较获得预后信息。当鉴定到较少数量的候选蛋白后,就可以利用通路分析深入了解这些蛋白是如何与肿瘤发生、增殖、转移和其他癌症驱动过程相关的,随后在独立大队列样品中补充差异表达蛋白的验证实验。总结目前科研现状,癌症蛋白质组学的研究方向主要有寻找风险预测、癌症分级和预后的标志物、确认有效的治疗靶点和翻译后修饰如磷酸化、乙酰化、糖基化等。此外,肿瘤异质性问题对单细胞水平的蛋白质研究提出了要求。基于质谱的质谱流式技术可以在单个细胞中监测几十个蛋白质标志物,将抗体探针和独特的重金属同位素连接在一起后与细胞孵育,然后细胞被感应耦合等离子体(ICP)雾化,金属离子向质谱仪提供目标蛋白在样本中的定量读数。 2019年10月在《Cell》上发表的“Integrated Proteogenomic Characterization of HBV-Related Hepatocellular Carcinoma”一文中,作者利用多组学研究思路,对159位感染乙型肝炎病毒的肝细胞癌患者的配对癌组织和癌旁肝组织进行了基因组、转录组、蛋白质组和磷酸化蛋白质组研究,发现了代谢改变对肝癌晚期发展和不良预后的影响,并对肝细胞癌进行了蛋白层面的精准分型,为个性化靶向治疗提供了新策略。 临床蛋白质组学的研究前景 随着标准化、高通量的蛋白质组学技术不断发展,临床研究将向着更大队列的方向进步,这将使蛋白质组学研究结果更具有统计学意义,并提高蛋白标志物和药物靶点临床转化的效率。另一方面,蛋白质组学将通过集成基因组学、表观基因组学、转录组学和翻译后修饰组学等多组学数据,成为癌症系统生物学的重要组成部分。 参考文献 Macklin, Andrew et al. “Recent advances in mass spectrometry based clinical proteomics: applications to cancer research.” Clinical proteomics vol. 17 17. 24 May. 2020. Zhang, Yaoyang et al. “Protein analysis by shotgun/bottom-up proteomics.” Chemical reviews vol. 113,4 (2013): 2343-94. Gao, Qiang et al. “Integrated Proteogenomic Characterization of HBV-Related Hepatocellular Carcinoma.” Cell vol. 179,2 (2019): 561-577.e22.

蛋白质组学,转绿组学能解决什么问题

蛋白质组学和转录组学都是后基因组时代(Post genomics era)中重要的组成部分,其中转录组学和基因组结合更紧密,能够针对性的解决一些组织特异性相关的基因差异的问题,所以近几年随着越来越多的基因组获得测序,加上转录组测序成本的降低,获得了长足的进步,越来越多的物种的基因信息得到了丰富,很多我们关注的模式植物,模式动物的一些具体的问题被解决。蛋白质组学则是更关注下游的一种研究方法,因为基因的最终作用(除了表观遗传学的部分外)都是通过蛋白质(酶)来具体执行的,所以蛋白质组学是能够解决一些具体问题的,列如一些关键蛋白,一些BIOMARKER都已经在实践中得到了很好的应用。但是蛋白质组和转录组中间,由于翻译后修饰的多元化,存在一个不可逾越的鸿沟,所以,目前很多基因的部分和蛋白还不能形成很好的衔接,也造成了蛋白质组学这几年发展的停滞。综合来说,蛋白质组学和转录组学都是从基础研究水平上来缩小我们实验的范围,运气好,能够碰到一个单基因控制的,或者相互作用网络比较简单的蛋白,我们就能具体解决某一个问题,但大部分时候只能够给我们提出一个方向

蛋白质组学定量 Normalization 方法之一

Normalization 是为了样本之间可以比较,用来矫正系统误差。例如上样量A样本是B样本的两倍,最后得出A样本里所有蛋白都是B样本蛋白的两倍,显然是不对的。这种现象在基因测序中也存在,例如测序深度差异等,常用的R包 edgeR 等也有不同的 Normalization 方法。 最简单最粗暴的方法是假设是大部分蛋白是没有发生变化的,只有少数改变了,只要每个样本除以自身所有蛋白丰度和,就可以矫正误差。但显然也有明显的弊端,如果某些蛋白丰度极高,凭一己之力改变了丰度之和,就无法正确矫正。如下 因此,将丰度总和作为Normalization是不太可取的。因此也有其他的一些方法,取出样本中一部分代表总体来进行矫正。例如取中位数,取四分之一和四分之三分位数之间的样本来剔除极端值等。 下面文章来自 Nature -- Proteogenomics connects somatic mutations to signalling in breast cancer 首先作者对样本进行了过滤。reference 是混合样本,因为无论是 TMT 还是 iTRAQ 标记都只能标记有限样本,需要一个混合样本做参照,使在不同批次间可以比较。我们看下图每个样本与 reference的比值取对数结果大部分是符合预期的单峰分布(右),以0(1倍)为中心高斯(正太)分布,也有一些样本是明显的双峰分布(左)。 作者使用 R 包 mclust 双重高斯混合模型进行聚类,较小均值的77个样本通过QC。 其实用的就是 z-score 方法的变种,(x-均值)/标准差 。区别是,这里并不是用的总样本的标准差。 首先假设样本中只有一部分蛋白发生了改变,另一部分没有发生改变,双峰原因是因为污染等,而没有发生上下调的蛋白拥有较小的标准差。 为了归一化前面讲的进样样和系统误差,采用了下面方式,使用 mixtools 包。 以单峰模型估计出均值 双峰模型估计两个标准差 使用最小的标准差标准化 矫正前 如有错误,欢迎指正 其他方法参考文献 A systematic evaluation of normalization methods in quantitative label-free proteomics