基因组数据在癌症中的临床应用

发表时间:2018-10-23 00:00作者:病理柳叶刀


随着新一代测序技术等高通量实验技术在肿瘤研究中的应用,越来越多的基因组水平数据应用到肿瘤患者的诊断,治疗以及预测预后中。随之而来的越来越多的分析方法用于基因组数据的分析与解读。


基因组主要的分析流程与工具如图1所示[1]1. 识别突变:包括将测序序列比对到基因组上(Alignment);识别突变(Variant Calling)以及区分体细胞突变与胚系突变;对突变数据进行注释(Annotation)。2. 解释突变:识别可用于指导靶向治疗的分子改变;通过生存分析将病人分为不同危险组,从而实现个体化的检测与治疗[2]



1


本文主要介绍将基因组数据应用到肿瘤预测预后指导治疗的两种方式的分析工具。

1.  基因组水平数据应用于癌症患者预测预后


(1)将生存时间考虑在内的预后作为连续变量的生存分析

首先将全部样本分为训练队列(用于筛选预后相关变量及生存建模)和测试队列(用于测试在训练队列中所构建的生存模型)。


一般随机将全部样本的80%定义为训练队列(training set),剩余的20%定义为测试队列(test set)。对于训练队列,首先通过单因素Cox生存分析来选择预后相关的变量(p < 0.05)。


然后用两种建模方式来对所筛选的预后相关变量进行生存建模:1.  Cox: Cox多因素回归模型和LASSO建模,2. RSF: random survival forest。最后通过C-index来评估所建立的预后模型的预测效力(见图2)。


在上述分析过程中,主要分析工具有:

Cox单因素及多因素分析:R语言中的”survival”包;

LASSO分析:R语言的”glmnet”包;


Random survival forest分析:R包“Random SurvivalForest”或者最新版本” random Forest SRC”包。




图2


(2)将预后状态作为分类变量的分析

设置一个cutoff将连续的生存时间划分为分类变量“预后好”和“预后差”。

首先可以通过两种方式选择预后相关变量:ANOVA和 shrinking centroids。


然后有8种算法对预后相关变量进行分类建模:diagonal discriminant analysis (DDA), K-nearest neighbor (KNN),discriminant analysis (DA), logistic regression (LR), nearest centroid (NC),partial least square (PLS), random forest (RF) and support vector machine (SVM)。10-foldcross-validation用来评估效用。并且通过C-index来评估所建立的预后模型的预测效力。

2. 识别临床相关基因的体细胞突变。

precision heuristics for interpreting thealteration landscape (PHIAL):

使用precision heuristics for interpreting the alteration landscape(PHIAL)算法对体细胞突变进行分级排序,来决定基因突变与临床应用相关性,从而发现潜在的治疗靶点。

临床相关基因(clinical related genes)的概念是指产生了可以针对治疗产生抵抗或应答,和/或有对诊断或预后有影响的体细胞突变的基因。clinically actionable gene的概念是指癌症中任何产生体细胞突变的基因,能够预测对特定癌症治疗的治疗有效或治疗抵抗,有诊断或预测预后的能力,就被认为是一个clinically actionable gene。

首先通过查询文献,手工筛选以及参考专家意见对方式,产生了121个clinically actionable genes存储于数据库TARGET中(http://www.broadinstitute.org/cancer/cga/target)。数据库中的基因可用于指导治疗,预测预后及辅助诊断,该121个TARGET基因的整合原则包括:1. 通过临床及生物学相关性排序 2. 联系TARGET基因与另外的生物相关通路或基因集合 3. 降级意义不明确定突变。从而形成了PHIAL。

为了最大程度的对突变进行区分排序,除了考虑TARGET中的基因外,其他更多判断标准应用到对突变点排序分级中。包括Cancer Gene Census中的recurrent alterations;MSigDB中curated cancer pathways分析的同一个样本中同时改变的actionable genes的通路;MSigDB分析的癌症通路或基因集合;以及COSMIC中的突变(如图3)。所有的PHIAL代码均可R包获得(http://www.broadinstitute.org/cancer/cga/phial/)[3, 4]。



图3


以上一些方法在个体基因组数据的判读上,以及回顾性研究中可以用于基因组数据的分析。希望对大家的有所提示哦。

1.    Van Allen EM, Wagle N and Levy MA. Clinicalanalysis and interpretation of cancer genome data. Journal of clinical oncology: official journal of the American Society of Clinical Oncology. 2013;31(15):1825-1833.

2.    Yuan Y, Van Allen EM, Omberg L, Wagle N,Amin-Mansour A, Sokolov A, Byers LA, Xu Y, Hess KR, Diao L, Han L, Huang X,Lawrence MS, Weinstein JN, Stuart JM, Mills GB, et al. Assessing the clinicalutility of cancer genomic and proteomic data across tumor types. Naturebiotechnology. 2014; 32(7):644-652.

3.    Van Allen EM, Wagle N, Stojanov P, PerrinDL, Cibulskis K, Marlow S, Jane-Valbuena J, Friedrich DC, Kryukov G, Carter SL,McKenna A, Sivachenko A, Rosenberg M, Kiezun A, Voet D, Lawrence M, et al.Whole-exome sequencing and clinical interpretation of formalin-fixed,paraffin-embedded tumor samples to guide precision cancer medicine. Naturemedicine. 2014; 20(6):682-688.

4.    Gagan J and Van Allen EM. Next-generationsequencing to guide cancer therapy. Genome medicine. 2015; 7(1):80.


分享到:
地址:绍兴袍江群贤路与中兴大道东南角三楼310室      
浙公网安备 33069902000295号