암유전체 분석: GISTIC을 이용한 Somatic Copy Number Alteration 분석

암유전체 분석은 크게 SNV/INDEL 수준의 Mutation 분석과 Chromosome/CNV 수준의 Somatic Copy number Alteration (SCNA) 분석으로 나눌 수 있습니다. 과거에 SCNA는 주로 SNP array 또는 Array CGH과 같은 Microarray를 이용하여 시행하였지만, 최근에는 NGS 데이터를 활용하여 2가지 분석을 모두 시행할 수가 있습니다. 이번 포스팅은 NGS 데이터를 활용하여, SCNA를 분석하는 Genomic Identification of Significant Targets in Cancer (GISTIC) 분석 방법에 대해서 정리해보고자 합니다.

관련 포스팅 보기>

암유전체 분석: Waterfall plot

NGS 데이터를 이용한 CNV 분석


f1.large
[GISTIC 분석의 원리] 여러 환자의 sample에서 공통적으로 발생하는 CN 변화의 위치를 통계적으로 구해서, 유의하게 발생하는 위치에서 Cancer 발생의 Driver mutation을 찾는 것이 원리입니다.
GISTIC 분석을 위해서는 아래와 같은 Input 파일이 필요합니다.

ftp://ftp.broadinstitute.org/pub/GISTIC2.0/GISTICDocumentation_standalone.htm

Segmentation File (-seg)

(1)  Sample           (sample name)

(2)  Chromosome  (chromosome number)

(3)  Start Position  (segment start position, in bases)

(4)  End Position   (segment end position, in bases)

(5)  Num markers      (number of markers in segment)

(6)  Seg.CN       (log2() -1 of copy number)

원래 GISTIC은 Array 기반으로 개발된 프로그램이기 때문에, Probe 정보를 받아들이게 되는데 NGS 데이터는 Probe 정보가 없습니다. 따라서, 타겟 영역의 엑손 하나 하나를 일종의 Probe로 간주하고 데이터를 변환하여 넣어주면 분석을 할 수가 있습니다.

NGS를 통해 생산된 Bam 파일을 이용하여, 타겟 영역의 Copy number 정보를 구하고 이 데이터를 활용해서 아래와 같이, 1차적으로 Segmentation을 해줍니다. 그리고 여러 샘플의 이러한 정보를 합쳐서, 통계적으로 유의미한 CN 수 변화가 발생한 곳을 검출하게 됩니다. 최근에는 유용한 R package가 많이 있는데, DNA copy를 이용한 아래 코드는 segmentation과 데이터 변환에 유용하여 함께 올립니다.

1469941517095.gif
[Segmentation 과정] 각각의 영역의 CN를 일종의 신호 세기로 인식해서, 통계적으로 Segmentation에 변화가 발생한 곳을 검출해서 나눕니다.

Preparing CopywriteR output for GISTIC 2.0 analysis

library(DNAcopy)

load("/PATH/TO/segment.Rdata")
segmentation.values <- segment.CNA.object$output
colnames(segmentation.values) <- c("Sample", "Chromosome", "Start Position", "End Position",
                                   "Num markers", "Seg.CN")
write.table(segmentation.values, file = "/PATH/TO/segmentation_values.tsv", quote = FALSE,
            row.names = FALSE, sep = "\t")

markers <- data.frame(paste(segment.CNA.object$data$chrom, segment.CNA.object$data$maploc,
                            sep = ":"),
                      segment.CNA.object$data$chrom, segment.CNA.object$data$maploc)
colnames(markers) <- c("Marker Name", "Chromosome", "Marker Position")
write.table(markers, file = "/PATH/TO/markers.tsv", quote = FALSE, row.names = FALSE,
            sep = "\t")

 

위와 같은 데이터 변환 후 Input 데이터 변환이 끝나면, GISTIC 분석을 위한 모든 준비가 끝나게 됩니다. GISTIC은 Matlab 기반 프로그램이지만, 다행히 cloud를 통해 GenePattern에서 웹기반으로도 이용할 수 있습니다. 마지막으로, GISTIC을 이용하여, 4,934개의 암 샘플을 분석한 Nature genetics의 논문을 소개하며, 포스팅을 마치도록 하겠습니다.

2

[GISTICS 분석 결과] 유의하게 amplification 또는 deletion이 발생한 위치에 존재하는 Tumor driver gene을 발굴함으로써, 암 발생에 대한 연구를 할 수 있습니다.

 

[References]

Beroukhim, Rameen, et al. “Assessing the significance of chromosomal aberrations in cancer: methodology and application to glioma.” Proceedings of the National Academy of Sciences 104.50 (2007): 20007-20012.

Mermel, Craig H., et al. “GISTIC 2.0 facilitates sensitive and confident localization of the targets of focal somatic copy-number alteration in human cancers.” Genome biology 12.4 (2011): R41.

Zack, Travis I., et al. “Pan-cancer patterns of somatic copy number alteration.” Nature genetics 45.10 (2013): 1134.

글쓴이: Jihoon Yoon

인체라는 소우주를 탐험하는 호기심 많은 연구자

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Google photo

Google의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

%s에 연결하는 중