SNP array의 원리와 CNV 분석: B Allele Frequency, LogR ratio

오늘은 흔히 GWAS 분석에 사용되는 SNP array의 원리와 이를 이용한 CNV 분석 기법에 대해서 정리해보고자 합니다.

관련 포스팅 보기>

전장 유전체 연관 분석, GWAS란 무엇인가?

[유전자칩 비교] SNP array와 array CGH, 그리고 한국인칩

[유전학 중요개념 정리] Structural variation 및 Copy-number variation

SNP array는 인간의 30억쌍의 염기 서열 중에서 대표적인 유전적 마커를 선정하여 스크리닝하기 위해서 개발되었습니다. 제품마다 유전적 마커의 개수는 상이하고 이에 따라 해상도도 달라지지만, 최근에는 대략적으로 백 만개 (즉, 3000개 중 1개의 대표 마커) 정도의 마커를 갖고 있습니다. 그래서 GWAS 연구에 많이 이용되고 있지요. 하지만 SNP array의 강점은 동시에 유전체의 구조적 이상인 CNV (Copy-number variant) 검출에도 이용될 수 있다는 데 있습니다. SNP array는 아래 그림과 같이 각각의 유전적 마커에 특이적인 Probe가 디자인되어 있습니다. 이때 해당 Probe가 특이적인 위치에 결합하고, 효소 반응에 의해 결합위치에 1개의 염기 서열을 합성하면, 염기 서열에 따라 초록 (Green) 또는 빨강 (Red) 형광을 띄도록 설계가 되는데, 이때 형광 신호를 검출함으로써 해당 위치의 유전형을 알 수가 있게 됩니다.

Figure_1
[SNP array의 검사 원리] 검사하고자 하는 위치에 특이적으로 결합하는 Probe를 디자인하고, 해당 위치에 결합하면 염기 서열에 특이적인 형광 신호를 색깔로 구분하여 주게 됩니다.
dual_colur_fluorescensce
[SNP array의 각 Cell에서 나오는 신호] 각각의 Cell 에서 유전형에 따라서 빨강 (AA), 초록(BB), 또는 노랑 (빨강+초록; AB) 신호 강도가 잡히게 되고 이를 토대로 해당 위치의 유전형을 추정하게 됩니다.
즉, SNP array는 2가지의 정보를 주게되는데, 첫번째는 1) 당 Probe 위치의 genotype 정보, 그리고 2) 해당 위치의 형광 세기 (Intensity) 입니다. 첫번째 정보만을 이용하면, GWAS 분석에 이용할 수가 있고, 두번째 정보까지 이용하면 CNV 분석에 이용할 수가 있습니다. 즉, 일반적으로 우리는 양쪽 부모로 부터 한쌍씩 Copy Number (CN=2)인 상태를 갖게 되는데, 만약 CN에 변동이 생기면 검출되는 형광의 세기도 이에 비례해서 감소하거나 증가하는 것입니다.

SNP array에서는 1)에 해당하는 정보를 B allele frequency (BAF), 2)에 해당하는 정보를 Log R ratio 로 나타냅니다. 여기서 BAF는 A와 B의 2가지 genotype 중 B의 비율을 전체 경우의 수로 나타낸 것이고, Log R ratio는 위의 형광 세기를 상대적으로 나타내서 Log를 취한 값을 나타냅니다.

예를 들면, A와 B가 각각의 genotype을 가리킨다면, CN = 2일 때는 AA, AB, BB의 3가지 경우의 수가 가능하고, BAF는 0, 0.5, 1.0이 가능하지만, CN =1일 때는 A, B의 2가지 경우의 수로 0,1이 가능하고, CN=3일때는 AAA, AAB, ABB, BBB의 4가지 경우의 수로 0, 0.33, 0.67, 1.0이 가능해지게 되어, 아래와 같이 나타낼 수가 있습니다. 즉, 아래의 BAF와 Log R ratio의 패턴을 통해서, 해당 유전적 위치에 Deletion (CN=1) 또는 Duplication (CN=3) 여부를 알 수 있게 됩니다.

BAF, Log2
[SNP array를 이용한 CNV 분석에 이용되는 2가지 Parameter] B allele frequency와 Log R ratio.
SNP array
[CNV 상태에 따라 나타나는 BAF와 LogR ratio의 패턴] 해당 위치의 패턴을 토대로, CNV를 추정 가능합니다. SNP array는 LOH를 쉽게 검출할 수 있는 장점은 있지만, 구조적 이상 중에서 Inversion은 검출할 수가 없습니다.
 

위 그림은 SNP array를 통해서 검출이 가능한 다양한 CNV 변이의 상태를 나타내주고 있습니다. Figure 5의 경우는 CN = 1로 한쪽이 deletion된 상태, Figure 7은 CN = 0 으로 양쪽이 모두 deletion 상태이고, Figure 9와 같이 BAF에 2개의 선으로 3개의 구역이 나뉘면 CN = 3에 해당합니다. 마지막으로 Figure 6은 Log R ratio에 변동이 없기 때문에 CN=2로 변동이 없지만, 해당 구역에서 heterozygote (AB)를 가리키는  BAF = 0.5에 신호가 없기 때문에 전부 homozygote만 존재하는 구간이고, 이를 Copy-neutral LOH (Loss of Heterozygosity) 라고 합니다.

관련 포스팅 보기>

[유전학 중요개념 정리] Copy neutral loss of heterozygosity (CN-LOH)

 

[Reference]

Lin, Chiao‐Feng, Adam C. Naj, and Li‐San Wang. “Analyzing copy number variation using SNP array data: protocols for calling CNV and association tests.” Current protocols in human genetics 79.1 (2013): 1-27.

Interpreting Infinium® Assay Data for Whole-Genome Structural Variation, Illumina technical note.

글쓴이: Jihoon Yoon

인체라는 소우주를 탐험하는 호기심 많은 연구자

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Google photo

Google의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

%s에 연결하는 중