Splicing 과정과 splicing site 변이 해석

NGS 데이터를 이용하여 환자의 변이를 판독하는데 있어 제일 어려운 부분은 Intron 영역과 splicing site 인 것 같습니다. Exon 영역의 경우는 직접적으로 아미노산 서열에 영향을 주는 부분이기 때문에 Null variant 또는 Missense variant에 따라 어느 정도 예측이 가능하지만, Non-coding 영역인 Intron 영역은 해석하기 어렵기 때문이지요. 그래서 종종 Intron 영역은 배제하고 Coding region만  변이 판독을 하는 경우가 많습니다. 그러나 이럴 경우, splicing site mutation을 종종 놓칠 수 있습니다. 판독에 포함하더라도 실제 검출된 변이가 어떤 영향을 주는지 알기 어려운 경우도 많습니다. 그래서 이번 포스팅에서는 splicing이 일어나는 과정 및 실제로 splicing site에서 mutation이 검출된 예를 통해서 splicing site 변이 해석 방법에 대해서 정리해 보고자 합니다.

Fig-07-47-0
[Splicing process] mRNA로 transcription 되기 위해서는 gDNA의 intron 영역이 잘려나가고 exon 영역만 합쳐져야 합니다. 이 때 Intron 영역의 5′ 영역의 GU를 포함한 donor site가 Branch point의 A를 인지하고 lariat을 형성하고 동시에 3′ 말단의 AG를 포함한 acceptor 부분이 떨어져 나가면서 두개의 exon 영역이 합쳐지게 됩니다.

위의 과정에서 transcription이 제대로 일어나지 않은 경우, 잘못된 mRNA가 생성될 수 있고 이러한 mRNA의 산물로 잘못된 단백질이 형성되어 환자의 형질이 나타날 수가 있습니다. 아래는 splicing 과정 중에서 기능적으로 중요하여 보존된 영역의 sequence를 보여주고 있습니다. 따라서 일반적으로 NGS 변이 판독 시에는 exon 영역 전후 10bp 또는 50bp 까지도 판독에 포함하기도 합니다. 그러나 많은 경우, 판독이 쉽지 않아서 실제로 mutation을 검출하는 경우는 드뭅니다.

Ch5A4

1-s2.0-S1471491412001013-gr2
[Splicing site mutation] splicing에 영향을 주는 변이 발생에 따라, mRNA 내에 정상 exon이 빠지거나 intron 영역이 포함되는 등 다양한 상황이 발생할 수 있습니다.

최근에 두개골 조기 유합증 환자의 NGS 결과를 판독하다가 나온 예를 통해 Splicing site 변이를 판독하는 방법을 살펴 보겠습니다. 해당 환자는 TCF12 유전자의 c.1468-7A>G 변이가 heterozygote로 확인되었습니다. 아래 그림과 같이 원래 AA sequence이던 부분이 변이로 인해 AG로 바뀌면서 원래 splicing acceptor site로 작동해야할 부분의 앞쪽이 splicing 되면서 잘못된 transcription이 발생한 case 입니다. 위 그림 (c)의 Cryptic splice site usage에 해당합니다.

이렇게 되면 원래 exon 17 앞의 intron 영역의 CTTTAG sequence가 포함되어, 실제 mRNA에는 Leu(CUU)-Stop(UAG) codon이 포함되고, 결국 해당 mRNA는 inserted stop codon에 의해 exon 16번까지만 발현되는 Stop gain variant와 같은 결과를 보이게 됩니다.

그림1
[Example of cryptic splice site activation] 두개골 조기유합증 관련 TCF12 유전자의 splicing site에서 heterozygote로 검출된 변이와 해당 변이에 의해 발생한 Stop gain. 해당 유전자는 Autosomal dominant (AD) 유전 방식을 따르고, 실제 환자의 임상양상도 일치하기 때문에 진단이 가능합니다.

마지막으로 이러한 splicing variant를 simulation 하는 in-silico tool을 소개하면서 포스팅을 마치고자 합니다. 아래 논문에서는 splicing에 영향을 주는 SNV의 효과를 예측하는 in-silico tool에 대해서 소개하고 있는데, scSNV score로 명명하여 여러 컴퓨터 알고리즘을 적용하고 있습니다. 위의 환자의 변이는 ADA score 0.9995 / RF score 0.9739 으로 ADA 또는 RF 알고리즘으로 예측한 결과 모두 영향을 받을 가능성이 아주 높음 (1에 가까울 수록) 을 보여주고 있습니다.

 

[Reference]

Singh, Ravi K., and Thomas A. Cooper. “Pre-mRNA splicing in disease and therapeutics.” Trends in molecular medicine 18.8 (2012): 472-482. https://doi.org/10.1016/j.molmed.2012.06.006

Xueqiu Jian, Eric Boerwinkle, Xiaoming Liu; In silico prediction of splice-altering single nucleotide variants in the human genome, Nucleic Acids Research, Volume 42, Issue 22, 16 December 2014, Pages 13534–13544, https://doi.org/10.1093/nar/gku1206

글쓴이: Jihoon Yoon

인체라는 소우주를 탐험하는 호기심 많은 연구자

One thought

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Google photo

Google의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

%s에 연결하는 중