유전자 해석의 Framework: RefGene, EnsGene, UCSC Gene

지난 주에 신경과에 계신 선배님께서 신경과 관련 저널의 논문을 리뷰하면서, 저한테 질문해주신 내용이 있는데, 사실 매우 쉽지만, 잘 모르면 간과하기 쉬운 내용이 있어서, 정리하는 포스팅을 올립니다.  최근 유전체 기술의 발달로 유전자 검사에 대한 접근성은 높아졌지만, 필드에 있는 의사들도 의대 시절에 배운 지식이 아니기 때문에, 따로 공부한 것이 아니면 체계적으로 관련 내용을 잘 알지 못하는데서 나온 질문인 것 같습니다.  가끔 논문을 보면, ENST? CCDS? RefGene? 이러한 단어들이 나오는데, 차이가 뭐고 정확히 무엇을 의미하는지 모르겠다는 것이 질문의 요지인데, 관련 배경 지식들을 정리해보겠습니다.

관련 포스팅 보기>

바이오 연구자를 위한 Genome Browser 비교 및 활용

임상의를 위한 NGS 레포트 해석의 이해

Ensemble Genome Browser를 이용한 종별 아미노산 서열 보존 비교

I. 유전자를 해석하는 틀 (Framework)은 고정되어 있지 않다.

인간은 22쌍의 상동 염색체와 1쌍의 성 염색체 상에 대략 2만여개 정도의 유전자가 위치하고 있습니다. 염기 서열 분석을 통해, 인간 유전체의 염기 서열이 완성되긴 했지만, 사실 아직도 정확하게 몇 개의 유전자가 위치하는지는 완벽히 밝혀져 있지 않습니다. 흔히, Coding sequence 라고 부르는 단백을 지정하는 서열의 경우에도, 하나의 유전자에서 다양한 전사 방식 (Transcription mode)이 존재하게 됩니다.

Figure_15_03_02

일반적으로 우리는 위 그림에서 유전자의 ExonIntron 영역의 구분은 고정되어 있다고 생각하지만, Transcription mode에 따라서 어떠한 영역은 Exon이 되기도 하고, 다른 Transcription mode에서는 Intron이 되기도 합니다. 따라서, 인간 유전자의 염기 서열에서 1) 유전자를 정의하는 방식, 2) 유전자 내에서 전사되어 지정되는 단백을 나타내는 방식에서 다양한 경우의 수가 나타나게 됩니다.

 

II. 유전자의 정의 방식: RefGene, EnsGene, UCSC Gene은 무엇이고, 차이점은 무엇인가?

위에서 언급한 문제로 인해서, 어떠한 틀에서 유전자를 바라보고 해석(Interpretation)했는지 , 그리고 주석 (Annotation)을 달았는지에 대한 구분이 필요해졌고, 이를 표준화하기 위한 여러 가지 노력이 이어졌습니다. 이에 따라, 위에서 언급한 1) 유전자를 정의하는 방식이 여러 가지 제안되었습니다.

NCBI Group (미국)에서는 RefSeq (Reference Sequence, 참조 유전체)를 기본으로 유전자를 정의하여 RefGene (Reference Gene)이라 명명하였고, Ensemble Genome Browser를 제공하고 있는 EMBL-EBI group (유럽)에서는 EnsGene (Ensemble Gene) 으로 유전자를 정의한 set를 제공하고 있습니다. 이외에도 UCSC Genome Browser를 제공하고 있는 UCSC Group에서도 유전자를 annotation 하여, UCSC Gene이라는 이름으로 제공하고 있습니다. 사실 이외에도 여러가지 유전자를 정의하는 방식이 있지만, 대부분의 잘 알려진 유전자들의 경우에는 큰 차이가 없습니다. 다만, 유전자의 발현 정도를 보는 RNA-Seq의 경우에는 어떤 유전자 mode를 선택하는지에 따라 세부적인 부분에서 차이를 보인다고 보고 되어 있습니다.

RefSeq Database 바로가기>

 

III. 전사 방식: NM number, ENST ID, Canonical Transcript, and CCDS

위에서 언급한 유전자의 정의도 완벽하게 확립되어 있지 않은데, 하나의 유전자 내에서도 다양한 전사 방식을 보이기 때문에 (feat. alternative splicing), 경우의 수는 더 많아지게 됩니다. 아래 그림은 Ensemble Genome Browser에서 EGFR 유전자에 대해서 검색했을 때 나타나는 다양한 Transcription mode를 보여주고 있습니다.

egfr

앙상블을 이용했기 때문에, ENSG ID로 나타나는 것을 볼 수 있고, 총 11개의 Transcription mode가 존재하는 것을 볼 수 있습니다. 이렇게, 하나의 유전자 내에서도 개별 전사 방식을 가리키기 위한 개별 ID가 존재하는데, RefGene에서는 mRNA를 지정하는 경우, NM_ID로 나타내고, EnsGene에서는 ENST (Ensemble Transcript) ID로 나타내게 됩니다.

개별 전사 방식에 따라서 생성되는 단백질의 크기도 다른 것을 확인할 수 있습니다. 일반적으로 Canonical Transcript는 실험적으로 확인한 가장 많이 발현되는 단백의 전사 방식을 가리키고, 실험적으로 확인이 안된 경우에는 여러 단백 생성물 중에서 가장 크기가 큰 단백을 지정하는 전사 방식을 일컫게 됩니다.

CCDS (Consensus Coding Sequence) Project는 이러한 다양한 전사 방식에서 실험 결과와 전문가들의 curation을 거쳐 가장 표준적인 Coding Sequence를 찾고자 하는 프로젝트입니다. 이에 따라 점점 update되고 있으면, 현재도 진행 중입니다. CCDS ID는 CCDS Project에서 annotation된 결과를 가리키는 ID라고 볼 수 있습니다.

CCDS Database 바로가기>

 


[References]

O’Leary, Nuala A., et al. “Reference sequence (RefSeq) database at NCBI: current status, taxonomic expansion, and functional annotation.” Nucleic acids research 44.D1 (2016): D733-D745.

Yates, Andrew D., et al. “Ensembl 2020.” Nucleic acids research 48.D1 (2020): D682-D688.

Zhao, Shanrong, and Baohong Zhang. “A comprehensive evaluation of ensembl, RefSeq, and UCSC annotations in the context of RNA-seq read mapping and gene quantification.” BMC genomics 16.1 (2015): 97.

Pujar, Shashikant, et al. “Consensus coding sequence (CCDS) database: a standardized set of human and mouse protein-coding regions supported by expert curation.” Nucleic acids research 46.D1 (2018): D221-D228.

3개의 댓글

  • 평소에 ENSgene 기반의 isoform연구를 하면서 CCDS와 같은 시도가 필요하다고 생각하고 있었는데, 실제로 그 작업을 수행해고 있군요! 감사합니다! 오늘 첨 방문했는데 포스트들을 한 번씩만 정독해도 기초를 쌓는데 매우 도움이 될 것 같습니다.

    좋아요

  • 정리된 좋은내용이 많아보여요 즐겨찾기 추가해놓고 시간될때 봐야겠어요

    좋아요

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Google photo

Google의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

%s에 연결하는 중