Category Archives: bioinformatics

Protein Structure Visualization: RCSB Protein Data Bank (PDB) & PyMOL

단백질을 구성하는 아미노산의 서열을 안다고 하더라도 단백질의 3차원적인 구조 (Protein 3D structure)를 예측하는 것은 매우 어려운 일입니다. 최근 구글 딥마인드에서 딥러닝을 이용한 AlphaFold를 개발해서, 3차원적인 구조를 성공적으로 예측한 논문 (아래 reference) 이 발표된 바 있지만, 전통적으로 가장 확실하게 구조를 확인하는 방법은 X-ray 회절을 이용한 Crystallography 방법 입니다. 많은 연구를 통해서, 이러한 3차원 단백 구조를 보관하고 있는 data bank가 있는데, 오늘

더 보기

Rare variant association analysis: SKAT, SKAT-O, Burden test

관련 포스팅 보기> 전장 유전체 연관 분석, GWAS란 무엇인가? Annovar: Population frequency, in-silico prediction tool 및 기타 database 활용 plink를 이용한 GWAS 분석 및 Manhattan plot 만들기 plink를 이용한 GWAS 분석에 대한 지난 포스팅에 이어서, 이번에는 SKAT을 이용한 rare variant 분석에 대한 포스팅을 정리해보고자 합니다. 유전자에 존재하는 변이(Variant)는 인구 집단 내의 분포 빈도 (Allele frequency)에 따라서, 흔한 변이 (Common variant)와 희귀

더 보기

plink를 이용한 GWAS 분석 및 Manhattan plot 만들기

3년 전 연구실에 처음 들어와서, 시작했던 약물 유전체 프로젝트의 논문을 이제서야 마무리하고, 작성 중에 있습니다. 결과는 기대에 못미치게 실패로 돌아갔지만, 이 실패 과정을 보면서 유전체 연구에 있어서 연구 디자인 (Study Design)과 형질 (Phenotype)이 얼마나 중요한지에 대해서 깨닫게 됩니다. 특히 약물 유전체 연구에 있어서의 관심 형질은 체내 약물 농도나 대사능, 부작용의 발생 여부 등이기 때문에 더욱더 정확한 표현형을 수집하기가 어려운 점이

더 보기

NGS DNA-seq pipeline: GATK Best Practice Code – Part3. Vcf manipulation

앞선 포스팅의 두가지 과정을 거치고 나서 생성된 VCF 파일을 이용하면 드디어 분석 가능한 변이들을 확인할 수 있습니다. 그러나 실제로 이 데이터를 열어보면, 지저분하고 활용하기 위해서는 어느 정도 가공이 필요합니다. 그래서 이번 포스팅은 VCF Filter를 적용하여 분석을 위한 변이들을 정제하고, 분석에 참조하기 위한 Annotation 작업을 위한 Code까지 정리해보도록 하겠습니다. 관련 포스팅 보기> NGS 분석 파이프 라인의 이해: GATK Best Practice NGS

더 보기

NGS DNA-seq pipeline: GATK Best Practice Code – Part2. Bam to Vcf

지난 글에 이어서, 생성된 Bam 파일로부터 변이들을 읽어 들이고, haplotype call을 하는 두번째 파트의 code를 정리해보겠습니다. 아래 코드는 GATK 4.1.3 버젼을 기반으로 작성되었습니다. GATK 버젼에 따라서 조금씩 Tool과 명령어에 차이가 있습니다. 전반적인 흐름은 아래와 같습니다. 관련 포스팅 보기> NGS DNA-seq pipeline: GATK Best Practice Code – Part1. Fastq to Bam NGS 분석 파이프 라인의 이해: GATK Best Practice [계속 Update

더 보기

NGS DNA-seq pipeline: GATK Best Practice Code – Part1. Fastq to Bam

GATK4 (Genome Analysis Tool Kit)로 넘어오면서, NGS 시퀀싱 분석을 위한 파이프라인이 많이 개선 및 간소화된 것 같습니다. 덕분에 저도 최근 연구실에 구축되어 있던 파이프라인도 새롭게 뜯어고쳤는데, 이 참에 전반적인 분석을 위한 코드를 정리해볼까 합니다. 추후에 비슷한 파이프 라인을 구축하고자 하는 분들께 도움이 되었으면 하고 피드백도 환영합니다. 관련 포스팅 보기> NGS 분석 파이프 라인의 이해: GATK Best Practice [계속 Update 예정]

더 보기

[계속 Update 예정] 자주 쓰는 linux 명령어 및 프로그램 관련 자료

[Linux 자주 쓰는 명령어] ls: 현재 위치 display cd /folder : 이동 rm -rf /folder : 하위 폴더 포함 전체 삭제 mkdir /abc: abc 디렉토리 생성 chmod -R 777 ‘file1’: file 1 권한 변경 / 읽기: 4, 쓰기: 2, 실행: 1 cat, grep: cat /BiO/project/example.txt | grep “test”  내용 중 특정 문자열을 포함하는 줄만을 불러옴. screen -ls : screen list

더 보기

데이터 사이언티스트의 흔한 오류와 의료 정보 데이터 전처리시 고려할 사항

이번 포스팅은 Towards Data Scientist의 Top 10 Statistics Mistakes Made by Data Scientists 을 읽고, 의료 정보 데이터를 다룰 때도 역시 적용되는 흔한 오류들에 대해서 글을 써보고자 합니다. 데이터 사이언스와 머신 러닝이 보편화된 지금, 다양한 머신 러닝 기법을 데이터에 적용하는 것은 그리 어렵지 않은 일이 되었습니다. 머신 러닝 기법을 의료 분야에 적용하고 활용하는 시도가 다양하게 진행되고 있습니다만, 사실 많은 사람들이 간과하는

더 보기

암유전체 분석: GISTIC을 이용한 Somatic Copy Number Alteration 분석

암유전체 분석은 크게 SNV/INDEL 수준의 Mutation 분석과 Chromosome/CNV 수준의 Somatic Copy number Alteration (SCNA) 분석으로 나눌 수 있습니다. 과거에 SCNA는 주로 SNP array 또는 Array CGH과 같은 Microarray를 이용하여 시행하였지만, 최근에는 NGS 데이터를 활용하여 2가지 분석을 모두 시행할 수가 있습니다. 이번 포스팅은 NGS 데이터를 활용하여, SCNA를 분석하는 Genomic Identification of Significant Targets in Cancer (GISTIC) 분석 방법에 대해서 정리해보고자 합니다.

더 보기

암유전체 분석: Waterfall plot

최근에 종양 내과에 계신 선배와 함께 담관암 (Biliary tract cancer) 환자들의 암유전체 (Cancer Genomics) 관련 NGS 분석을 시작했습니다. 확실히 작년부터 다양한 질환과 환자들의 다양한 유전체 데이터를 접하다보니, 데이터셋의 특성에 따라서 분석 및 접근 방법이 많이 다른 것을 느낍니다. 사실 그동안 저는 주로 Germline variant 분석을 했었는데, Somatic variant 가 더 중요한 암 환자들을 분석하기 위해서는 추가로 더 공부하고 알아야 할

더 보기
« 이전 엔트리