Category Archives: bioinformatics

plink를 이용한 GWAS 분석 및 Manhattan plot 만들기

3년 전 연구실에 처음 들어와서, 시작했던 약물 유전체 프로젝트의 논문을 이제서야 마무리하고, 작성 중에 있습니다. 결과는 기대에 못미치게 실패로 돌아갔지만, 이 실패 과정을 보면서 유전체 연구에 있어서 연구 디자인 (Study Design)과 형질 (Phenotype)이 얼마나 중요한지에 대해서 깨닫게 됩니다. 특히 약물 유전체 연구에 있어서의 관심 형질은 체내 약물 농도나 대사능, 부작용의 발생 여부 등이기 때문에 더욱더 정확한 표현형을 수집하기가 어려운 점이

더 보기

NGS DNA-seq pipeline: GATK Best Practice Code – Part3. Vcf manipulation

앞선 포스팅의 두가지 과정을 거치고 나서 생성된 VCF 파일을 이용하면 드디어 분석 가능한 변이들을 확인할 수 있습니다. 그러나 실제로 이 데이터를 열어보면, 지저분하고 활용하기 위해서는 어느 정도 가공이 필요합니다. 그래서 이번 포스팅은 VCF Filter를 적용하여 분석을 위한 변이들을 정제하고, 분석에 참조하기 위한 Annotation 작업을 위한 Code까지 정리해보도록 하겠습니다. 관련 포스팅 보기> NGS 분석 파이프 라인의 이해: GATK Best Practice NGS

더 보기

NGS DNA-seq pipeline: GATK Best Practice Code – Part2. Bam to Vcf

지난 글에 이어서, 생성된 Bam 파일로부터 변이들을 읽어 들이고, haplotype call을 하는 두번째 파트의 code를 정리해보겠습니다. 아래 코드는 GATK 4.1.3 버젼을 기반으로 작성되었습니다. GATK 버젼에 따라서 조금씩 Tool과 명령어에 차이가 있습니다. 전반적인 흐름은 아래와 같습니다. 관련 포스팅 보기> NGS DNA-seq pipeline: GATK Best Practice Code – Part1. Fastq to Bam NGS 분석 파이프 라인의 이해: GATK Best Practice [계속 Update

더 보기

NGS DNA-seq pipeline: GATK Best Practice Code – Part1. Fastq to Bam

GATK4 (Genome Analysis Tool Kit)로 넘어오면서, NGS 시퀀싱 분석을 위한 파이프라인이 많이 개선 및 간소화된 것 같습니다. 덕분에 저도 최근 연구실에 구축되어 있던 파이프라인도 새롭게 뜯어고쳤는데, 이 참에 전반적인 분석을 위한 코드를 정리해볼까 합니다. 추후에 비슷한 파이프 라인을 구축하고자 하는 분들께 도움이 되었으면 하고 피드백도 환영합니다. 관련 포스팅 보기> NGS 분석 파이프 라인의 이해: GATK Best Practice [계속 Update 예정]

더 보기

[계속 Update 예정] 자주 쓰는 linux 명령어 및 프로그램 관련 자료

[Linux 자주 쓰는 명령어] ls: 현재 위치 display cd /folder : 이동 rm -rf /folder : 하위 폴더 포함 전체 삭제 mkdir /abc: abc 디렉토리 생성 chmod -R 777 ‘file1’: file 1 권한 변경 / 읽기: 4, 쓰기: 2, 실행: 1 cat, grep: cat /BiO/project/example.txt | grep “test”  내용 중 특정 문자열을 포함하는 줄만을 불러옴. screen -ls : screen list

더 보기

데이터 사이언티스트의 흔한 오류와 의료 정보 데이터 전처리시 고려할 사항

이번 포스팅은 Towards Data Scientist의 Top 10 Statistics Mistakes Made by Data Scientists 을 읽고, 의료 정보 데이터를 다룰 때도 역시 적용되는 흔한 오류들에 대해서 글을 써보고자 합니다. 데이터 사이언스와 머신 러닝이 보편화된 지금, 다양한 머신 러닝 기법을 데이터에 적용하는 것은 그리 어렵지 않은 일이 되었습니다. 머신 러닝 기법을 의료 분야에 적용하고 활용하는 시도가 다양하게 진행되고 있습니다만, 사실 많은 사람들이 간과하는

더 보기

암유전체 분석: GISTIC을 이용한 Somatic Copy Number Alteration 분석

암유전체 분석은 크게 SNV/INDEL 수준의 Mutation 분석과 Chromosome/CNV 수준의 Somatic Copy number Alteration (SCNA) 분석으로 나눌 수 있습니다. 과거에 SCNA는 주로 SNP array 또는 Array CGH과 같은 Microarray를 이용하여 시행하였지만, 최근에는 NGS 데이터를 활용하여 2가지 분석을 모두 시행할 수가 있습니다. 이번 포스팅은 NGS 데이터를 활용하여, SCNA를 분석하는 Genomic Identification of Significant Targets in Cancer (GISTIC) 분석 방법에 대해서 정리해보고자 합니다.

더 보기
« 이전 엔트리