MUM

From CSBLwiki

(Difference between revisions)
Jump to: navigation, search
(실험 방법)
Line 20: Line 20:
=== KO mum algorithm ===
=== KO mum algorithm ===
-
기존의 clustering algorithm 들은 multiple sequence alignment (MSA) 에 기반하여 cluster를 찾아낸다. 그러나 단순히 서열간의 분석으로서 유전자의 기능을 고려 하지 않는다. 이러한 단점을 극복하기 위하여 본연구는 유전자의 기능에 기반하여 유전체를 비교해서 cluster 를 찾아내는 ko mum algorithm 을 개발 하였다. 다른 생물로부터 유래한 유전자를 비교하기 위해 KEGG Orthology (KO)/clusters of euKaryotic Orthologous Groups (KOG) 등의 데이터베이스를 사용하여 유전자를 annotation 하고, 그 순서를 비교하여 동일한 순서로 발견되는 유전자를 찾고 이를 KO mum로 이름지었다. 본 연구에서는 KO mum 알고리즘의 개발과 함께 예측된 ko mum을 분석하여 생물학적 의미를 탐색하였다.   
+
:기존의 clustering algorithm 들은 multiple sequence alignment (MSA) 에 기반하여 cluster를 찾아낸다. 그러나 단순히 서열간의 분석으로서 유전자의 기능을 고려 하지 않는다. 이러한 단점을 극복하기 위하여 본연구는 유전자의 기능에 기반하여 유전체를 비교해서 cluster 를 찾아내는 ko mum algorithm 을 개발 하였다. 다른 생물로부터 유래한 유전자를 비교하기 위해 KEGG Orthology (KO)/clusters of euKaryotic Orthologous Groups (KOG) 등의 데이터베이스를 사용하여 유전자를 annotation 하고, 그 순서를 비교하여 동일한 순서로 발견되는 유전자를 찾고 이를 KO mum로 이름지었다. 본 연구에서는 KO mum 알고리즘의 개발과 함께 예측된 ko mum을 분석하여 생물학적 의미를 탐색하였다.   
-
KO mum 알고리즘을 개발하고 실험하기 위하여 실험데이터로 NCBI에서 제공하는 16종의 균류 유전체 서열을 이용하였으며 3027개의 mum을 획득하였고 획득된 데이터를 분석하기 위한 추가 실험을 시행 하였으며 두번째 실험에서는 JGI에서 제공하는 206개의 유전체 서열을 분석 하였다.   
+
:KO mum 알고리즘을 개발하고 실험하기 위하여 실험데이터로 NCBI에서 제공하는 16종의 균류 유전체 서열을 이용하였으며 3027개의 mum을 획득하였고 획득된 데이터를 분석하기 위한 추가 실험을 시행 하였으며 두번째 실험에서는 JGI에서 제공하는 206개의 유전체 서열을 분석 하였다.   
KO MUM algorithm 의 구성은 다음 그림과 같으며 크게 3단계로 나뉘어진다.  
KO MUM algorithm 의 구성은 다음 그림과 같으며 크게 3단계로 나뉘어진다.  

Revision as of 04:08, 23 May 2013


연구 목표


실험에 사용된 데이터 베이스

1. NCBI에서 제공하는 16종의 균류 유전체 서열

2. JGI에서 시퀀싱 되고 어노테이션 된 206종의 균류 유전체 서열


연구 계획

실험 방법

KO mum algorithm

기존의 clustering algorithm 들은 multiple sequence alignment (MSA) 에 기반하여 cluster를 찾아낸다. 그러나 단순히 서열간의 분석으로서 유전자의 기능을 고려 하지 않는다. 이러한 단점을 극복하기 위하여 본연구는 유전자의 기능에 기반하여 유전체를 비교해서 cluster 를 찾아내는 ko mum algorithm 을 개발 하였다. 다른 생물로부터 유래한 유전자를 비교하기 위해 KEGG Orthology (KO)/clusters of euKaryotic Orthologous Groups (KOG) 등의 데이터베이스를 사용하여 유전자를 annotation 하고, 그 순서를 비교하여 동일한 순서로 발견되는 유전자를 찾고 이를 KO mum로 이름지었다. 본 연구에서는 KO mum 알고리즘의 개발과 함께 예측된 ko mum을 분석하여 생물학적 의미를 탐색하였다.
KO mum 알고리즘을 개발하고 실험하기 위하여 실험데이터로 NCBI에서 제공하는 16종의 균류 유전체 서열을 이용하였으며 3027개의 mum을 획득하였고 획득된 데이터를 분석하기 위한 추가 실험을 시행 하였으며 두번째 실험에서는 JGI에서 제공하는 206개의 유전체 서열을 분석 하였다.

KO MUM algorithm 의 구성은 다음 그림과 같으며 크게 3단계로 나뉘어진다.

1단계에서는 먼저 유전체의 유전자들을 Orthology database로 annotation한 후 유전체 서열을 어노테이션된 orthology id 로 변환된 문자열 서열로 변환한다. 또한


. 그리고 유전자의 순서를 문자의 배열로 보고, 문자열을 분석할때 흔히 쓰이는 알고리즘 중 하나인 full name (SA)를 사용하여 multiple KEGG orthology alignment (MKOA) algorithm을 개발 하였다 (여기는 왜 또 위에서랑 이름이 다른지…). 이 단계 에서는 MKOA를 활용하여 Cluster motif 후보를 찾는다. (뜬금없이 나옴)

그림1



genome sequence를 KEGG Orthology(KO)database 를 사용하여 annotation한다. KO는 문자열로써 genome sequence는 KO string으로 변환되어진다.
KO string을 비교 분석 하여 cluster 후보를 선별 하는 과정으로 일반적으로 multiple sequence alignment algorithm 중 하나인 Suffix array 를 사용하는 KO mum algorithm을 이용하여 MUM cluster 후보를 추출한다.


filtering 과정

Cluster가 존재하는 organism을 살펴보면 NA gene이 존재하며 NA gene이 존재 하는 경우 NA gene 양쪽의 KO 사이의 거리(gap) 는 크게 차이 날 수있다. 이러한 경우 cluster 내의 KO 순서가 정확히 같다고 판단하기 어렵기 때문에 KO와 KO 사이의 gap(KO의 끝지점 부터 다음 KO의 시작 지점)을 고려하여 선출된 cluster 후보가 유효한지 판별하는 과정이 필요하다. gap의 정보는 string을 만드는 과정에서 진행 하였다. 전체 유전자의 평균적인 길이인 2000을 1로 하여 gap의 길이를 2000으로 나눈후 반올림하여 0 - 9까지의 정수로 변환 하여 저장 시켜 두었다.
이 과정은 genome sequence로부터 모든 gap 의 정보를 얻고 각 organism 에서 cluster의 위치정보를 추출한다. 그 후 각각 위치에서 Cluster 내 KO의 gap distance 의 확률분포를 계산 하여 threshold(99%)를 구한다(그림2). 그 후 Threshold에 따라 Cluster를 평가 하여 유효한 Cluster 인지 확인 한다.

그림1

Fungi의 genome을 살펴보니 같은 gene이 genome상에서 여러번 반복해서 존재하는 경우가 굉장히 많았고 때문에 한 genome상에서 cluster를 가지는 경우가 있었다. 그래서 cluster의 genome상에서 위치 정보를 추출한 후 organism정보를 얻어 이 정보를 통해 분별해 냈다.

JGI genome 연구 결과

KOG cluster

1.JGI에서 206종의 유전체 서열을 다운로드한 후 KOG로 어노테이션 된 문자열 서열로 변환함 2.전체 유전체 서열의 50퍼센트 이상은 서열의 50% -78% 이상 KOG로 어노테이션 되었음 자료 >>


3.예측된 총 클러스터의 개수는 94240개임 각 유전체의 클러스터 자료 >>

4. 유전자 클러스터의 프로화일 완료 하였으며, 계통도 비교 분석 진행중

자료>>

Interpro

1. JGI에서 Interpro 어노테이션 정보 다운로드

2. 유전체 정보의 커버 정도 확인 및 데이터정보 확인 완료

3. Interpro를 어떻게 사용할 것 인가에 대한 공부중

NCBI genome 연구 결과

cluster database 구축

16종의 fungi 에서 총 3076개의 클러스터를 얻었으며 각 fungi 의 cluster 중 여러 종에 함께 포함된 cluster의 개수는 다음과 같다.


Zygosaccharomyces_rouxii_CBS_732_uid39573 1018


Pichia_stipitis_CBS_6054_uid18881 589


Debaryomyces_hansenii_CBS767_uid12410 604


Candida_dubliniensis_CD36_uid38659 547


Eremothecium_gossypii_uid10623 1055


Lachancea_thermotolerans_CBS_6340_uid39575 1057


Candida_glabrata_CBS138_uid12376 606


Kluyveromyces_lactis_NRRL_Y-1140_uid12377 910


Saccharomyces_cerevisiae_uid128 743


Pichia_pastoris_GS115_uid39439 355


Aspergillus_fumigatus_uid14003 23


Yarrowia_lipolytica_CLIB122_uid12414 149


Candida_albicans_uid14005 23


Schizosaccharomyces_pombe_uid127 15


Cryptococcus_neoformans_var_JEC21_uid10698 3


Encephalitozoon_cuniculi_uid155 3

cluster classification

Cluster classification.jpg

각 클러스터 내의 KO 의 Class 의 일치정도를 확인하여 클러스터 내 유전자의 기능이 서로 어느 정도 유사한지 확인한다. 전체 유전자 중 일치하는 유전자 비율에 따라 cluster를 나누었다. 대부분의 cluster는 3~ 4개의 유전자를 포함 하고 있으며 이 유전자들 중 1개 이상은 NO 인경우가 많으므로 75~ 100% 를 완전하게 일치하는 cluster로 분류 하였고, 50% 이상의 일치도를 보이는 cluster 만을 최소 단위로 인정 하여 이 클러스터의 클래스 분포를 확인 하였다. 클러스터의 클래스 분포를 살펴보니 대부분 cluster는 genetic information processing 과 metabolism이었으며 세부적인 기능을 살펴 본다면 기능적인 관련성을 더 잘 살펴볼 수 있을 것 이다.

계통도 분석

Personal tools
Namespaces
Variants
Actions
Site
Choi lab
Resources
Toolbox