인간의 유전체 염기서열이 해독된 지 어언 15년이 지났는데도, 연구자들은 '거기에 전부 몇 개의 유전자가 들어있는지'에 대해 의견일치를 보지 못하고 있다.

인간 유전체에 들어있는 유전자의 수를 처음 추정했던 사람들 중에는, 콜드스프링하버의 술집에서 술잔을 기울이던 유전학자들이 포함되어 있었다. 그건 순전히 짐작이었다.

그때는 서기 2000년, 인간유전체 염기서열이 초안이 한참 작성되고 있던 때였다. 거나하게 취한 유전학자들은 '인간은 얼마나 많은 유전자를 갖고 있는지'에 대해 내기를 걸고 있었다. 그들이 내세운 수치는 수만 개에서부터 수십만 개에 이르기까지 다양했다. 그로부터 거의 20년이 지난 지금, 실질적인 데이터로 무장된 과학자들은 여전히 의견일치를 보지 못하고 있다. 이것은 중요한 지식의 갭(gap)으로, 질병과 관련된 돌연변이를 찾아내는 데 장애물로 작용하고 있다.

지식의 갭을 메우려는 최근의 시도는 수백 개의 인간 조직 샘플에서 나온 데이터를 이용했으며, 관련 논문은 5월 29일 《BioRxiv》라는 출판전 서버에 업로드 되었다(참고 1). 그 논문에서는 지금껏 발견되지 않았던 약 5,000개의 유전자들을 기술했는데, 그중에는 단백질 생성에 관한 지시사항이 담겨있는 유전자 약 1,200개가 포함되어 있다. 그리고 저자들이 제시한 21,000여 개의 '단백질 코딩 유전자'는 종전의 추정치인 약 20,000개를 훌쩍 뛰어넘는다.

그러나 많은 유전학자들은 새로 제안된 유전자들이 정밀조사를 견뎌낼 수 있을 거라 확신하지 못하고 있다. 그들의 비판은 '새로운 유전자를 확인하는 것', 심지어 '유전자라는 게 뭔지에 대한 개념정의'가 얼마나 어려운지를 여실히 보여준다.

"사람들은 지난 20년간 그 문제를 골똘히 생각해 왔지만, 여전히 해답을 얻지 못했다"라고 이번 연구를 지휘한 존스 홉킨스 대학교의 스티븐 샐즈버그(계산생물학)는 말했다.

예측의 어려움

유전체 학계가 '얼마나 많은 유전자가 발견될 것인가'라는 문제를 놓고 시끌벅적하던 2000년, 이완 버니는 「유전자 수 알아맞히기(GeneSweep)」 콘테스트를 개최했다. 현재 영국 힝스턴 소재 유럽생물정보학연구소(EBI: European Bioinformatics Institute)의 부소장으로 있는 버니는 유전학회 연례회의 기간 중 한 술집에서 응모자들의 신청서를 처음 접수했는데, 최종적으로 1,000여 명의 사람들이 미화 3,000달러의 판돈을 걸었다. 참가자들이 예상치는 26,000개 미만에서 312,000개 이상까지 다양했으며, 평균은 40,000개였다(참고 2). 오늘날에는 추정치의 범위가 19,000~22,000개로 크게 줄었지만, 여전히 의견다툼이 존재한다.

【참고】 점점 줄어드는 차이 

과학자들은 '단백질을 만드는 유전자'의 개수에 대해 아직도 의견일치를 보지 못하고 있다. 그러나 그들의 추정치 범위는 최근 몇 년 동안 많이 좁아졌다. 
① 인간지놈프로젝트 출범 
② 인간유전체 초안 발표 
③ 완벽한 유전체 정밀분석 
④ 2018. 6. 19: 단백질 코딩 유전자의 개수는 21,306개

유전자 개수는 '분석된 데이터', '사용된 도구', '위양성을 솎아내는 기준'에 따라 달라질 수 있다. 이번에 제시된 추정치는 기존의 추정치보다 규모가 큰 데이터와 상이한 계산방법을 사용했으며, 광범위한 유전자 정의(定義) 기준을 적용했다.

샐즈버그가 이끄는 연구진은 「유전자형-조직발현(GTEx: Genotype-Tissue Expression)」이라는 프로젝트의 데이터를 사용했는데, GTEx란 수백 구의 시신에서 채취된 30여 가지 상이한 조직들의 RNA를 시퀀싱한 프로젝트를 말한다(참고 3). RNA는 DNA와 단백질의 매개체다. 연구자들은 '특정 단백질을 코딩하는 유전자'와 '단백질을 코딩하지 않지만 세포 내에서 중요한 역할을 수행하는 유전자'를 찾아내고 싶었다. 그래서 그들은 GTEx에서 9,000억 개의 미세한 RNA 조각을 수집하여, 인간의 유전체와 나란히 배열했다.

그러나 어떤 DNA 신장부(stretch)가 RNA로 발현되었다고 해서 그게 곧 유전자라고 말할 수는 없다. 그래서 연구팀은 다양한 기준들을 이용하여 잡음을 걸러내려고 시도했다. 예컨대, 그들은 자신들의 결과를 다른 종(種)의 유전체와 비교하여, "유연관계가 먼 생물들과 공유하는 시퀀스는 아마도 유용하기 때문에 진화에 의해 보존되었을 테니 유전자일 가능성이 높다"고 추론했다.

그리하여 연구진은 21,306개의 '단백질 코딩 유전자'와 21,856개의 '비코딩 유전자'를 얻었는데, 이는 가장 광범위하게 사용되는 인간 유전자 데이터베이스에 포함된 것보다 훨씬 더 많다. 예컨대 EBI가 관리하는 GENCODE라는 유전자 세트에는 19,901개의 단백질 코딩 유전자와 15,779개의 비코딩 유전자가 포함되어 있다. 그리고 미국 국립 생물정보센터(NCBI: US National Center for Biotechnology Information)가 운영하는 RefSeq라는 데이터베이스에는 20,203개의 단백질 코딩 유잔자와 17,871개의 비코딩 유전자가 수록되어 있다.

"세 가지 분류의 차이는 아마도 부분적으로 샐즈버그 팀이 분석한 데이터의 분량에 기인하는 것으로 보인다"라고 RefSeq의 팀장을 역임한 NCBI의 유전체 연구자 킴 프루이트는 말했다. 그런데 중요한 차이가 또 하나 있다. GENCODE와 RefSeq는 모두 수동식 큐레이션(manual curation: 개별 유전자에 대한 증거를 사람이 평가하여 최종 결정을 내림)에 의존한 데 반해, 샐즈버그 팀은 전적으로 컴퓨터 프로그램에 의존하여 데이터를 걸러냈다.

"만약 사람들이 우리의 유전자 목록을 선호한다면, 앞으로 2년 후 우리가 인간 유전자의 결정권자(arbiter)가 될 것이다"라고 샐즈버그는 말했다.

집계의 까다로움

그러나 많은 과학자들에 따르면, 목록의 정확성을 납득하려면 좀 더 많은 증거가 필요하다고 한다. "우리는 샐즈버그 팀이 확인한 약 100개의 단백질 코딩 유전자를 검토해 봤는데, 그중에서 겨우 하나가 진정한 단백질 코딩 유전자인 것으로 밝혀졌다"라고 EBI에서 GENCODE의 수동식 주석달기를 총지휘하는 애덤 프랭키시(계산생물학)는 말했다.

또한 프루이트 팀은 샐즈버그 팀이 발견한 새로운 단백질 코딩 유전자 10여 개를 검토해 봤는데, RefSeq의 기준을 충족하는 것을 단 하나도 찾아내지 못했다고 한다. 어떤 것들은 조상의 유전체에 침입한 레트로바이러스에 속하는 부분과 겹치고, 어떤 것들은 (단백질로 거의 번역되지 않는) 반복적 신장부에 속하는 것으로 나타났다는 것이다.

물론 샐즈버그도 이번에 발견된 새로운 유전들이 다른 팀의 검증을 받아야 한다는 점을 인정한다. 그러나 샐즈버그에 의하면, 일부 반복적 시퀀스는 유전자로 간주될 수 있다고 한다. 일례로 RefSeq에 등장하는 ERV3-1은 대장암에 과잉 발현되는 단백질을 코딩한다고 한다.

'데이터 분량'과 '큐레이션 방법' 외에, 유전자 집계의 또 다른 교란요인으로는 '유전자 정의의 부정확성(애매모호함)과 가변성'을 들 수 있다. 생물학자들은 지금껏 유전자를 '단백질을 코딩하는 시퀀스'로 간주해 왔지만, 오늘날 '일부 비 코딩 RNA 분자들이 세포에서 중요한 역할을 수행한다'는 사실이 분명해졌다. 어떤 것이 중요한지(그리고 어떤 것을 유전자로 간주해야 할지)를 판단하는 기준에는 논란의 여지가 있지만, 샐즈버그 팀과 다른 팀들 간의 불일치 중 일부는 중요성의 판단기준 차이에 기인한다고 볼 수 있다.

"몇 가지 문제점에도 불구하고, 샐즈버그 팀이 발견한 유전자 중 일부는 타당성을 인정받을 것이다"라고 GTEx 프로젝트의 공동의장인 스위스 제네바 대학교의 에마누일 데르미자키스(유전학) 는 말했다. "GTEx 데이터 세트의 엄청난 규모를 감안할 때, 샐즈버그 팀이 기존의 집계보다 단백질 코딩 유전자의 수를 5% 더 많이 잡은 것은 별로 놀랍지 않다"라고 그는 덧붙였다.

"인간의 유전자를 정확히 집계하는 것은, 유전자와 질병 간의 관련성을 밝히는 데 매우 중요하다. 왜냐하면, 집계되지 않은 유전자는 질병을 초래하는 돌연변이를 포함하고 있는 경우에도 종종 무시되기 때문이다"라고 샐즈버그는 말한다. 그러나 유전자를 섣불리 목록에 추가하는 것은 위험하다. "유전자가 부정확한 것으로 밝혀질 경우, 유전학자의 주의(注意)를 엉뚱한 곳으로 분산시킬 수 있다"라고 프랭키시는 말한다.

어느 정도의 다양성이 불가피하더라도, 유전자의 개수가 데이터베이스마다 다른 것은 연구자들에게 큰 문제가 아닐 수 없다. "사람들은 하나의 답변을 원하지만, 생물학은 복잡한 학문이다"라고 프루이트는 말했다.

※ 참고문헌
1. Pertea, M. et al. Preprint at BioRxiv (2018); https://doi.org/10.1101/332825
2. https://www.nature.com/news/2003/030602/full/news030602-3.html
3. https://www.nature.com/news/gene-expression-study-raises-thorny-ethical-issues-1.22800

※ 출처: Nature 558, 354-355 (2018) https://www.nature.com/articles/d41586-018-05462-w

양병찬(약사, 번역가), 서울대학교 경영학과와 동대학원을 졸업하고, 은행, 증권사, 대기업 기획조정실 등에서 일하다가, 진로를 바꿔 중앙대학교 약학대학을 졸업하고 약사면허를 취득한 이색경력의 소유자다. 현재 서울 구로구에서 거주하며 낮에는 약사로, 밤에는 전문 번역가와 과학 리포터로 활발하게 활동하고 있다. 풍부한 인생경험을 살려 의약학, 생명과학, 경영경제, 스포츠, 소설에 이르기까지 다양한 분야의 서적들을 번역 출간했다. 매주 Nature와 Science에 실리는 특집기사 중에서 바이오와 의약학에 관한 것들을 엄선하여 실시간으로 번역 소개한다.
저작권자 © 본헤럴드 무단전재 및 재배포 금지