전세계의 데이터를 모두 한 방(房)에 보관한다.

▶ 인류는 데이터 저장에 골머리를 앓고 있다. 우리가 지난 2년 동안 생성한 데이터가 그 이전에 생성한 데이터를 다 합친 것보다 많기 때문이다. 그리고 이 같은 정보의 홍수는 하드 드라이브의 저장능력을 초과할 것이다.

이제 과학자들은 새로운 데이터 저장방법을 고안해냈다고 밝혔다. 그것은 디지털 데이터를 DNA에 코딩하는 방식으로, 밀도와 용량 면에서 지금껏 개발된 방식들을 능가한다고 한다. 이론적으로, 이 방식은 DNA 1그램에 215 페타바이트(215 백만 기가바이트)를 저장하는데, 인간이 지금껏 기록한 데이터들을 하나도 빠짐없이 픽업트럭 두 대만 한 용기(container)에 보관할 수 있다고 한다. 단, 이 기술의 실용화 여부는 비용에 달렸다.

DNA는 디지털 데이터를 저장하는 데 많은 이점을 갖고 있다. 그것은 초고밀도를 자랑하며, 저온건조한 장소에 보관한다면 수십만 년을 버틸 수 있다. 인류사회가 DNA를 쓰고 읽는 한, DNA를 해독하는 것은 가능하다.

"카세트테이프나 CD와 달리, DNA는 시간이 경과해도 붕괴되지 않는다. 그리고 다른 고밀도 저장방식(예: 개별 원자들을 표면에서 조작함)과 달리, DNA를 이용한 기술은 다량의 DNA를 한번에 쓰고 읽을 수 있으므로, 규모확대가 가능하다는 이점이 있다"라고 컬럼비아 대학교의 야니브 엘리히 박사(컴퓨터과학) 는 말한다.

과학자들은 2012년 이후 디지털 데이터를 DNA에 저장해 왔다. 그 당시 하버드 대학교 유전학자 조지 처치와 스리 코수리를 비롯한 연구팀은 DNA의 네 글자(A, G, T, C)를 이용하여 디지털 파일의 0과 1을 코딩함으로써, 52,000단어가 수록된 책을 수천 개의 DNA 조각에 기록했다.

그러나 그들의 '특별한 코딩방식'은 효율이 비교적 낮아서, DNA 1그램당 1.28페타바이트밖에 저장할 수 없었다. 다른 방식들은 효율이 좀 더 향상되었지만, DNA가 실제로 처리할 수 있는 용량인 '뉴클레오타이드 하나당 약 1.8비트'의 절반을 넘지 못했다. (참고로 이 숫자가 '2비트'가 아닌 이유는, 드물지만 불가피한 'DNA의 쓰기 및 읽기 오류' 때문이다.)

1. (왼쪽) 알고리즘의 주요 3단계    2. (오른쪽) 32비트짜리 작은 파일의 사례: 32비트 짜리 파일을 4비트짜리 세그먼트 8개로 분할했다(8 x 4 = 32). 태그는 편의상 2비트짜리 숫자로 표시되었으며, 단지 보여주기 위한 것이다.

▶ 엘리히는 이론적 한계에 좀 더 가까이 다가갈 수 있으리라 생각했다. 그래서 뉴욕 지놈센터의 디나 지엘린스키와 함께 데이터를 부호화·해독하는 데 사용되던 알고리즘을 분석했다.

그들은 6개의 파일을 갖고서 시작했는데, 그중에는 완전한 컴퓨터 운영체제(Kolibri), 컴퓨터 바이러스(zipbomb), 1895년에 상영된 프랑스 영화 「시오타역에 도착하는 기차」, 1948년 정보이론가 클로드 섀넌이 발표한 논문이 포함되어 있었다.

그들은 먼저 이 파일들을 1과 0으로 이루어진 이진 문자열(binary string)로 전환하고, 하나의 마스터파일로 압축한 다음, 그 데이터를 짧은 이진 문자열들로 쪼갰다. 그들은 「DNA 분수(DNA fountain)」라는 알고리즘을 개발했는데, 이 알고리즘은 짧은 이진 문자열들을 소위 「비말(droplet)」 속에 임의로 포장하고, 나중에 적절한 순서로 재조립할 수 있도록 태그를 추가했다. 그리하여, 그들은 72,000개의 DNA 가닥이 수록된 디지털목록을 완성했는데, 모든 DNA 가닥들은 200개의 염기로 이루어졌다(첨부그림 참조).

그들은 이 목록을 텍스트파일 형태로 트위스트 바이오사이언스(Twist Bioscience: 캘리포니아 주에 있는 신생 바이오업체)에 전송하고, DNA 가닥을 합성해달라고 의뢰했다. 그로부터 2주일 후, 엘리히와 지엘린스키는 소포를 하나 받았는데, 그 속에는 바이알이 하나 들어 있었다. 그 바이알에는 그들이 보낸 텍스트 파일이 코딩된 DNA 입자가 담겨 있었다.

이제는 현대적인 DNA 시퀀싱기술을 이용하여 DNA를 해독할 차례였다. 그들은 DNA 시퀀스들을 컴퓨터에 입력하여, 유전자 코드를 다시 이진문자열로 번역했다. 그리고 태그를 이용하여 여섯 개의 오리지널 파일을 재조립했다. 이상(以上)의 접근방법은 매우 잘 작동하여, 복원된 파일에는 오류가 전혀 포함되어 있지 않았다.

두 사람은 작업내용을 정리하여, 3월 3일자 《Science》에 기고했다. 또한 두 사람은 표준 DNA 복제기술인 PCR(polymerase chain reaction)을 이용하여, 원본파일을 (오류 없이) 사실상 무제한으로 복제할 수 있었다. 더욱이 엘리히에 의하면, 그들은 뉴클레오타이드 하나당 1.6비트의 데이터를 코딩할 수 있었는데, 이는 이론적 한계의 85%에 해당되며 종전의 효율을 60% 향상시킨 것이다.

양병찬(약사, 번역가), 서울대학교 경영학과와 동대학원을 졸업하고, 은행, 증권사, 대기업 기획조정실 등에서 일하다가, 진로를 바꿔 중앙대학교 약학대학을 졸업하고 약사면허를 취득한 이색경력의 소유자다. 현재 서울 구로구에서 거주하며 낮에는 약사로, 밤에는 전문 번역가와 과학 리포터로 활발하게 활동하고 있다. 풍부한 인생경험을 살려 의약학, 생명과학, 경영경제, 스포츠, 소설에 이르기까지 다양한 분야의 서적들을 번역 출간했다. 매주 Nature와 Science에 실리는 특집기사 중에서 바이오와 의약학에 관한 것들을 엄선하여 실시간으로 번역 소개한다.
저작권자 © 본헤럴드 무단전재 및 재배포 금지