AI 성능의 새로운 발견: 일정 비율로 줄어드는 성공률
인공지능(AI)이 수행할 수 있는 과제의 난이도는 점점 높아지고 있지만, AI가 긴 시간 동안 꾸준히 성공할 확률은 일정한 비율로 떨어진다는 새로운 연구 결과가 발표돼 관심을 끌고 있다.
최근 영국의 철학자이자 AI 연구자인 토비 오드(Toby Ord)는 METR 연구기관의 데이터를 분석하여, AI가 긴 시간 소요되는 과제를 해결할 확률이 일정한 비율로 감소한다는 사실을 발견했다. 이는 마치 방사성 원소가 일정 시간마다 절반으로 줄어드는 '반감기'처럼 AI 성능도 특정 시점마다 반으로 줄어든다는 개념이다.
이 발견은 AI 발전을 측정하는 새로운 방법을 제시하며, 최첨단 시스템조차 긴 작업에서 왜 어려움을 겪는지 보여준다.
AI 성공률을 설명하는 간단한 모델
오드의 분석은 METR의 최근 연구를 기반으로 한다. METR은 AI 에이전트를 170개의 작업(코딩, 문제 해결, 머신러닝 과제 등)으로 테스트했으며, 이는 실제 AI 연구 작업을 모방한 것이다. 작업 시간은 인간이 해당 작업을 완료하는 데 걸리는 시간을 기준으로 다양했다. 연구 결과, 작업 시간이 길어질수록 AI 에이전트의 성공률은 방사성 동위원소가 붕괴하듯 지수적으로 감소했다.
이 지수적 감소는 작업 시간이 늘어날 때마다 AI가 실수할 가능성이 일정하다는 것을 의미한다. 예를 들어, AI가 60분 작업에서 50% 성공률을 보인다면, 120분 작업에서는 25%로 떨어질 수 있다. 오드는 이를 “반감기”에 비유하며, AI의 성공률이 50%로 떨어지는 시간을 그 에이전트의 능력을 정의하는 척도로 본다. 최고 성능의 AI 모델인 클로드 3.7 소넷(Claude 3.7 Sonnet)의 경우, 50% 성공률 반감기는 약 59분이지만, 80% 성공률이 요구되면 15분으로 줄어든다. 즉, 성공률이 높아질수록 AI가 장시간 과제를 성공적으로 완수할 확률은 급격히 떨어진다는 의미다.
긴 작업이 어려운 이유
AI 에이전트가 긴 작업에서 어려움을 겪는 이유는 무엇일까? 오드는 복잡한 작업을 장애물 코스에 비유한다. 작업은 여러 하위 작업으로 구성되며, 하나라도 실패하면 전체 작업이 실패한다. 작업 시간이 길어질수록 실수할 기회가 많아진다. 인간은 종종 실수를 되돌아 수정할 수 있지만, 현재 AI 에이전트는 오류 복구에 능숙하지 않아 긴 작업이 특히 어렵다.
이 모델은 또한 왜 50%가 아닌 99% 같은 높은 성공률을 요구하면 AI가 처리할 수 있는 작업 시간이 급격히 줄어드는지를 설명한다. 클로드 3.7 소넷의 경우, 50% 성공률로 59분 작업을 처리할 수 있지만, 99% 성공률을 위해서는 1분 작업만 가능하다. 이는 AI가 짧은 작업은 안정적으로 처리할 수 있지만, 긴 작업에서는 완벽에 가까운 성능을 요구받아 현재 시스템이 한계에 부딪힌다는 점을 보여준다.
AI 발전은 빠르지만 한계도 뚜렷
METR 연구는 놀라운 트렌드를 발견했다. 7개월마다 AI 에이전트가 처리할 수 있는 작업 시간이 두 배로 늘어난다. 예를 들어, 오늘 30분 작업을 50% 성공률로 처리할 수 있다면, 7개월 후에는 60분 작업을 같은 50% 성공률로 처리할 수 있다. 이는 AI가 빠르게 발전하고 있음을 보여주지만, 긴 작업의 성공률이 지수적으로 감소하기 때문에 높은 신뢰도가 필요한 작업(예: 중요 시스템)에서는 아직 갈 길이 멀다.
흥미롭게도, 인간은 AI와 같은 패턴을 따르지 않았다. AI의 성공률은 급격히 떨어지지만, 인간은 모델이 예측한 것보다 긴 작업에서 더 높은 성공률을 유지했다. 이는 인간이 실수를 수정하거나 작업이 인간의 강점에 맞았기 때문일 수 있다. 오드는 이 차이를 탐구할 가치가 있다고 보며, 이를 통해 AI를 더 탄력적으로 만들 방법을 찾을 수 있을 것이라고 전했다.
미래에 미치는 영향
“반감기” 모델은 연구자들에게 AI 성능을 예측할 새로운 도구를 제공한다. AI의 반감기를 알면 다양한 작업 시간에서의 성능이나 더 높은 성공률을 달성하는 데 필요한 시간을 추정할 수 있다. 예를 들어, 현재 60분 작업을 50% 성공률로 처리하는 AI는, 현재 추세가 지속된다면 약 4년 후 같은 작업을 99% 성공률로 처리할 수 있을 것이다.
그러나 이 결과에는 한계가 있다. 테스트된 작업은 자동으로 점수가 매겨지고, 다른 에이전트와의 상호작용이 없는 특정 작업이었다. 협업 프로젝트나 직관적 추론이 필요한 실제 시나리오에서는 AI 성능이 다를 수 있다. 인간이 여전히 뛰어난 영역도 있다. 오드와 METR은 이 패턴이 다양한 작업 유형에 적용되는지 더 많은 연구가 필요하다고 강조했다.
더 똑똑한 AI로의 발걸음
이 연구는 AI의 현재 위치와 미래 방향을 더 명확히 보여준다. AI 성능을 반감기로 표현함으로써 연구자들은 그 한계를 이해하고, 더 길고 복잡한 작업을 안정적으로 처리하는 시스템 개발에 집중할 수 있다. 현재 AI는 짧은 작업에서 강력한 도구지만, 마라톤 같은 긴 작업에서 믿을 만한 파트너가 되려면 시간이 흐를수록 흔들리는 경향을 극복해야 한다.
