웹 브라우저를 스스로 조작하는 AI 에이전트 기술이 차세대 인공지능 산업의 핵심 전장으로 떠오르고 있다. 아마존, 앤트로픽, 오픈AI 등 글로벌 AI 기업들이 앞다퉈 브라우저 자동화 기술을 발표하며 기술 경쟁이 본격화되고 있다. 복잡한 양식 작성부터 온라인 주문, 데이터 추출까지 가능한 ‘브라우저 조작형 AI’는 인간의 디지털 노동을 획기적으로 줄일 것으로 기대된다.
아마존, ‘노바 액트’로 시장 선점 노려
아마존은 지난 3월 31일 자사의 범용 인공지능(Amazon AGI) 연구를 통해 ‘노바 액트(Nova Act)’를 프리뷰 형태로 공개했다. 노바 액트는 웹 브라우저에서 버튼 클릭, 입력 폼 작성, 데이터 추출 등 다양한 작업을 자동으로 처리할 수 있는 AI 기반 도구다.
개발자들은 노바 액트 SDK를 통해 자연어 명령어와 코드 명령을 혼합한 자동화 시나리오를 구축할 수 있으며, 이 시스템은 복잡한 웹 작업을 작고 신뢰성 있는 단계로 분해해 실행하는 하이브리드 접근 방식을 채택했다. API 호출과 직접적인 브라우저 제어를 병행함으로써 유지보수성과 재현성이 뛰어난 워크플로우 구축이 가능하다.
앤트로픽, ‘컴퓨터 유즈’로 인간 수준 조작 구현
AI 스타트업 앤트로픽은 자사의 최신 모델 ‘클로드 3.7 소넷(Claude 3.7 Sonnet)’을 기반으로 ‘컴퓨터 유즈(Computer Use)’ 기능을 베타 버전으로 제공 중이다. 해당 기술은 AI가 사람처럼 마우스를 움직이고 키보드를 눌러 컴퓨터를 조작하는 고급 기능이다.
사용자는 텍스트 명령과 함께 화면 스크린샷을 제공하면, AI는 클릭, 스크롤, 대기, 키 입력 등 일련의 컴퓨터 사용 행위를 자동으로 수행한다. 이 기술은 명령 해석, 실행, 피드백 및 적응이라는 세 단계를 거쳐 보다 정밀한 조작을 가능하게 한다.
오픈AI, ‘오퍼레이터’로 실생활 자동화 시도
오픈AI는 지난 1월 23일 ‘오퍼레이터(Operator)’라는 이름의 AI 에이전트를 처음 선보였다. 오퍼레이터는 양식 작성, 쇼핑 주문, 밈 제작 등 반복적인 브라우저 작업을 자동화할 수 있다.
GPT-4o 모델을 기반으로 한 오퍼레이터는 시각 인식과 강화학습을 활용해 웹 화면 내 버튼, 메뉴, 입력창과 직접 상호작용하며, 일상적인 웹 기반 작업을 대신 수행한다. 오픈AI CEO 샘 알트만은 “AI 에이전트가 사용자 경험의 중심이 될 것”이라고 말하며, 에이전트 중심 기술이 향후 주류가 될 것임을 강조했다.
기술적 의의와 한계
브라우저 제어형 AI 기술은 단순한 자동화를 넘어, 컴퓨터 활용 능력이 부족한 사용자나 시각 장애인을 위한 ‘디지털 조력자’ 역할까지 기대되고 있다. 특히 음성 명령과의 통합을 통해 접근성이 한층 향상될 수 있다.
그러나 아직 기술적 한계도 존재한다. 오픈AI의 오퍼레이터는 벤치마크 테스트에서 WebArena 58.1%, OSWorld 38.1% 수준의 성공률을 기록하며 인간 수준의 정밀성과는 거리가 있다. 복잡한 사용자 인터페이스나 비표준 웹사이트에 대한 적응력도 과제로 지적된다.
미래 전망… ‘AI가 웹을 다룬다’는 새로운 표준 도래
전문가들은 AI가 브라우저를 직접 조작하는 기술이 향후 사무 자동화, 고객 지원, 온라인 정보 관리 등 다양한 분야로 확장될 것이라 보고 있다. 사용자는 반복적이고 피로한 웹 작업에서 해방되고, 보다 창의적이고 가치 있는 일에 집중할 수 있는 시대가 도래하고 있다.
AI 에이전트 기반 웹 자동화 기술은 이제 막 첫걸음을 뗐지만, 머지않아 일상적인 업무 환경의 표준 도구로 자리잡을 전망이다.
