"CUA(Computer-Using Agent)": AI가 디지털 세상과 소통하는 새로운 방법
"디지털 작업 수행 Agent (CUA, Computer-Using Agent)":
AI가 디지털 세계와 상호작용할 수 있는 범용 인터페이스
(A universal interface for AI to interact with the digital world.)
2025.1.23일 OpenAI 발표
우리가 영화에서 보던 장면처럼, 이제 AI가 직접 디지털 작업을 수행할 수 있는 세상이 다가오고 있습니다. 바로 CUA(Computer-Using Agent)라는 혁신적인 기술 덕분입니다.
OpenAI에서 연구 중인 이 기술은 Operator라는 이름의 에이전트를 통해 여러분의 디지털 작업을 대신 수행할 수 있도록 설계되었습니다.
[참고] CUA는 무엇이 특별할까요? 간단히 말하면, 사람처럼 컴퓨터 화면에 보이는 버튼, 메뉴, 텍스트 필드를 조작하며, 우리가 매일 사용하는 그래픽 사용자 인터페이스(GUI)와 상호작용할 수 있다는 점임 기존의 AI는 정해진 API만 사용하거나 제한된 환경에서 작동했지만, CUA는 훨씬 더 자유롭고 유연함 [API와 CUA]
|
CUA 기반 요소
CUA(Computer-Using Agent)는 OpenAI의 연구와 기술 발전을 기반으로 개발된 혁신적인 AI 모델로, 다음과 같은 요소들이 주요 기반이 되었습니다:
(1) GPT-4o 기반의 멀티모달(Multimodal) 기능
- 설명: CUA는 OpenAI의 GPT-4o 모델이 제공하는 강력한 시각적 이해(Vision)와 강화 학습을 통해 강화된 고급 추론 능력(Advanced Reasoning with Reinforcement Learning)을 활용합니다.
이를 통해 텍스트 입력뿐만 아니라 화면의 버튼, 메뉴, 텍스트 필드 등을 시각적으로 인식하고 상호작용하며, 복잡한 작업도 단계적으로 계획하고 해결할 수 있습니다.
(2) 강화 학습(Reinforcement Learning)
- 설명: 강화 학습을 활용해 GUI(그래픽 사용자 인터페이스) 환경에서 작업을 수행하며 스스로 학습하고 개선합니다.
예를 들어, 여러 단계의 작업을 계획하고, 오류가 발생했을 때 이를 동적으로 수정할 수 있는 능력을 갖추고 있습니다.
(3) 그래픽 사용자 인터페이스(GUI) 상호작용 훈련
- 설명: CUA는 OS나 웹 전용 API가 아닌, GUI 자체와 상호작용하는 방식으로 훈련되었습니다.
사람처럼 마우스와 키보드를 사용하여 클릭, 입력, 스크롤 등의 작업을 수행합니다.
(4) 기존 연구 및 벤치마크 활용
- 설명: CUA는 OpenAI의 기존 연구를 바탕으로 OSWorld, WebArena, WebVoyager와 같은 벤치마크를 통해 성능을 평가하며 개발되었습니다.
- OSWorld: 운영체제 환경에서 AI의 작업 능력을 테스트.
- WebArena와 WebVoyager: 웹 브라우징과 실시간 작업 수행 능력을 테스트.
(5) 안전성과 윤리성을 고려한 설계
- 설명: CUA는 안전한 작업 수행을 위해 다음과 같은 기능을 통합했습니다:
- 사용자 확인(User Confirmation): 민감한 작업 전 사용자 확인 절차.
- 차단 목록(Blocklist): 특정 웹사이트 접근 제한.
- 실시간 모니터링 및 감지: 사용 정책 위반 방지 및 잠재적 위험 관리.
CUA는 어떻게 작동하나요?
CUA의 작동 방식은 크게 세 단계로 이루어집니다:
- Perception(인지): 컴퓨터 화면의 스크린샷을 읽어 현재 상태를 파악합니다. 예를 들어, 로그인 화면인지, 주문서인지 등을 알아냅니다.
- Reasoning(추론): 다음에 무엇을 해야 할지 체계적으로 생각합니다. 과거의 스크린샷과 사용자의 명령을 참고해 최적의 작업 단계를 계획합니다.
- Action(행동): 클릭, 스크롤, 타이핑 등의 행동을 통해 사용자가 원하는 작업을 완료합니다. 예를 들어, 온라인 쇼핑몰에서 물건을 장바구니에 담고 결제를 진행하거나, PDF 파일을 다운로드해 저장하는 작업도 가능합니다.
이 과정은 마치 AI가 "사람처럼 생각하고 행동하는" 것을 보는 것과 같습니다. 특히, 로그인이나 CAPTCHA(캡차)를 만나면 사용자 확인을 요청하는 등 민감한 작업에서는 신중하게 행동하도록 설계되었습니다.
CUA의 활용
(1) 브라우저 활용(Browser Use): AI의 웹 탐험
CUA는 웹 브라우저를 통해 다양한 작업을 수행할 수 있습니다.
예를 들어, 사용자가 "브리태니커에서 곰 서식지에 대한 상세 지도를 찾아줘"라고 요청하면, CUA는 브라우저를 열고 해당 정보를 검색합니다.이후, "이제 검은곰, 갈색곰, 북극곰에 대한 링크를 확인하고, 그들의 신체적 특징과 차이점을 간략히 알려줘. 그리고 링크도 저장해줘."라는 추가 요청에 따라, 각 곰의 정보를 수집하고 비교하여 제공하며, 관련 링크를 저장합니다.
이처럼 CUA는 웹사이트의 다양한 UI 요소와 상호작용하여 사용자가 원하는 정보를 찾아주고, 필요한 작업을 수행합니다.
(2) 컴퓨터 활용(Computer Use): AI의 데스크탑 조작
CUA는 웹 브라우저뿐만 아니라 전체 운영 체제에서도 작업을 수행할 수 있습니다.
예를 들어, 사용자가 "PDF 파일들을 하나로 합쳐줘"라고 요청하면, CUA는 운영 체제의 파일 탐색기와 PDF 병합 소프트웨어를 사용하여 여러 PDF 파일을 하나로 결합합니다. 또한, "이미지 파일의 크기를 줄여줘"라는 요청에 따라, 이미지 편집 프로그램을 열고 이미지를 압축하여 저장할 수 있습니다.
이처럼 CUA는 운영 체제의 다양한 애플리케이션과 상호작용하여 복잡한 작업도 자동으로 처리합니다.
(3) Operator에서의 CUA(CUA in Operator): AI 비서의 현실화
OpenAI는 CUA를 기반으로 한 Operator라는 에이전트를 선보였습니다. Operator는 사용자를 대신하여 웹에서 다양한 작업을 수행할 수 있는 AI agent입니다.
예를 들어, 사용자가 "Todoist에 '주말 장보기'라는 프로젝트를 만들고, 다음 쇼핑 목록을 추가해줘: 바나나 6개, 아보카도 2개, 시금치 1봉지..."라고 요청하면, Operator는 Todoist 웹사이트에 접속하여 새로운 프로젝트를 생성하고, 지정된 쇼핑 목록을 추가합니다.또한, "Spotify에서 1990년대 미국에서 인기 있었던 노래 10곡을 찾아 플레이리스트를 만들어줘"라는 요청에 따라, Spotify를 탐색하여 해당 곡들을 찾아 플레이리스트를 생성합니다.
이처럼 Operator는 CUA의 능력을 활용하여 사용자의 다양한 요청을 웹에서 직접 수행합니다.
예: CUA(Computer-Using Agent)가 다양한 UI 컴포넌트와 상호작용하여 작업을 수행하는 능력을 평가. 특정 작업 카테고리와 그에 대한 설명, 성공률, 그리고 관련된 메모를 제시. (https://openai.com/index/computer-using-agent/)
[Interacting with various UI components to accomplish tasks]
- 주요 작업: 다양한 UI 요소(버튼, 링크, 필터 등)와 상호작용하여 사용자가 원하는 작업을 완료.
- 특징: 다양한 웹사이트나 UI 구성 요소의 신뢰성과 안정성이 다를 수 있음.
사례 1: 브리태니커에서 곰 서식지 정보 검색
- 프롬프트:
- 브리태니커에서 곰 서식지 지도를 검색.
- 검은곰, 갈색곰, 북극곰에 대한 링크를 확인하고 신체적 특징을 요약하며, 차이점을 설명. 또한 링크 저장.
- 성공률: 10/10 (모든 시도 성공).
- 특징: CUA는 브라우저 UI와 상호작용하여 정보를 검색하고, 여러 링크를 탐색하며, 사용자 요청에 따라 내용을 요약하고 저장 가능.
사례 2: Target에서 Poppi 프리바이오틱 소다의 할인 검색
- 프롬프트:
- Target에서 Poppi 프리바이오틱 소다의 할인 정보를 검색.
- "수박 맛(12fl oz)"을 선택하고, 관련 딜을 확인하며 제품이 글루텐프리인지 확인.
- 성공률: 9/10 (10번 중 9번 성공).
- 특징: CUA는 쇼핑 웹사이트에서 제품 검색 및 필터링 작업을 수행하며, 사용자가 요청한 세부 정보를 정확히 확인 가능.
사례 3: Redfin에서 시애틀의 타운하우스 검색
- 프롬프트:
- 시애틀에서 최소 3개의 침실, 2개의 욕실을 갖추고 에너지 효율적인(예: 태양광 패널 또는 LEED 인증) 타운하우스를 검색.
- 예산은 $600,000~$800,000 사이로 설정하며, 1500sq ft(약 42평)에 가까운 집을 찾아야 함.
- 성공률: 3/10 (10번 중 3번 성공).
- 특징: 복잡한 검색 조건과 다양한 필터가 포함된 작업으로, CUA가 완전히 성공하지 못함. 이는 Redfin과 같은 복잡한 UI 구조에서 발생할 수 있는 문제를 보여줌.
성능 테스트 결과
CUA는 다양한 테스트 환경에서 다음과 같은 성과를 보였습니다:
- WebVoyager: Amazon, Google Maps 같은 실시간 웹사이트에서 작업 수행 성공률 87%.
- WebArena: 전자상거래 및 콘텐츠 관리 시스템(CMS) 작업 성공률 58.1%.
- OSWorld: Windows, macOS 등 운영 체제 작업 성공률 38.1%.
이 테스트 결과는 CUA가 얼마나 다양한 환경에서 유용하게 작동할 수 있는지를 보여줍니다. 특히, 복잡한 웹사이트 탐색과 다단계 작업에서도 점점 개선되고 있습니다.
안전성도 놓치지 않는다
CUA는 단순히 작업만 잘하는 AI가 아닙니다. 다음과 같은 위험에 대하여 안전성(Safety)도 철저히 고려했습니다.
- 오용 방지: 불법적인 작업(도박, 무기 거래 등)은 거부하고, 차단된 웹사이트에 접근하지 않습니다. (Refuslas, Blocklist, Moderation, Offline detection)
- Model 실수: 이메일 발송, 결제 등 민감한 작업은 사용자에게 확인을 요청 등 위험관리. (User confirmation, Limitations on tasks, Watch mode)
- 적대적 공격 방어(adversarial attacks on websites): 프롬프트 인젝션(prompt injection) 같은 공격을 식별하고 무시합니다. (Cautious navigarion, Monitoring, Detection pipeline)
OpenAI는 이러한 다층적 보호 장치를 통해 CUA가 사용자의 신뢰를 잃지 않도록 설계하도록 노력하고 있습니다.
미래를 향한 도전
CUA의 궁극적인 목표는 인간처럼 디지털 환경에서 어떤 작업이든 수행할 수 있는 능력을 가지는 것입니다. 이를 위해 OpenAI는 계속해서 CUA를 발전시키고, API를 통해 개발자들이 자신만의 CUA 기반 에이전트를 만들 수 있도록 지원할 계획입니다.
결론
CUA는 AI가 단순히 정보를 제공하는 것을 넘어, 디지털 작업을 실제로 수행하는 새로운 시대를 열고 있습니다. 우리가 매일 사용하는 웹사이트, 소프트웨어, 운영 체제를 자유롭게 탐색하며 우리를 대신해 일을 처리하는 AI, 이것이 바로 CUA의 비전이라고 합니다.
이제 AI와 함께 일하는 것이 아니라, AI가 직접 우리의 일을 대신하는 세상에 더 가까워지고 있습니다. CUA의 진화와 함께 우리는 디지털 작업의 새로운 지평을 열어가고 있습니다.
💡 더 알고 싶으신가요? Operator와 CUA의 구체적인 활용 사례와 추가 정보를 보려면 OpenAI 공식 페이지를 방문해 보세요: OpenAI - Computer-Using Agent.
인용 출처: https://openai.com/index/computer-using-agent/
- 인용하여 정리
'AI & Business (인공지능과 경영) > OpenAI' 카테고리의 다른 글
[AI 친해지기] 🔍OpenAI o3 발표 - o3와 ARC를 통해 본 AI 진화 시사점 (0) | 2024.12.24 |
---|---|
[AI 친해지기] 🔍 OpenAI o1 🤖을 만나보세요. (1) 복잡한 문제 해결위한 🍓모델! (0) | 2024.09.13 |