대화로 이미지 만드는 시대가 시작됐다!

"한글"도 이미지에서 완벽 재현! 

 

이글은 최근 더 진보된 GPT 4o의 이미지 생성의 기능을 중점으로 봅니다. 예를 들어 최근 유행하는 '지브리풍 그림'도 아래 기능의 극히 한가지 사례로 아래 사례를 하시면서 단순히 '지브리풍'으로 요청하면 됩니다. 특히 아래의 (5) 사용자 이미지 기반 생성 방법입니다. 사실 지브리풍은 그저 하나의 사례일 뿐 더 큰 변화와 발전이 있어 저는 만족하게 더 많이 사용할 것 같습니다.


✅ 개요: "언어 모델이 그림도 그린다고?"

OpenAI는 오랫동안 이미지 생성이 언어 모델의 핵심 능력 중 하나라고 강조해왔습니다. 그리고 2025년 3월, 드디어 그 철학이 현실화되었습니다.

GPT-4o는 단순한 텍스트 생성기를 넘어, 음성, 이미지, 텍스트를 모두 이해하고 만들어내는 진정한 ‘Omni-modal AI’로 진화했습니다.

그 중심에는 바로 여기에서 소개할 “4o 이미지 생성 기능”이 있습니다.

“이제는 그냥 설명만 하면, 그림이 그려집니다.”
그것도 실제 같은 고해상도 이미지부터, 만화, 메뉴판, 간판까지 모두 포함해서요.


🧠 GPT-4o 이미지 생성의 주요 특징

GPT-4o의 이미지 생성은 이전 세대인 DALL·E 3에 비해 확연히 발전했습니다. 단순히 보기 좋은 그림이 아니라, 실제로 사용할 수 있는 이미지를 생성합니다.

기능 설명
정확한 텍스트 표현 표지판, 메뉴, 초대장 등 텍스트 중심 이미지도 깨끗하게 구현
포토리얼리즘 실제 사진처럼 사실적인 질감과 구도 생성
대화형 수정 가능 “배경을 밤으로 바꿔줘”, “조금 더 귀엽게” 같은 수정이 자연어로 가능
다중 객체 생성 10~20개의 서로 다른 요소를 논리적으로 조합해 표현 가능
사용자 이미지 기반 생성 업로드한 이미지를 분석해 변형하거나 영감을 받아 재창작
지식과 이미지 통합 “뉴턴의 프리즘 실험 다이어그램 그려줘”처럼 배경지식 기반 이미지 생성 가능

🖼️ 주요 기능별 대표 시연 사례 모음

GPT-4o 이미지 생성 기능의 강점을 실감할 수 있도록, 각 기능별로 대표적인 시연 프롬프트와 기대 포인트를 정리했습니다.

✅ ① 정확한 텍스트 표현

🟡 기능 설명: 표지판, 메뉴, 초대장 등 텍스트 중심 이미지도 깨끗하게 구현

 

🎨 프롬프트 예시:

“뉴욕 브루클린 거리의 표지판에 ‘Broom Parking for Witches Not Permitted in Zone C’와 ‘Magic Carpet Loading Only (15 minutes)’ 등 재미있는 문구가 적혀 있고, 두 마녀가 간판을 바라보는 장면. 현실적인 거리 사진 스타일로 그려줘.”

 

✨ 기대 포인트:

  • 복잡한 텍스트가 표지판에 제대로 표현되는지
  • 오탈자 없이 균형 있게 배치되는지
  • 인물/배경/텍스트 간 구도 조화

🪧 [실전 예시] 간판 속 텍스트도 정확하게 들어갈까?
📷 마녀들이 바라보는 뉴욕 거리 표지판 이미지

 

 

🎨 (추가) 한글 프롬프트:

"뉴욕 브루클린의 거리 풍경.

가로등 기둥에 다음과 같은 재미있는 표지판이 붙어 있다:

• ‘마녀 빗자루 주차 금지 – C구역 제한’

• ‘마법 양탄자 하차 전용 (15분 제한)’

그 앞에서 두 마녀가 표지판을 바라보고 있는 장면.

현실적인 거리 사진 스타일로, 표지판의 글씨가 또렷하게 보이도록 그려줘."

 

📷 (추가: 표지판이 한글인 경우) 마녀들이 바라보는 뉴욕 거리 "한글" 표지판 이미지

 


✅ ② 포토리얼리즘

🟡 기능 설명: 실제 사진처럼 사실적인 질감과 구도 생성

 

🎨 프롬프트 예시:

“햇살이 비치는 창가의 카페.
나무 테이블 위에 커피 한 잔과 열린 노트북, 작은 화분이 놓여 있음.
벽에는 따뜻한 조명이 켜져 있고, 조용한 분위기.
DSLR 스타일의 고화질 포토리얼 사진으로 그려줘.”

 

 기대 포인트:

  • 포토카메라 질감, 아웃포커스, 고급스러운 조명
  • 테이블과 주변 소품들의 세밀한 표현력
  • 현실적이고 따뜻한 분위기, 자연스러운 색감

📸 [실전 예시] 진짜 사진처럼 보일까? – 카페 속 한 장면
📷 햇살이 비치는 창가의 카페 이미지


✅ ③ 대화형 수정 가능

🟡 기능 설명: "배경을 밤으로 바꿔줘", "조금 더 귀엽게" 같은 수정이 자연어로 가능

 

🎨 프롬프트 흐름 예시:

1️⃣ "따뜻한 햇살이 비치는 창가에서 책을 읽는 고양이의 그림을 그려줘. 스타일은 수채화처럼 부드럽게 해줘."
2️⃣ "고양이에게 둥근 안경을 씌워줘."
3️⃣ "창밖 배경을 밤하늘로 바꿔줘. 별이 반짝이게 표현해줘."
4️⃣ "고양이가 미소 짓게 해줘. 눈도 살짝 감긴 느낌으로 부탁해."
5️⃣ "이 이미지를 일본 애니메이션 스타일로 바꿔줘."
6️⃣ "이 이미지를 투명 배경으로 다시 그려줘. PNG 형식으로 만들어줘."
7️⃣ "하늘을 나는 고양이와 로봇이 손잡고 구름 위에서 춤추는 장면을 상상해서 그려줘. 미래적인 배경으로 해줘."

 

✨ 기대 포인트:

  • 컨텍스트 유지 능력
  • 이미지 구성 요소의 자연스러운 변경
  • ‘재생성’이 아닌 ‘맥락 유지형 수정’인지 확인

💬 [실전 예시] 대화하듯 이미지 수정해보기 – 고양이

 

📷 1단계

본 이미지: 따뜻한 햇살이 비치는 창가에서 책을 읽는 고양이의 수채화 스타일 그림


📷 2단계

  • 소품 추가: 고양이에게 둥근 안경을 씌운 이미지

📷 3단계

  • 배경 변경: 창밖 배경을 밤하늘로 바꾸고 별이 반짝이게 표현한 이미지

📷 4단계

정 표현 변경: 고양이가 미소 짓고 눈을 살짝 감은 모습


📷 5단계

  • 스타일 변경: 일본 애니메이션 스타일로 바꾼 이미지

 


📷 6단계

  • 투명 배경: 투명 배경으로 고양이를 다시 그린 이미지

📷 7단계

  • 창의적 생성: 하늘을 나는 고양이와 로봇이 손잡고 구름 위에서 춤추는 장면 (미래적인 배경)


이렇게 각 단계별로 이미지를 자연스럽게 수정하고 추가하여 대화형 수정 기능을 실험할 수 있습니다. 위와 같은 흐름을 따라가면서 고양이의 모습, 배경, 감정 표현 등을 자유롭게 수정할 수 있습니다.


✅ ④ 다중 객체 생성

🟡 기능 설명: 10~20개의 서로 다른 요소를 논리적으로 조합해 표현 가능

🎨 프롬프트 예시:

“4행 4열로 배열된 16개 오브젝트의 이미지: 파란 별, 빨간 삼각형, 초록 사각형, 분홍 원, 오렌지 모래시계, 보라색 무한대 기호, 흑백 도트 나비넥타이, 타이다이 숫자 42, 오렌지 고양이, 보물지도, 눈알 스티커, 따봉 이모지, 가위, 파란 기린, OpenAI라는 필기체 글자, 무지개 번개.”

✨ 기대 포인트:

  • 각 객체가 식별 가능하게 분리되어 있는지
  • 의미 혼동 없이 다양한 모양/색상이 구분되는지
  • 배열 구조와 배경의 정렬력

🧩 [실전 예시] 다양한 요소, 한 화면에 담을 수 있을까?
📷 4x4 오브젝트 배열 이미지 삽입 위치

 

🧩 [추가 실전 예시] 한글 로고 요청

“4행 4열로 배열된 16개 오브젝트의 이미지: '꿈공장장'이라는 로고, 파란 별, 빨간 삼각형, 초록 사각형, 분홍 원, 오렌지 모래시계, 보라색 무한대 기호, 흑백 도트 나비넥타이, 타이다이 숫자 42, 오렌지 고양이, 보물지도, 눈알 스티커, 따봉 이모지, 가위, 파란 기린, OpenAI라는 필기체 글자.”
📷 한글로고 요청 (약간 오류 발생) - 오류 예: 위치, 모래시계, 화분, 42 등


✅ ⑤ 사용자 이미지 기반 생성

🟡 기능 설명: 업로드한 이미지를 분석해 변형하거나 영감을 받아 재창작

 

🎨 예시 흐름:

  • 원본 이미지: 손그림 자동차 도면 업로드
  • 프롬프트:

“이 도면을 바탕으로 뉴욕 거리에서 주행 중인 모습으로 바꿔줘. 포토리얼 스타일로.”

✨ 기대 포인트:

  • 원본 이미지에서 도출한 구조/구도를 이미지에 반영했는지
  • 업로드 이미지의 ‘창의적 전환 능력’ 평가
  • 맥락 있는 재구성 능력

📷 자동차 도면 업로드 → 주행 중 이미지 


✅ ⑥ 지식과 이미지 통합

🟡 기능 설명: 배경지식을 활용한 시각화

 

🎨 프롬프트 예시:

“아이작 뉴턴이 프리즘을 이용해 햇빛을 분해하는 장면을 다이어그램 스타일로 그려줘. 프리즘, 빛의 경로, 색상 스펙트럼이 모두 포함되어야 함.”

 

✨ 기대 포인트:

  • 과학적 개념을 시각적으로 얼마나 정확히 표현하는지
  • GPT-4o가 ‘지식’을 이미지에 어떻게 반영하는지
  • 교육용 자료로서의 신뢰도

🔬 [실전 예시] 과학 개념도 시각화할 수 있을까?
📷 뉴턴의 프리즘 실험 다이어그램 이미지

 

* 이 결과 우측 하단에 이상한 영문이 나타나, 다시 요청함


 

🎯 무엇이 가능할까? 활용 분야 예시

GPT-4o 이미지 생성은 단순한 예술적 창작을 넘어, 실제 업무와 일상 속에서 유용하게 활용 가능한 이미지 제작 도구로 확장되고 있습니다. 아래는 대표적인 활용 분야입니다:

  • 📚 교육자료: 과학 실험 다이어그램, 역사적 장면 재현, 수학 공식 시각화
  • 💼 실무 디자인: 프레젠테이션 인포그래픽, 포스터, 워크숍 초대장
  • 🎮 게임 및 캐릭터 디자인: 인게임 UI, NPC 콘셉트 시안, 설정화
  • 📣 마케팅/광고: SNS 카드뉴스, 이벤트 배너, 고급 메뉴판
  • 🎨 창작 예술: 일러스트, 풍자 만화, 철학적 개념 이미지화

“아이디어만 있으면, GPT-4o가 그림으로 실현해줍니다.”

 

🧙‍♂️ [실전 예시] 게임 콘셉트 디자인도 말로 된다!

🎨 프롬프트 예시: 게임 콘셉트 시

🎨 추천 프롬프트: 게임 콘셉트 시안 (재미 요소 포함)

“미래의 디지털 마법사가 등장하는 RPG 게임의 캐릭터 설정화.
전신이 보이는 구도, 배경은 네온이 흐르는 디지털 마법 도시.
마법사는 한 손에 고양이 모양의 홀을 들고 있고, 머리에는 전자 회로 무늬가 있는 망토를 쓰고 있다.
오른쪽 상단에는 'HP / MP' 막대가 표시되어 있고, 아래에는 마법 아이콘 4개가 UI처럼 배치되어 있음.
스타일은 고퀄리티 콘셉트 아트 느낌으로.”

 


📷 GPT-4o로 만든 '디지털 마법사 RPG' 콘셉트 이미지


⚠️ 아직은 이런 점이 아쉽다

완벽하진 않습니다. GPT-4o 이미지 생성도 몇 가지 기술적 한계를 안고 있습니다.

항목 문제 설명

이미지 자르기 포스터나 세로형 이미지에서 하단이 잘리는 현상
환각 (Hallucination) 문맥이 부족하거나 모호한 경우, 실제에 없는 요소를 생성
다국어 표현 한글이나 아랍어 등 비라틴 문자의 정확도가 떨어질 수 있음
정밀 수정 어려움 특정 부위만 바꾸려는 경우, 주변까지 변형되는 사례 발생
작은 텍스트 표현 글자가 작거나 많으면 흐려지거나 왜곡될 수 있음

🔄 OpenAI는 사용자 피드백을 반영해 지속적인 개선을 예고했으며, 특히 "텍스트 렌더링 정확도", "정밀 편집 기능"은 우선순위로 강화 중.


🔐 안전한 이미지 생성을 위한 정책

GPT-4o 이미지 생성 기능은 단순한 AI 창작 도구가 아닌, 책임 있는 생성 시스템으로 설계되었다고 합니다. OpenAI는 다음과 같은 강력한 안전장치를 도입했다고 합니다.

  • C2PA 메타데이터 자동 삽입
    → 생성된 이미지에 "AI 생성 이미지"라는 디지털 워터마크 포함 (추적 가능)
  • 실존 인물 보호 정책 강화
    → 미성년자, 민감 인물에 대한 포토리얼 생성 제한
  • 유해 콘텐츠 차단
    → 폭력, 혐오, 성적 묘사 등은 생성 전 단계에서 차단됨
  • 입력-출력 동시 모니터링 시스템
    → LLM 기반 정책 해석으로 부적절한 요청 감지 및 차단

안전성과 창의성의 균형을 맞추는 것이 GPT-4o의 핵심 전략이라고 함.


🛠️ 어떻게 사용할 수 있을까?

GPT-4o 이미지 생성은 지금 바로 ChatGPT에서 사용할 수 있습니다. 다음은 사용자별 접근 경로입니다.

사용자 유형 접근 가능 여부
ChatGPT Plus / Pro / Team / Free 사용자 GPT-4o 기본 이미지 생성기로 사용 가능 (웹/앱)
Enterprise / Edu 계정 순차적 적용 예정
개발자 (API) 2025년 봄부터 이미지 생성 API 지원 예정
기존 DALL·E 사용자 별도 GPT 또는 인터페이스로 병행 사용 가능

 

📌 사용 방법 요약

  1. 텍스트로 원하는 이미지를 설명
  2. 색상(hex 코드), 해상도, 비율, 배경 등 세부 요청 가능
  3. 이미지 생성에는 약 30초~1분 소요

💬 예시:

“조용한 시골 기차역의 플랫폼. 벤치 위에 여행 가방과 종이컵 커피, 책이 놓여 있고, 배경에는 지나가는 기차가 흐릿하게 보인다. 전체 색감은 부드러운 아이보리 톤(#F5F5DC), 비율은 3:2, 해상도는 1920x1280. DSLR 느낌의 포토리얼 이미지로 표현해줘.”


📌 요약

GPT-4o의 이미지 생성 기능은 더 이상 ‘재미용 그림 그리기 AI’가 아닙니다.
이제는 “대화형 비주얼 사고 도구”로 완전히 진화했습니다.

  • 대화만으로도 복잡한 이미지를 생성할 수 있고,
  • 직관적인 수정이 가능하며,
  • 업무, 교육, 창작 등 실질적 영역에서 활용 가능성이 열려 있습니다.

🖌️ “누구나 디자이너가 될 수 있습니다. 단, 말로!”

 

 

마지막으로 위의 '요약'을 주제로 다음과 같은 프롬프트로 이미지를 생성해 보았습니다.

(프롬프트 예시)

“커다란 디지털 화이트보드 앞에 서 있는 사람.
그 사람은 손에 펜 대신 마이크를 들고 있고,
화이트보드에는 ‘말풍선’에서 나온 설명이 이미지로 실시간 변환되고 있다.
왼쪽엔 프롬프트 예시가 텍스트로 떠 있고, 오른쪽엔 포스터, 게임 캐릭터, 다이어그램, 만화 같은 시각 자료들이 떠오르고 있음.
상단에는 문구처럼: ‘말로 그리는 세상’, 하단에는 ‘GPT-4o 이미지 생성 – 누구나 디자이너가 될 수 있습니다.’
전반적으로 따뜻한 톤, 현대적인 디자인 감각, 16:9 비율의 개념 일러스트 스타일로.”

→ 약간의 한글 오타(예: 세상, 만화)는 있으나 이 정도면 정말 좋아졌네요!

 


🎬 유튜브 동영상

📺 관련 유튜브 콘텐츠입니다!

https://youtu.be/HLpCzp5VdbU

 

본 유튜브 동영상 썸네일도 완전히 GPT 4o로 만들었습니다.

 

감사합니다.😊


  •  

OpenAI o3-mini: 비용 효율적 AI 추론의 새 시대를 열다

2025년 1월 31일, OpenAI는 새로운 인공지능 모델 o3-mini를 공식 출시했습니다. ChatGPT 및 API에서 즉시 사용 가능한 이 모델은 뛰어난 비용 효율성과 강력한 추론 능력을 결합하여 AI 기술의 새로운 기준을 제시하고 있습니다. 특히, 과학(STEM), 수학, 코딩 등 기술적 도메인에서 탁월한 성능을 발휘하면서도, 기존 모델보다 더 빠르고 저렴하게 제공된다는 점에서 주목받고 있습니다.


1. OpenAI o3-mini의 핵심 특징

① 강력한 STEM 능력과 합리적인 비용

o3-mini는 특히 과학, 수학, 코딩과 같은 기술 분야에서 강력한 성능을 자랑합니다. 기존 OpenAI o1-mini 대비 더 높은 수준의 추론 능력을 제공하면서도, 지연 시간(latency)이 줄어들고 비용이 낮아졌습니다.

2024년 12월 프리뷰 당시부터 주목받았던 이 모델은, 작은 모델이 도달할 수 있는 성능의 한계를 확장하는 데 집중했습니다. 실제로, OpenAI의 테스트 결과에 따르면 o3-mini는 고난도의 실전 문제에서도 기존 모델보다 더 정확하고 명확한 답변을 생성하는 것으로 평가되었습니다.

② 프로덕션 준비 완료: 새로운 개발자 기능 지원

o3-mini는 OpenAI의 소형 추론 모델 중 최초로 아래와 같은 기능을 지원합니다.

  • 함수 호출 (Function Calling): 개발자가 AI와의 상호작용을 보다 정교하게 제어 가능
  • 구조화된 출력 (Structured Outputs): JSON 등의 구조화된 데이터 형식으로 결과 제공
  • 개발자 메시지 (Developer Messages): 프로덕션 환경에서 보다 실용적인 AI 사용 가능

이를 통해, o3-mini는 단순한 AI 챗봇을 넘어 실제 비즈니스 및 소프트웨어 개발 환경에서 즉시 활용할 수 있는 모델로 자리 잡을 준비가 되었습니다.

③ 스트리밍 및 사용자 맞춤형 추론 강도 선택

o3-mini는 스트리밍(streaming)을 지원하며, 개발자는 상황에 맞춰 추론 강도(Reasoning Effort)를 조절할 수 있습니다.

  • 낮음(Low): 빠른 응답이 필요한 경우
  • 중간(Medium): 속도와 정확성의 균형을 유지
  • 높음(High): 복잡한 문제 해결 시 깊이 있는 추론 가능

이 옵션을 통해, 개발자는 응답 속도와 정확도 사이에서 최적의 균형을 찾을 수 있습니다. 특히, 고난도 문제를 해결해야 하는 경우 o3-mini의 고추론(High reasoning) 모드를 활용하면 더욱 강력한 성능을 발휘합니다.

④ 비전 기능 미지원, 하지만 검색 기능 추가

o3-mini는 이미지 인식(비전) 기능을 지원하지 않으므로, 시각적 데이터를 분석하려면 기존 OpenAI o1 모델을 사용해야 합니다. 그러나, 새롭게 추가된 검색 기능을 통해, o3-mini는 최신 정보를 찾아 관련 웹 링크와 함께 제공할 수 있습니다. 이는 OpenAI가 추론 모델에 검색 기능을 통합하려는 초기 단계로, 향후 더욱 발전할 것으로 예상됩니다.


2. OpenAI o3-mini의 성능: 기존 모델과의 비교

① 수학 및 과학 문제 해결 능력 향상

o3-mini는 수학 및 과학 시험에서 기존 모델보다 더 높은 정확도를 기록했습니다.

📌 경쟁 수학 (AIME 2024)

  • o3-mini(High) 버전의 정확도: 83.6% (기존 모델 대비 대폭 향상)

📌 박사 과정 수준의 과학 문제 (GPQA Diamond)

  • o3-mini(High) 버전의 정확도: 77.0% (기존 모델보다 우수한 성능)

📌 고급 수학 문제 (FrontierMath)

  • Python 도구 활용 시, 32% 이상의 문제를 첫 시도에서 해결
  • 도전적인 문제(T3)의 28% 이상 해결

이러한 성과는 o3-mini가 고급 수학과 과학 분야에서도 경쟁력 있는 성능을 발휘한다는 점을 보여줍니다.

② 경쟁 프로그래밍 및 소프트웨어 엔지니어링

o3-mini는 경쟁 프로그래밍(Codeforces) 및 소프트웨어 엔지니어링(SWE-bench) 평가에서도 뛰어난 성과를 보였습니다.

📌 경쟁 프로그래밍 (Codeforces)

  • o3-mini(High)의 Elo 점수: 2073 (기존 모델 대비 대폭 향상)

📌 소프트웨어 엔지니어링 (SWE-bench)

  • SWE-bench Verified 테스트에서 48.9% 정확도로 최고 성능 달성

이러한 결과는 o3-mini가 단순한 대화형 AI를 넘어, 실제 소프트웨어 개발 환경에서도 활용 가능함을 보여줍니다.


3. ChatGPT 및 API에서의 접근 가능성

① ChatGPT Plus, Team, Pro 사용자 대상 즉시 제공

ChatGPT Plus, Team, Pro 사용자는 오늘부터 즉시 o3-mini를 사용할 수 있으며, Enterprise 사용자에게는 2월부터 제공됩니다.

특히, 이번 업데이트를 통해 Plus 및 Team 사용자들의 메시지 한도가 50개에서 150개로 증가했습니다.

② 무료 사용자도 체험 가능

무료 사용자도 메시지 작성기에서 ‘Reason’ 모드를 선택하거나 응답을 다시 생성하면 o3-mini를 체험할 수 있습니다. 이는 OpenAI가 무료 사용자에게 추론 모델을 공개한 최초의 사례입니다.


4. OpenAI o3-mini의 미래와 의미

o3-mini의 출시는 AI 모델의 성능을 유지하면서도 비용을 줄이는 새로운 혁신 방향을 제시합니다. OpenAI는 GPT-4 출시 이후 토큰당 비용을 95% 절감했으며, 이번에도 고품질 AI를 더욱 저렴하게 제공하기 위해 노력하고 있습니다.

🔹 앞으로 기대할 점

  • AI 추론 모델에서 검색 기능이 점점 더 강화될 가능성
  • 비용 대비 효율적인 AI 도입이 점점 더 쉬워질 것
  • 기술 도메인(STEM, 코딩 등)에서 AI의 역할 확대

o3-mini는 단순한 AI 모델이 아니라, 비용 효율성과 고성능을 동시에 제공하는 AI의 새로운 기준을 제시하고 있습니다. 앞으로 OpenAI가 어떤 혁신을 이어나갈지 기대됩니다.

📌 여러분은 o3-mini를 어떻게 활용할 계획인가요? 의견을 댓글로 남겨주세요! 🚀

 

중국 AI의 도전, 글로벌 기술 시장의 판도를 바꾸다

지난 월요일, 글로벌 금융시장에서 주식이 크게 하락하며 투자자들의 불안감을 자극했습니다. 이번 하락의 배경에는 다름 아닌 중국 AI 스타트업 딥시크(DeepSeek)의 기술 혁신이 자리 잡고 있습니다. 이 신생 기업의 등장은 AI 시장의 경쟁 구도를 흔드는 한편, 미국 기술 대기업들의 미래 전략에도 중요한 질문을 던지고 있습니다.


딥시크, 효율적인 AI 기술로 주목받다

딥시크는 고성능 챗봇 기술을 기존의 고비용 컴퓨팅 환경을 혁신적으로 간소화하며 구현했습니다. 특히, 선도적인 AI 기업들이 의존하는 특수 컴퓨터 칩의 사용을 최소화해 주목받았습니다.
이러한 기술 발전은 AI 분야에서 독보적인 위치를 차지해온 Nvidia와 같은 칩 제조업체의 밸류에이션에 대한 투자자들의 신뢰를 흔들었습니다. Nvidia는 개장 전 거래에서 5% 이상의 하락을 기록하며 약 1,000억 달러의 시장 가치를 잃었습니다.

Saxo Bank의 수석 투자 전략가 차루 차나나(Charu Chanana)는 이 현상에 대해 "딥시크의 등장은 글로벌 AI 경쟁이 더욱 치열해지고 있음을 보여준다"고 평가하며, Nvidia가 항상 선두에 있지는 않을 수도 있음을 시사했습니다.


미국 기술 대기업들의 도전 과제

딥시크의 돌풍은 Nvidia뿐만 아니라 AI에 막대한 자원을 투자하고 있는 Meta, Microsoft, Oracle 같은 미국 기술 대기업들에게도 직접적인 영향을 미쳤습니다.

Meta는 데이터 센터 투자 계획을 대폭 확대했지만, 이번 소식 이후 주가가 개장 전 3% 이상 하락했습니다. Microsoft 역시 AI 기술에 대한 공격적인 투자를 지속하고 있음에도 불구하고 5% 가까운 하락세를 보였습니다. Oracle은 OpenAI 및 소프트뱅크와 협력하며 새로운 AI 프로젝트를 발표했지만, 8% 이상 하락하며 어려움을 겪고 있습니다.

특히, 이번 주 Meta와 Microsoft는 최신 분기 실적을 발표할 예정입니다. 과거의 성공적인 수익 기록에도 불구하고, 분석가들은 글로벌 경쟁이 심화된 상황에서 기업의 장기적인 재정 전망에 대한 날카로운 질문을 던질 가능성이 큽니다.


AI 경쟁 속 미국 정부의 대응

트럼프 대통령은 미국 AI 기술의 리더십을 유지하겠다는 강한 의지를 보여주었습니다. 그는 지난주 미국산 AI 생산 가속화를 목표로 한 행정 명령에 서명하며, AI 기술 개발의 장벽을 제거하겠다는 계획을 발표했습니다. 또한, Nvidia와 같은 고성능 칩이 중국으로 유출되는 것을 제한하려는 규제를 강화하고 있습니다.

그러나 이러한 조치가 미국 기술 기업들에게 긍정적으로 작용할지는 여전히 미지수입니다. 딥시크의 기술이 보여주듯, 중국 AI 기업들은 효율성과 혁신을 바탕으로 빠르게 성장하며 미국 기업들을 압박하고 있습니다.


냉정한 시각이 필요한 시점

투자자들과 분석가들은 이번 상황을 단순한 위기가 아니라 글로벌 AI 시장의 변화 신호로 해석하고 있습니다. Bernstein의 분석가들은 "더 효율적인 AI 기술로 인해 절약된 컴퓨팅 용량은 빠르게 증가하는 수요에 의해 흡수될 것"이라며, 여전히 고성능 칩에 대한 수요는 지속될 것으로 전망했습니다.

결론적으로, 딥시크의 성공은 글로벌 기술 시장의 판도가 변하고 있음을 보여줍니다. 이 변화는 Nvidia와 같은 전통적인 기술 강자들에게는 도전이 될 수 있지만, 동시에 AI 기술의 효율성을 높이는 데 있어 새로운 기회를 제공할 수도 있습니다.


주석:
이 글은 뉴욕타임스의 ‘Stocks Sink as Investors Worry About China’s A.I. Advances’ 기사 내용을 바탕으로 작성되었습니다. 글로벌 기술 시장의 변화를 분석하고, 독자들에게 AI 산업의 미래를 이해하는 데 필요한 인사이트를 제공합니다.
https://www.nytimes.com/2025/01/27/business/us-stock-market-deepseek-ai-sp500-nvidia.html?smid=url-share

 

Stock Markets Drop as Investors Worry About DeepSeek and China’s A.I. Advances

Stiffer competition for the tech giants at the forefront of the artificial intelligence boom prompted investors to reassess the companies’ sky-high valuations and aggressive spending plans.

www.nytimes.com

"CUA(Computer-Using Agent)": AI가 디지털 세상과 소통하는 새로운 방법

"디지털 작업 수행 Agent (CUA, Computer-Using Agent)":
            AI가 디지털 세계와 상호작용할 수 있는 범용 인터페이스
           (A universal interface for AI to interact with the digital world.)

 

2025.1.23일 OpenAI 발표

 

우리가 영화에서 보던 장면처럼, 이제 AI가 직접 디지털 작업을 수행할 수 있는 세상이 다가오고 있습니다. 바로 CUA(Computer-Using Agent)라는 혁신적인 기술 덕분입니다.

 

OpenAI에서 연구 중인 이 기술은 Operator라는 이름의 에이전트를 통해 여러분의 디지털 작업을 대신 수행할 수 있도록 설계되었습니다.

 

[참고]

CUA는 무엇이 특별할까요?

간단히 말하면, 사람처럼 컴퓨터 화면에 보이는 버튼, 메뉴, 텍스트 필드를 조작하며, 우리가 매일 사용하는 그래픽 사용자 인터페이스(GUI)와 상호작용할 수 있다는 점임

기존의 AI는 정해진 API만 사용하거나 제한된 환경에서 작동했지만, CUA는 훨씬 더 자유롭고 유연함

[API와 CUA]
  • 기존 API 기반 AI는 정형화된 작업에 적합하며, 안정적이고 빠르게 특정 작업을 수행할 수 있지만, 환경이 제한적이고 유연성이 부족
  • 반면 CUA는 API 없이도 사람처럼 다양한 디지털 환경을 탐색하고 작업을 수행할 수 있어, 다재다능하고 확장성이 높은 차세대 AI라고 할 수 있음. 이는 특히 복잡하거나 예외적인 디지털 작업이 많은 현대 사회에서 큰 잠재력을 가짐

 

CUA 기반 요소

CUA(Computer-Using Agent)는 OpenAI의 연구와 기술 발전을 기반으로 개발된 혁신적인 AI 모델로, 다음과 같은 요소들이 주요 기반이 되었습니다:


(1) GPT-4o 기반의 멀티모달(Multimodal) 기능

  • 설명: CUA는 OpenAI의 GPT-4o 모델이 제공하는 강력한 시각적 이해(Vision)강화 학습을 통해 강화된 고급 추론 능력(Advanced Reasoning with Reinforcement Learning)을 활용합니다.
    이를 통해 텍스트 입력뿐만 아니라 화면의 버튼, 메뉴, 텍스트 필드 등을 시각적으로 인식하고 상호작용하며, 복잡한 작업도 단계적으로 계획하고 해결할 수 있습니다. 

(2) 강화 학습(Reinforcement Learning)

  • 설명: 강화 학습을 활용해 GUI(그래픽 사용자 인터페이스) 환경에서 작업을 수행하며 스스로 학습하고 개선합니다.
    예를 들어, 여러 단계의 작업을 계획하고, 오류가 발생했을 때 이를 동적으로 수정할 수 있는 능력을 갖추고 있습니다.

(3) 그래픽 사용자 인터페이스(GUI) 상호작용 훈련

  • 설명: CUA는 OS나 웹 전용 API가 아닌, GUI 자체와 상호작용하는 방식으로 훈련되었습니다.
    사람처럼 마우스와 키보드를 사용하여 클릭, 입력, 스크롤 등의 작업을 수행합니다.

(4) 기존 연구 및 벤치마크 활용

  • 설명: CUA는 OpenAI의 기존 연구를 바탕으로 OSWorld, WebArena, WebVoyager와 같은 벤치마크를 통해 성능을 평가하며 개발되었습니다.
    • OSWorld: 운영체제 환경에서 AI의 작업 능력을 테스트.
    • WebArena와 WebVoyager: 웹 브라우징과 실시간 작업 수행 능력을 테스트.

(5) 안전성과 윤리성을 고려한 설계

  • 설명: CUA는 안전한 작업 수행을 위해 다음과 같은 기능을 통합했습니다:
    • 사용자 확인(User Confirmation): 민감한 작업 전 사용자 확인 절차.
    • 차단 목록(Blocklist): 특정 웹사이트 접근 제한.
    • 실시간 모니터링 및 감지: 사용 정책 위반 방지 및 잠재적 위험 관리.

CUA는 어떻게 작동하나요?

CUA의 작동 방식은 크게 세 단계로 이루어집니다:

  1. Perception(인지): 컴퓨터 화면의 스크린샷을 읽어 현재 상태를 파악합니다. 예를 들어, 로그인 화면인지, 주문서인지 등을 알아냅니다.
  2. Reasoning(추론): 다음에 무엇을 해야 할지 체계적으로 생각합니다. 과거의 스크린샷과 사용자의 명령을 참고해 최적의 작업 단계를 계획합니다.
  3. Action(행동): 클릭, 스크롤, 타이핑 등의 행동을 통해 사용자가 원하는 작업을 완료합니다. 예를 들어, 온라인 쇼핑몰에서 물건을 장바구니에 담고 결제를 진행하거나, PDF 파일을 다운로드해 저장하는 작업도 가능합니다.

이 과정은 마치 AI가 "사람처럼 생각하고 행동하는" 것을 보는 것과 같습니다. 특히, 로그인이나 CAPTCHA(캡차)를 만나면 사용자 확인을 요청하는 등 민감한 작업에서는 신중하게 행동하도록 설계되었습니다.

 



CUA의 활용

 

(1) 브라우저 활용(Browser Use): AI의 웹 탐험

CUA는 웹 브라우저를 통해 다양한 작업을 수행할 수 있습니다.

더보기

예를 들어, 사용자가 "브리태니커에서 곰 서식지에 대한 상세 지도를 찾아줘"라고 요청하면, CUA는 브라우저를 열고 해당 정보를 검색합니다.이후, "이제 검은곰, 갈색곰, 북극곰에 대한 링크를 확인하고, 그들의 신체적 특징과 차이점을 간략히 알려줘. 그리고 링크도 저장해줘."라는 추가 요청에 따라, 각 곰의 정보를 수집하고 비교하여 제공하며, 관련 링크를 저장합니다.

이처럼 CUA는 웹사이트의 다양한 UI 요소와 상호작용하여 사용자가 원하는 정보를 찾아주고, 필요한 작업을 수행합니다.


(2) 컴퓨터 활용(Computer Use): AI의 데스크탑 조작

CUA는 웹 브라우저뿐만 아니라 전체 운영 체제에서도 작업을 수행할 수 있습니다.

더보기

예를 들어, 사용자가 "PDF 파일들을 하나로 합쳐줘"라고 요청하면, CUA는 운영 체제의 파일 탐색기와 PDF 병합 소프트웨어를 사용하여 여러 PDF 파일을 하나로 결합합니다. 또한, "이미지 파일의 크기를 줄여줘"라는 요청에 따라, 이미지 편집 프로그램을 열고 이미지를 압축하여 저장할 수 있습니다.

이처럼 CUA는 운영 체제의 다양한 애플리케이션과 상호작용하여 복잡한 작업도 자동으로 처리합니다.


(3) Operator에서의 CUA(CUA in Operator): AI 비서의 현실화

OpenAI는 CUA를 기반으로 한 Operator라는 에이전트를 선보였습니다. Operator는 사용자를 대신하여 웹에서 다양한 작업을 수행할 수 있는 AI agent입니다.

더보기

예를 들어, 사용자가 "Todoist에 '주말 장보기'라는 프로젝트를 만들고, 다음 쇼핑 목록을 추가해줘: 바나나 6개, 아보카도 2개, 시금치 1봉지..."라고 요청하면, Operator는 Todoist 웹사이트에 접속하여 새로운 프로젝트를 생성하고, 지정된 쇼핑 목록을 추가합니다.또한, "Spotify에서 1990년대 미국에서 인기 있었던 노래 10곡을 찾아 플레이리스트를 만들어줘"라는 요청에 따라, Spotify를 탐색하여 해당 곡들을 찾아 플레이리스트를 생성합니다.

이처럼 Operator는 CUA의 능력을 활용하여 사용자의 다양한 요청을 웹에서 직접 수행합니다.

더보기

예: CUA(Computer-Using Agent)가 다양한 UI 컴포넌트와 상호작용하여 작업을 수행하는 능력을 평가. 특정 작업 카테고리와 그에 대한 설명, 성공률, 그리고 관련된 메모를 제시. (https://openai.com/index/computer-using-agent/)

 

[Interacting with various UI components to accomplish tasks]

  • 주요 작업: 다양한 UI 요소(버튼, 링크, 필터 등)와 상호작용하여 사용자가 원하는 작업을 완료.
  • 특징: 다양한 웹사이트나 UI 구성 요소의 신뢰성과 안정성이 다를 수 있음.

사례 1: 브리태니커에서 곰 서식지 정보 검색

  • 프롬프트:
    1. 브리태니커에서 곰 서식지 지도를 검색.
    2. 검은곰, 갈색곰, 북극곰에 대한 링크를 확인하고 신체적 특징을 요약하며, 차이점을 설명. 또한 링크 저장.
  • 성공률: 10/10 (모든 시도 성공).
  • 특징: CUA는 브라우저 UI와 상호작용하여 정보를 검색하고, 여러 링크를 탐색하며, 사용자 요청에 따라 내용을 요약하고 저장 가능.

사례 2: Target에서 Poppi 프리바이오틱 소다의 할인 검색

  • 프롬프트:
    • Target에서 Poppi 프리바이오틱 소다의 할인 정보를 검색.
    • "수박 맛(12fl oz)"을 선택하고, 관련 딜을 확인하며 제품이 글루텐프리인지 확인.
  • 성공률: 9/10 (10번 중 9번 성공).
  • 특징: CUA는 쇼핑 웹사이트에서 제품 검색 및 필터링 작업을 수행하며, 사용자가 요청한 세부 정보를 정확히 확인 가능.

사례 3: Redfin에서 시애틀의 타운하우스 검색

  • 프롬프트:
    • 시애틀에서 최소 3개의 침실, 2개의 욕실을 갖추고 에너지 효율적인(예: 태양광 패널 또는 LEED 인증) 타운하우스를 검색.
    • 예산은 $600,000~$800,000 사이로 설정하며, 1500sq ft(약 42평)에 가까운 집을 찾아야 함.
  • 성공률: 3/10 (10번 중 3번 성공).
  • 특징: 복잡한 검색 조건과 다양한 필터가 포함된 작업으로, CUA가 완전히 성공하지 못함. 이는 Redfin과 같은 복잡한 UI 구조에서 발생할 수 있는 문제를 보여줌.

성능 테스트 결과

CUA는 다양한 테스트 환경에서 다음과 같은 성과를 보였습니다:

  • WebVoyager: Amazon, Google Maps 같은 실시간 웹사이트에서 작업 수행 성공률 87%.
  • WebArena: 전자상거래 및 콘텐츠 관리 시스템(CMS) 작업 성공률 58.1%.
  • OSWorld: Windows, macOS 등 운영 체제 작업 성공률 38.1%.

이 테스트 결과는 CUA가 얼마나 다양한 환경에서 유용하게 작동할 수 있는지를 보여줍니다. 특히, 복잡한 웹사이트 탐색과 다단계 작업에서도 점점 개선되고 있습니다.


안전성도 놓치지 않는다

CUA는 단순히 작업만 잘하는 AI가 아닙니다. 다음과 같은 위험에 대하여  안전성(Safety)도 철저히 고려했습니다.

  1. 오용 방지: 불법적인 작업(도박, 무기 거래 등)은 거부하고, 차단된 웹사이트에 접근하지 않습니다. (Refuslas, Blocklist, Moderation, Offline detection)
  2. Model 실수: 이메일 발송, 결제 등 민감한 작업은 사용자에게 확인을 요청 등 위험관리. (User confirmation, Limitations on tasks, Watch mode)
  3. 적대적 공격 방어(adversarial attacks on websites): 프롬프트 인젝션(prompt injection) 같은 공격을 식별하고 무시합니다. (Cautious navigarion, Monitoring, Detection pipeline)

OpenAI는 이러한 다층적 보호 장치를 통해 CUA가 사용자의 신뢰를 잃지 않도록 설계하도록 노력하고 있습니다.

 


미래를 향한 도전

CUA의 궁극적인 목표는 인간처럼 디지털 환경에서 어떤 작업이든 수행할 수 있는 능력을 가지는 것입니다. 이를 위해 OpenAI는 계속해서 CUA를 발전시키고, API를 통해 개발자들이 자신만의 CUA 기반 에이전트를 만들 수 있도록 지원할 계획입니다.


결론

CUA는 AI가 단순히 정보를 제공하는 것을 넘어, 디지털 작업을 실제로 수행하는 새로운 시대를 열고 있습니다. 우리가 매일 사용하는 웹사이트, 소프트웨어, 운영 체제를 자유롭게 탐색하며 우리를 대신해 일을 처리하는 AI, 이것이 바로 CUA의 비전이라고 합니다.

 

이제 AI와 함께 일하는 것이 아니라, AI가 직접 우리의 일을 대신하는 세상에 더 가까워지고 있습니다. CUA의 진화와 함께 우리는 디지털 작업의 새로운 지평을 열어가고 있습니다.

 


💡 더 알고 싶으신가요? Operator와 CUA의 구체적인 활용 사례와 추가 정보를 보려면 OpenAI 공식 페이지를 방문해 보세요: OpenAI - Computer-Using Agent


 

인용 출처: https://openai.com/index/computer-using-agent/
- 인용하여 정리

OpenAI는 얼마나 많은 돈을 벌고, 또 어디에 쓰고 있을까요? 세계적으로 주목받는 AI 기업 OpenAI의 손익구조와 재무상황을 자세히 파헤쳐 봅니다. 그들의 놀라운 성장 비결 뒤에 있는 수익과 비용 현황! AI와 기업 운영에 관심 있는 분들이라면 흥미롭게 보실 수 있는 영상입니다. 놓치지 말고 구독과 좋아요를 눌러주세요! 감사합니다.😊 

https://youtu.be/nsfy3D0DZYg?si=RiEdEdd02LmL93aD

 

 

OpenAI가 더욱 진보된 o3모델을 발표했습니다. 이번 동영상에서는 o3와 그러한 모델 평가에 사용되는 새로운 benchmark인 ARC를 통하여 이번 발전의 의미와 시사점에 대하여 생각해 보았습니다. 감사합니다.

 

https://youtu.be/ulF6o_45Hj0

 

 

 

 

 

OpenAI가 개발한 Swarm 프레임워크는 멀티 에이전트 시스템을 간단하고 효율적으로 구현해 볼 수 있는 강력한 도구입니다. 이를 통해 멀티에이전트를 간단히 경험해볼 수 있습니다. 감사합니다.

 

https://youtu.be/uomb--6uvq4?si=s6tBFl9IybE4GWkX

 

 

 

2024.9.12일 OpenAI는 새로운 추론 모델, o1을 출시하였습니다. o1OpenAI가 계획한 추론 모델 시리즈 중 첫 번째 모델로, 복잡한 질문을 인간보다 더 빠르게 처리하도록 설계되었습니다. 또한, 더 작고 저렴한 o1-mini 버전도 함께 출시되었습니다이 새로운 모델들이 어떻게 혁신적인 성능을 발휘하는지 살펴보겠습니다.

 

https://youtu.be/34gz3o4nSzg

 

OpenAI가 오늘 새로운 소식을 전했습니다. 기술적으로는 이미 가능한 것이었지만 드디어 ChatGPT와 DALL-E를 통하여 DALL-E의 이미지를 일반 사용자가 직접 편집할 수 있는 기능을 배포하였습니다. 한번 여러분들도 직접 해보시면 재미있을 것 같습니다.

감사합니다.

 

https://youtu.be/InYfdOYb8Ao

 

 

 

3월 25일 OpenAI는 커뮤니티로부터 피드백을 받아  Sora를 개선하고 있다고 밝히면서

전문가들의 Sora 사용에 대한 Feedback과 일부 샘플 영상을 Blog를 통하여 소개하였습니다.

이를 기반으로 영상에 대한 부분보다는 전문가들의 피드백 의견을 통하여 어떠한 부분이 Sora의 강점이었는지에 대하여 한번 살펴보았습니다.

감사합니다.

 

https://youtu.be/JhMFObP4EJA

+ Recent posts