AI & Business (인공지능과 경영)/OpenAI

🚀 GPT o3가 보여준 충격 변화! “읽지 말고 이미지로 생각하라” | ✍ 손글씨 메모 실험으로 본 AI 진화 (Thinking with Images)

꿈공장장100 2025. 5. 1. 12:19

🌟 프롤로그: 당신은 아직도 텍스트만 생각하나요?

 

사진 한 장.
뒤집힌 손글씨 메모.
조명이 비친 흐릿한 표지판.

예전 같았으면 ‘읽기 어려운 이미지’였겠죠.
하지만 지금은 다릅니다.

AI가 그 이미지를 회전하고, 확대하고,
필요한 부분을 잘라내면서 스스로 '사고'하기 시작했습니다.

텍스트로 질문하고, 텍스트로 생각하던 시대는
이제 조용히, 그러나 빠르게 막을 내리고 있습니다.

Thinking with Images.
이제, 당신도 ‘이미지로 생각하는 AI’를 만나게 될 것입니다.


 

[OpenAI] “Thinking with Images” 시대의 도래: AI와 함께, 이미지를 ‘사고’하는 법

OpenAI의 o3와 o4-mini는 사고의 흐름(Chain of Thought) 속에서 이미지를 활용해 추론함으로써,

시각 인식 분야에서 중대한 돌파구를 마련했습니다.


🧭 이 글(영상)을 통해 같이 생각해 볼 내용!

🧠 [현황] 우리는 왜 텍스트 사고에 갇혀 있었는가?
📸 [차이점] 기존 멀티모달 AI와 Thinking with Images는 어떻게 다른가?
✍ [직접 실습] 여러 형태의 손글씨 메모를 AI가 읽는 과정 체험
⚠️ [성능 및 기술 한계] OpenAI가 밝힌 성능과 Thinking with Images 기술의 부족한 점은?
🎯 [시사점] 이 변화는 개인·기업·교육·연구에 어떤 의미를 갖는가?

🧩 [변화] 이미지 기반 사고가 어떻게 인간의 지성을 확장하는가?

 

https://youtu.be/rqFnzuI1HxA

 


1. 텍스트 사고의 시대는 끝났는가?

우리는 오랜 시간 텍스트로 사고해 왔습니다.
문자 → 문장 → 논리 구조로 이어지는 사고 체계는 강력했습니다.
하지만 복잡하고 비정형적인 문제 앞에서, 이 체계는 점점 한계를 드러냅니다.

예를 들어,

  • 복잡한 표와 그래프를 텍스트로 설명하려다 핵심을 잃고,
  • 직관적인 메모를 글로 풀려다 속도를 잃고,
  • 그림 하나로 해결될 것을 긴 문장으로 돌아가는 경우들.

우리는 정보를 시각적으로 받아들이지만,
그걸 사고하려면 여전히 텍스트로 ‘번역’해야 했습니다.


2. 멀티모달 AI는 어디까지 왔는가?

얼마 전까지의 GPT-4V, Gemini, Claude 3 같은 멀티모달 AI는
이미지를 ‘이해’는 했지만, 사고에는 직접 사용하지 못했습니다.

📊 구체적으로 비교해보면 다음과 같습니다:

구분  기존 멀티모달 AI Thinking with Images (o3/o4-mini)
사고 흐름 이미지 → 텍스트 변환 → 사고 이미지 자체를 chain-of-thought(사고 흐름)에 직접 통합
이미지 처리 방식 캡션 생성, 요약 등 회전·확대·크롭 등 도구를 직접 사용한 분석
정보 손실 여부 요약 과정에서 축소 불가피 원본 이미지 중심의 고해상도 분석 가능
응용 한계 흐릿한 이미지, 복잡한 도표에 약함 비정형/복합 이미지에서도 강인한 해석

 

👉 즉, 기존 모델은 ‘이미지를 보고 글로 바꾼 후 생각’했고,
Thinking with Images는 ‘이미지를 본 채로 직접 생각’합니다.

여기서 핵심 차이점은 단순히 "이미지를 텍스트로 바꾸느냐"가 아니라,
그 텍스트로 바꾸는 과정을 AI가 내부에서 스스로 도구를 써가며 사고 흐름 속에서 ‘작동’시키는가에 있습니다.
이는 마치 사람의 뇌가 시각 정보를 직접 활용해 추론하는 방식과 유사합니다.


 

3. Thinking with Images는 어떻게 다른가?

2025년 4월 16일, OpenAI는 o3 및 o4-mini 모델이

chain of thought 안에서 이미지를 사고에 포함할 수 있게 되었다고 밝혔습니다.

핵심은 다음과 같습니다:

🧠 이미지 위에서 생각한다
→ 거꾸로 된 사진을 알아서 회전하고, 불필요한 부분은 크롭하며, 중요한 부분만 확대합니다.

🔧 툴 네이티브 구조
→ 별도 명령 없이도 사고 흐름 중에 자동으로 도구(tool)를 호출해 처리합니다.

🧬 복합 reasoning 통합
→ 이미지, 수식, 도표가 동시에 들어와도 이를 단일 사고 흐름에서 통합적으로 해석합니다.

 

이 모든 것은 단지 ‘이미지를 OCR로 텍스트로 바꾸는 것’이 아니라,
이미지를 논리적 추론의 재료로 직접 다룬다는 점에서 혁신적입니다.


4. ✍ 실습: 손글씨 메모, AI가 읽다

이제 직접 체험해봅시다.
OpenAI가 소개한 예제와 유사한 환경에서,
손으로 급히 쓴 메모 이미지를 AI가 어떻게 처리하고 이해하는지를 실습으로 확인합니다.

📌 이 실습은 본 블로그 작성자인 제가 직접 수행한 실제 사례이며,
'한글'로 실습해 보았습니다.


✅ 실습 내용 (직접 실험)

  • 흰 종이에 펜으로 작성한 메모 (예: “내일 3시 미팅 / B사 클라이언트 / 문서 준비 필요”)
  • 3가지 모델, 3가지 이미지 이용 실험: 여러 모델을 이용하여 글씨체를 다르게 하거나 거꾸로 찍고, 구겨진 이미지 등을 사용한 실험 
  • 📷 스마트폰으로 촬영 후 그대로 ChatGPT에 업로드

✅ Thinking with Images의 처리 과정

  1. 이미지 업로드 (예: “내일 3시 미팅 / B사 클라이언트 / 문서 준비 필요”)
  2. 다음과 같은 프롬프트 입력:
이 이미지에서 어떤 글자가 보이시나요? 직접 해석해주고, 그 의미도 요약해주세요.

이 손글씨 메모 이미지를 보고 내용을 최대한 정확하게 이해해줘.
텍스트 인식이 아니라, 회전·확대·크롭이 필요하다면 그렇게 처리해서
메모의 핵심 의미를 요약해줘.

 

🤖 o3의 경우: AI가 스스로 판단하여:

  • 이미지를 자동 회전
  • 흐릿한 부분을 확대하여 인식
  • 하단 불필요한 영역은 자동 크롭
  • 의미를 파악하고 문맥 중심으로 요약

✅ 실습 결과:

📌 다음 결과를 통해, 단순한 OCR이 아니라 이미지를 사고의 도구로 활용하는 전체 흐름을 체험할 수 있습니다.

 

🔍 모델 및 데이터

[3가지 모델]

구 모델인 GPT 4와 많이 사용되는 GPT-4o o3 모델과 비교하였음

 

[3가지 실습데이터]

한글 메모를 이용하여 글씨체, 방향 등을 변환하며 실습

 

(1) 비교적 정자체, 옆으로 회전된 이미지

 

 

(2) 비교적 정자체지만, 거꾸로 찍히고 구겨진 이미지

 

(3) 휘갈겨 쓴 메모, 거꾸로 찍히고 구겨진 이미지


🧭실험1: 비교적 정자체, 옆으로 회전된 이미지

(1) ChatGPT 4 - 실패

 

(2) ChatGPT 4o - 성공

 

(3) ChatGPT o3 - 성공

 

 

🧭실험2: 비교적 정자체, 거꾸로 찍히고 구겨진 이미지

 

(1) ChatGPT 4 - 실패

 

(2) ChatGPT 4o - 실패

 

(3) ChatGPT o3 과정 및 결과 (프롬프트 1: 간단한 프롬프트) - 성공? 실패?

 

 

 

(4) [추가 시도] ChatGPT 4 과정 및 결과 (프롬프트 2: 상세 프롬프트) - 실패

 

 

 

(5) [추가 시도] ChatGPT 4o 과정 및 결과 (프롬프트 2: 상세 프롬프트) - 실패

 

(6) [추가 시도] ChatGPT o3 과정 및 결과 (프롬프트 2: 상세 프롬프트) - 성공? 실패?

성공함!!!

 

 

🧭실험3: 휘갈겨 쓴 메모, 거꾸로 찍히고 구겨진 이미지

 

(1) ChatGPT 4 - 실패

 

 

(2) ChatGPT 4o - 실패

 

(3) [추가] ChatGPT 4o (상세 프롬프트) - 실패

 

(3) [추가] ChatGPT o3 (상세 프롬프트) - 성공? 실패?

 


Thinking with Images: 실험 요약 정리 (2025.4월말 현재 상황)

실험 번호 이미지 특징 GPT-4 GPT-4o GPT o3
🧭 실험 1 비교적 정자체, 옆으로 회전 ❌ 실패 ✅ 성공 ✅ 성공
🧭 실험 2 정자체, 거꾸로 찍힘 + 구겨짐 ❌ 실패(프롬프트 1·2) ❌ 실패(프롬프트 1·2) ❌ 실패 (프롬프트 1)
✅ 성공 (프롬프트 2)
🧭 실험 3 휘갈겨 쓴 필기체, 거꾸로 + 구겨짐 ❌ 실패 ❌ 실패 (프롬프트 1·2) ❌ 실패 (프롬프트 2)

🧩 정리 인사이트

  • GPT-4는 이미지 방향이나 상태와 관계없이 대부분 실패함.
  • GPT-4o는 회전에는 강하지만, 구겨짐/거꾸로/필기체 조합엔 약함.
  • GPT o3는 단순 회전/왜곡뿐 아니라 복잡한 조작정밀 인식에 대해 가장 강인함.
    → 단, 프롬프트를 상세히 작성했을 때 효과가 향상됨.

 

🧠 휘갈겨 쓴 메모 (향후 개선 과제 분야)

- 세 모델 모두 휘갈겨 쓴 필기체에 대해 인식률이 매우 낮았습니다.

- 특히, 거꾸로 찍히고 구겨진 이미지 조건에서는 텍스트 인식 자체에 실패하는 경우가 많았습니다.

- GPT o3는 회전·크롭 등 이미지 전처리는 잘 수행했지만, 글자 형태가 지나치게 흐릿하거나 비정형적일 경우 해석에 실패했습니다.

- 필기체 인식은 여전히 전통적인 OCR이나 보조 기술의 도움이 필요한 영역이며,

  향후 개선이 필요한 시각 사고 모델의 대표적인 과제로 남아 있습니다.


 


5. 📊 OpenAI가 직접 밝힌 성능: 어느 정도로 뛰어난가?

OpenAI는 Thinking with Images를 소개하면서
기존의 멀티모달 AI(GPT-4V, Gemini, Claude 등)를 완전히 능가하는 성능을 보여주었다고 밝혔습니다.

대표적인 벤치마크 결과는 다음과 같습니다:

벤치마크 기존 모델 (GPT-4o) Thinking with Images (o3 기준)
MMMU (대학 수준 비주얼 문제 해결) 68.7% 82.9%
MathVista (시각 기반 수학 추론) 61.4% 86.8%
CharXiv (과학적 차트 해석) 52.7% 78.6%
V* (비정형 이미지 검색) 73.9% 95.7%

💡 단순한 이미지 ‘이해’를 넘어
문제의 본질을 이미지로부터 추론하고, 판단하며, 해석하는 능력에서
모든 영역에서 새로운 기준을 세운 것입니다.

 


⚠️ 기술적 유의점: 아직 완전하지는 않다

물론, 완벽한 것은 아닙니다.
OpenAI는 다음과 같은 현재 한계점을 명시적으로 밝혔습니다:

  • 사고 흐름의 과도한 확장
    → 불필요하게 복잡한 이미지 조작이 발생할 수 있음
  • 기초적인 시각 오류
    → 잘못된 회전 판단, 엉뚱한 텍스트 추출 등의 가능성
  • 일관성 부족
    → 같은 이미지라도 다른 방식으로 해석될 수 있음

그러나 이는 ‘오류’라기보다는
사고 과정의 다양성이라고도 해석할 수도 있으며,
결국 사람과 AI가 함께 사고의 흐름을 조정해 나가는 방식으로 극복 가능할 것으로 예상합니다.


6. 🎯 왜 모든 주체들이 주목해야 하는가?

이 기술은 단순한 OCR, 단순한 멀티모달 기능을 넘어서
지성의 패러다임을 바꾸는 잠재력을 지닙니다.

👤 개인에게: 직관력과 창의성의 진입로

  • 손그림이나 직관적 메모를 그대로 AI와 사고 흐름에 활용 가능
  • AI에게 복잡한 내용을 '그려서' 설명할 수 있는 시대
  • 머릿속 스케치와 현실 작업이 연결되는 경험

💼 기업에게: 의사결정의 속도와 정확성

  • 비정형 데이터(설계도, 지도, 문서 스캔본 등)를 실시간 분석
  • 생산공정, 의료 영상, 고객 필기 등 다양한 이미지 활용 가능
  • 빠르게 의미 파악 → 빠른 판단 → 실행으로 이어지는 루프 가능

👨‍🏫 교육자와 학습자에게: '암기'에서 '이해'로

  • 시각 자료를 중심으로 학습 → 이해도 향상
  • 학습자가 질문 없이 이미지로 사고를 전개해볼 수 있음
  • 교사는 설명 없이 예시만 보여주는 '생각 유도형 수업' 가능

🔬 연구자와 정책가에게: 복잡계 해석의 열쇠

  • 도시 구조, 기후 모델, 생물 실험 결과 등 복합적 이미지 분석 가능
  • 수치보다 이미지로 더 많은 정보를 담을 수 있음
  • '텍스트 기반 보고서'에서 '이미지 기반 인사이트'로 전환

 

7. 🧠 Thinking with Images가 여는 미래: AI와 함께 진화하는 지성

이 기술은 단지 AI가 똑똑해졌다는 얘기가 아닙니다.
그보다는, 인간의 사고 방식이 확장되는 계기일 수 있습니다.


💡 핵심 변화 요약

변화 전  변화 후
선형적텍스트 기반 사고 입체적인 이미지 기반 사고
정형화된 정보 중심 비정형 이미지, 직관적 정보 중심
인간 → AI 지시 구조 인간과 AI의 공동 사고 구조
"글로 설명"해야 이해됨 "이미지 하나로" 사고 전개 가능

🔮 미래의 지성은 이런 모습일 것입니다:

  • 질문하지 않아도, 이미지 하나로 사고를 시작할 수 있음
  • 복잡한 문제에 대해, AI가 도식·추론·요약을 함께 수행
  • 수많은 글이 아닌, 한 장의 이미지로 설득하고 설명
  • AI와 함께 공동의 사고를 통해 창의적 문제 해결을 도모

✍ 마무리: 이미지, 이제는 ‘생각의 언어’입니다

지금은 단지 새로운 기술이 아니라,
새로운 언어의 출현을 보고 있는 시점입니다.

텍스트 기반 사고의 벽을 넘어,
이미지를 통해 사고하고, AI와 함께 이해하고,
결국 새로운 지식과 통찰을 만들어내는 시대.


 

 

📎 댓글, 공유, 북마크 모두 환영합니다.
관심 있는 실습이나 확장 콘텐츠가 필요하다면 알려주세요!


 

👉 참고

https://openai.com/index/thinking-with-images

 

 

 

반응형