📌 목차


    1. DeepSeek-VL2 소개
    2. DeepSeek-VL2 모델의 핵심 기술
    3. DeepSeek-VL2 사용 방법
    4. DeepSeek-VL2 데모 실습(Hugging Face Space)
    5. 비교 실습
    6. 동영상

💡 실습과 관련 내용은 2025.2월 현재로 사용하는 시점에 따라 성능은 달라질 수 있습니다.


1. DeepSeek-VL2 소개

최근 멀티모달 AI의 발전 속도가 빠르게 증가하면서, 이미지와 텍스트를 동시에 처리하는 Vision-Language 모델(VLM)에 대한 관심이 높아지고 있습니다.
DeepSeek 팀에서 발표한 DeepSeek-VL2는 이러한 흐름을 반영하여 개발된 Mixture-of-Experts(MoE) 기반의 대규모 Vision-Language 모델입니다.
 
DeepSeek-VL2는 기존 DeepSeek-VL 모델을 개선한 버전으로,
이미지-텍스트 질의응답 (Visual Question Answering, VQA)
광학 문자 인식 (Optical Character Recognition, OCR)
문서, 표, 차트 이해 (Document/Table/Chart Understanding)
시각적 지시 이해 및 응답 (Visual Grounding)
등 다양한 멀티모달 태스크에서 뛰어난 성능을 보입니다.

DeepSeek-VL2 모델 구성

DeepSeek-VL2는 다음과 같은 세 가지 버전으로 제공됩니다.

모델명 활성화된 파라미터(억 개) 주요 특징
DeepSeek-VL2-Tiny 10 경량화 모델
DeepSeek-VL2-Small 28 밸런스 모델
DeepSeek-VL2 45 고성능 모델

특히, DeepSeek-VL2는 기존 공개된 MoE 기반 VLM 모델들과 비교해 유사한 또는 더 적은 활성화된 파라미터를 사용하면서도 뛰어난 성능을 보인다는 점에서 주목받고 있습니다.


2. DeepSeek-VL2 모델의 핵심 기술

🔹 Mixture-of-Experts (MoE) 구조

DeepSeek-VL2는 Mixture-of-Experts(MoE) 아키텍처를 채택하여, 특정 입력에 따라 활성화되는 전문가 네트워크를 조합하는 방식으로 작동합니다.
이를 통해, 모델이 더 적은 파라미터를 사용하면서도 대규모 모델 수준의 성능을 유지할 수 있습니다.

🔹 멀티모달 이해 및 고급 추론 능력

DeepSeek-VL2는 단순한 이미지-텍스트 매칭을 넘어,
문서 내 논리적 관계 파악
표와 차트에서 수치 및 의미 분석
손글씨 인식 (Bad Handwriting OCR)
연속적인 이미지 비교 및 판단
과 같은 고급 비주얼-언어 이해 능력을 갖추고 있습니다.
이러한 특성 덕분에, 자율주행, 의료 데이터 분석, 금융 데이터 시각화 등 다양한 분야에서 활용될 수 있습니다.
 

더보기

[참고] Mixture-of-Experts(MoE) 기반의 대규모 Vision-Language 모델이란?

📌 1. 기존 AI 모델과의 차이점

기존의 AI 모델은 하나의 거대한 신경망(Neural Network)을 사용하여 모든 입력 데이터를 처리합니다.
즉, 모든 작업에 대해 같은 모델이 전체 네트워크를 사용하므로,

  • 연산량이 많아 GPU/TPU 성능이 좋아야 하고
  • 모든 입력에 대해 동일한 수준의 계산이 적용되므로 비효율적인 경우가 많습니다.

💡 하지만 Mixture-of-Experts(MoE) 방식은 다릅니다!

📌 2. MoE 방식이란?

Mixture-of-Experts (MoE) 는 **"여러 개의 전문가(Experts) 네트워크를 조합하여 학습하는 방법"**입니다.
즉, 하나의 거대한 모델이 아닌 여러 개의 작은 전문가 모델(Experts)들이 존재하며,
각 입력 데이터에 따라 가장 적절한 전문가 모델이 선택되어 실행됩니다.

✔ 하나의 모델이 모든 문제를 해결하는 것이 아니라,
입력된 데이터의 특성에 따라 가장 적절한 전문가(Expert) 모델을 선택하여 계산하는 방식입니다.

예를 들어,
📌 Vision-Language 모델(VLM)에서 MoE가 적용되는 방식

  • **OCR(광학 문자 인식)**이 필요한 경우: OCR 전문가 네트워크 활성화
  • 이미지 속 객체 분석이 필요한 경우: 이미지 분석 전문가 네트워크 활성화
  • 표와 차트 해석이 필요한 경우: 표/차트 분석 전문가 네트워크 활성화

💡 즉, 필요한 부분만 연산을 수행하므로 연산량을 줄일 수 있으며, 최적의 성능을 발휘할 수 있습니다.

 

 


3. DeepSeek-VL2 사용 방법

DeepSeek-VL2 모델을 직접 실행하는 방법은 두 가지가 있습니다.

✅ 1) Hugging Face 데모 페이지 활용 (권장)

DeepSeek-VL2는 모델 크기(32GB)가 커서, Google Colab에서 실행하기 어렵습니다.
따라서, Hugging Face에서 제공하는 웹 데모 페이지를 직접 활용하는 것이 가장 좋은 방법입니다.
👉 🔗 DeepSeek-VL2-Small Demo (Hugging Face)
https://huggingface.co/spaces/deepseek-ai/deepseek-vl2-small

 

Chat with DeepSeek-VL2-small - a Hugging Face Space by deepseek-ai

Running on Zero

huggingface.co

 
📌 사용 방법:

  1. 위 링크를 클릭하여 Hugging Face 데모 페이지로 이동
  2. "Upload Image" 버튼을 클릭하여 테스트할 이미지를 업로드
  3. 텍스트 입력창에 질문 입력 (예: "What is written in this image?")
  4. "Run" 버튼 클릭 → 모델이 이미지를 분석하고 답변 생성

Colab 환경 없이도 바로 실행 가능
무료로 사용할 수 있으며, 강력한 GPU를 필요로 하지 않음


✅ 2) Hugging Face API를 활용한 실행 (Google Colab)

Hugging Face API를 활용하면, Colab에서 직접 실행하지 않고도 DeepSeek-VL2 모델을 사용할 수 있습니다.
📌 Google Colab에서 실행하는 코드:

# 1. 필수 라이브러리 설치
!pip install --upgrade requests

import os
import requests
import json
from google.colab import userdata
from google.colab import files

# 2. Hugging Face Token 불러오기 (Google Colab Secrets 활용)
HF_TOKEN = userdata.get("HuggingFace_Token")

if HF_TOKEN:
    print("✅ Hugging Face Token Loaded Successfully!")
    os.environ["HUGGINGFACEHUB_API_TOKEN"] = HF_TOKEN
else:
    print("❌ Hugging Face Token Not Found! Please check the Colab secrets.")

# 3. Hugging Face API URL 설정
API_URL = "https://api-inference.huggingface.co/models/deepseek-ai/deepseek-vl2-small"
headers = {"Authorization": f"Bearer {HF_TOKEN}"}

# 4. 사용자 노트북에서 이미지 업로드
print("📤 이미지 파일을 업로드하세요...")
uploaded = files.upload()

# 업로드된 파일 확인 후 첫 번째 파일 선택
image_path = list(uploaded.keys())[0]
print(f"📂 업로드된 파일: {image_path}")

# 5. Hugging Face API로 이미지 분석 요청
with open(image_path, "rb") as image_file:
    image_data = image_file.read()

response = requests.post(API_URL, headers=headers, files={"file": image_data})

# 6. 결과 출력
if response.status_code == 200:
    result = response.json()
    print("📝 AI의 응답:", json.dumps(result, indent=4, ensure_ascii=False))
else:
    print("❌ API 호출 실패:", response.text)

⚠ 주의:
현재 Hugging Face API는 10GB 이상 모델을 실행할 수 없기 때문에, DeepSeek-VL2 API는 사용할 수 없습니다.
따라서, 일반 무료 사용자들은 Hugging Face 데모 페이지를 활용하는 것이 가장 현실적인 방법입니다.
 

✅ 3) DeepSeek V3나 ChatGPT 모두 가능

현재는 사실 ChatGPT의 Multimodal이 더 편리하고 강력. 그러나, 후발주자의 발전은 결국 소비자의 효용 증대로 연결된다는 사실!!!


4. DeepSeek-VL2 데모 실습(Hugging Face Space)

(1) 실습 손글씨 데이터
- 영문
"Deep learning models like DeepSeek-VL2 are improving rapidly. Let's see how well it recognizes handwritten text."

 
- 한글
"DeepSeek-VL2 같은 딥러닝 모델은 빠르게 발전하고 있습니다. 손글씨를 얼마나 잘 인식하는지 확인해 봅시다."

 
(2) Hugging Face Space Demo
- 데모 화면: Chat with DeepSeek-VL2-small

 
(3) 실습
 
- 영문 데이터: "Deep learning models like DeepSeek-VL2 are improving rapidly. Let's see how well it recognizes handwritten text."

 
- 한글 데이터: "DeepSeek-VL2 같은 딥러닝 모델은 빠르게 발전하고 있습니다. 손글씨를 얼마나 잘 인식하는지 확인해 봅시다."
-
한글은 현재 처리를 못하고 있습니다 ~

 
DeepSeek-VL2는 차세대 Vision-Language 모델 중 가장 강력한 MoE 기반 모델 중 하나로 평가됩니다.

 

5. 비교 실습

(1) DeepSeek V3 실습 
 
- 영문과 한글 
- 한글은 실습일 현재 (2025.2월) 제대로 되지 않고 있음
- 영문의 경우: 상기 DeepSeek-VL2 와 비교할 때 거의 동일함. (단, 이 실습에서 재미있는 것은 "VL2"라고 씌여 있는 것을 DeepSeek-VL2 에서는 정확히 읽고 있으나 DeepSeek V3는 "UL2"라고 되어 있네요.) 

 
(2) ChatGPT 4o
- 영문

 
 
- 한글

 

6. 동영상

https://youtu.be/4oC45e1GPr4

 

- YouTube

 

www.youtube.com

 
참고:
https://huggingface.co/deepseek-ai/deepseek-vl2-small

OpenAI o3-mini: 비용 효율적 AI 추론의 새 시대를 열다

2025년 1월 31일, OpenAI는 새로운 인공지능 모델 o3-mini를 공식 출시했습니다. ChatGPT 및 API에서 즉시 사용 가능한 이 모델은 뛰어난 비용 효율성과 강력한 추론 능력을 결합하여 AI 기술의 새로운 기준을 제시하고 있습니다. 특히, 과학(STEM), 수학, 코딩 등 기술적 도메인에서 탁월한 성능을 발휘하면서도, 기존 모델보다 더 빠르고 저렴하게 제공된다는 점에서 주목받고 있습니다.


1. OpenAI o3-mini의 핵심 특징

① 강력한 STEM 능력과 합리적인 비용

o3-mini는 특히 과학, 수학, 코딩과 같은 기술 분야에서 강력한 성능을 자랑합니다. 기존 OpenAI o1-mini 대비 더 높은 수준의 추론 능력을 제공하면서도, 지연 시간(latency)이 줄어들고 비용이 낮아졌습니다.

2024년 12월 프리뷰 당시부터 주목받았던 이 모델은, 작은 모델이 도달할 수 있는 성능의 한계를 확장하는 데 집중했습니다. 실제로, OpenAI의 테스트 결과에 따르면 o3-mini는 고난도의 실전 문제에서도 기존 모델보다 더 정확하고 명확한 답변을 생성하는 것으로 평가되었습니다.

② 프로덕션 준비 완료: 새로운 개발자 기능 지원

o3-mini는 OpenAI의 소형 추론 모델 중 최초로 아래와 같은 기능을 지원합니다.

  • 함수 호출 (Function Calling): 개발자가 AI와의 상호작용을 보다 정교하게 제어 가능
  • 구조화된 출력 (Structured Outputs): JSON 등의 구조화된 데이터 형식으로 결과 제공
  • 개발자 메시지 (Developer Messages): 프로덕션 환경에서 보다 실용적인 AI 사용 가능

이를 통해, o3-mini는 단순한 AI 챗봇을 넘어 실제 비즈니스 및 소프트웨어 개발 환경에서 즉시 활용할 수 있는 모델로 자리 잡을 준비가 되었습니다.

③ 스트리밍 및 사용자 맞춤형 추론 강도 선택

o3-mini는 스트리밍(streaming)을 지원하며, 개발자는 상황에 맞춰 추론 강도(Reasoning Effort)를 조절할 수 있습니다.

  • 낮음(Low): 빠른 응답이 필요한 경우
  • 중간(Medium): 속도와 정확성의 균형을 유지
  • 높음(High): 복잡한 문제 해결 시 깊이 있는 추론 가능

이 옵션을 통해, 개발자는 응답 속도와 정확도 사이에서 최적의 균형을 찾을 수 있습니다. 특히, 고난도 문제를 해결해야 하는 경우 o3-mini의 고추론(High reasoning) 모드를 활용하면 더욱 강력한 성능을 발휘합니다.

④ 비전 기능 미지원, 하지만 검색 기능 추가

o3-mini는 이미지 인식(비전) 기능을 지원하지 않으므로, 시각적 데이터를 분석하려면 기존 OpenAI o1 모델을 사용해야 합니다. 그러나, 새롭게 추가된 검색 기능을 통해, o3-mini는 최신 정보를 찾아 관련 웹 링크와 함께 제공할 수 있습니다. 이는 OpenAI가 추론 모델에 검색 기능을 통합하려는 초기 단계로, 향후 더욱 발전할 것으로 예상됩니다.


2. OpenAI o3-mini의 성능: 기존 모델과의 비교

① 수학 및 과학 문제 해결 능력 향상

o3-mini는 수학 및 과학 시험에서 기존 모델보다 더 높은 정확도를 기록했습니다.

📌 경쟁 수학 (AIME 2024)

  • o3-mini(High) 버전의 정확도: 83.6% (기존 모델 대비 대폭 향상)

📌 박사 과정 수준의 과학 문제 (GPQA Diamond)

  • o3-mini(High) 버전의 정확도: 77.0% (기존 모델보다 우수한 성능)

📌 고급 수학 문제 (FrontierMath)

  • Python 도구 활용 시, 32% 이상의 문제를 첫 시도에서 해결
  • 도전적인 문제(T3)의 28% 이상 해결

이러한 성과는 o3-mini가 고급 수학과 과학 분야에서도 경쟁력 있는 성능을 발휘한다는 점을 보여줍니다.

② 경쟁 프로그래밍 및 소프트웨어 엔지니어링

o3-mini는 경쟁 프로그래밍(Codeforces) 및 소프트웨어 엔지니어링(SWE-bench) 평가에서도 뛰어난 성과를 보였습니다.

📌 경쟁 프로그래밍 (Codeforces)

  • o3-mini(High)의 Elo 점수: 2073 (기존 모델 대비 대폭 향상)

📌 소프트웨어 엔지니어링 (SWE-bench)

  • SWE-bench Verified 테스트에서 48.9% 정확도로 최고 성능 달성

이러한 결과는 o3-mini가 단순한 대화형 AI를 넘어, 실제 소프트웨어 개발 환경에서도 활용 가능함을 보여줍니다.


3. ChatGPT 및 API에서의 접근 가능성

① ChatGPT Plus, Team, Pro 사용자 대상 즉시 제공

ChatGPT Plus, Team, Pro 사용자는 오늘부터 즉시 o3-mini를 사용할 수 있으며, Enterprise 사용자에게는 2월부터 제공됩니다.

특히, 이번 업데이트를 통해 Plus 및 Team 사용자들의 메시지 한도가 50개에서 150개로 증가했습니다.

② 무료 사용자도 체험 가능

무료 사용자도 메시지 작성기에서 ‘Reason’ 모드를 선택하거나 응답을 다시 생성하면 o3-mini를 체험할 수 있습니다. 이는 OpenAI가 무료 사용자에게 추론 모델을 공개한 최초의 사례입니다.


4. OpenAI o3-mini의 미래와 의미

o3-mini의 출시는 AI 모델의 성능을 유지하면서도 비용을 줄이는 새로운 혁신 방향을 제시합니다. OpenAI는 GPT-4 출시 이후 토큰당 비용을 95% 절감했으며, 이번에도 고품질 AI를 더욱 저렴하게 제공하기 위해 노력하고 있습니다.

🔹 앞으로 기대할 점

  • AI 추론 모델에서 검색 기능이 점점 더 강화될 가능성
  • 비용 대비 효율적인 AI 도입이 점점 더 쉬워질 것
  • 기술 도메인(STEM, 코딩 등)에서 AI의 역할 확대

o3-mini는 단순한 AI 모델이 아니라, 비용 효율성과 고성능을 동시에 제공하는 AI의 새로운 기준을 제시하고 있습니다. 앞으로 OpenAI가 어떤 혁신을 이어나갈지 기대됩니다.

📌 여러분은 o3-mini를 어떻게 활용할 계획인가요? 의견을 댓글로 남겨주세요! 🚀

 

한국계리사회와 한국리스크관리학회 2024년 세미나에서 발표한 "신제도(IFRS17, K-ICS)와 AI환경 하의 한국보험산업 리스크관리의 도전과 위기"에 대한 내용입니다. 감사합니다.

https://youtu.be/t5As0yRrfkQ?si=__mOJ__X3IESFs22

 

OpenAI가 개발한 Swarm 프레임워크는 멀티 에이전트 시스템을 간단하고 효율적으로 구현해 볼 수 있는 강력한 도구입니다. 이를 통해 멀티에이전트를 간단히 경험해볼 수 있습니다. 감사합니다.

 

https://youtu.be/uomb--6uvq4?si=s6tBFl9IybE4GWkX

 

 

 

+ Recent posts