AI & Business (인공지능과 경영)/AI_Hugging Face

[인공지능 친해지기] Hugging Face - 트랜스포머 (11) 토큰 & 토큰화 방법

꿈공장장100 2023. 9. 17. 17:25

자연어 처리(NLP)에서 "토큰"과 "토큰화"는 중요한 개념입니다. 이들에 대한 간단한 살펴 보겠습니다.

 토큰 및 토큰화

1. 토큰(Token):
   - 토큰은 텍스트를 구성하는 개별 단위를 의미합니다. 토큰은 대체로 단어를 의미하지만, 문장 부호나 다른 문자열도 토큰이 될 수 있습니다.
   - 예를 들어, 문장 "안녕하세요, 저는 ChatGPT입니다."에서 "안녕하세요,", "저는", "ChatGPT입니다."는 각각 토큰으로 간주될 수 있습니다.

2. 토큰화(Tokenization):
   - 토큰화는 주어진 텍스트를 토큰으로 분리하는 과정을 의미합니다.
   - 토큰화는 여러 방법으로 수행될 수 있습니다. 가장 간단한 방법은 공백을 기준으로 텍스트를 분리하는 것입니다. 그러나, 다양한 언어와 문맥에서는 더 복잡한 토큰화 방법이 필요할 수 있습니다.
   - 예를 들어, "안녕하세요, 저는 ChatGPT입니다."라는 문장을 토큰화하면 ["안녕하세요,", "저는", "ChatGPT입니다."]와 같이 토큰의 리스트로 변환됩니다.

토큰화는 자연어 처리의 여러 작업에서 중요한 전처리 단계로 간주됩니다. 텍스트를 토큰으로 분리하면, 각 토큰을 개별적으로 분석하거나, 토큰 간의 관계를 파악하는 데 도움이 됩니다.

 

 토큰화의 다양한 활용

토큰화는 자연어 처리(NLP) 외에도 여러 분야에서 사용됩니다. 토큰화는 일반적으로 어떤 데이터나 정보를 더 작은 단위로 분리하는 과정을 의미합니다. 자연어 처리 외에도 토큰화의 사용 사례는 여러가지가 있습니다.
(1) 프로그래밍 및 컴파일러:
(2) 정보 검색:
(3) 생물정보학:
(4) 텍스트 마이닝:
(5) 보안:
이처럼 토큰화는 다양한 분야에서 데이터를 작은 단위로 분리하고 분석하는 데 사용되는 중요한 기술입니다.

 

 토큰화 방법

(1) 문자 토큰화

(2) 단어 토큰화

(3) 하위단위 토큰화

(4) 전체 데이터세트 토큰화

 

 토큰화 동영상

관련 토큰화 실습

https://youtu.be/MCok4wCX29M