전체 데이터셋을 토크나이징하여 XLM-R 모델에 Fine tuning을 위해 전달할 데이터셋을 토큰화하는 것에 대하여 살펴보겠습니다. 감사합니다.

https://youtu.be/09dfo3BPZ5Y?si=6QWtf0g4GclysdU6

Hugging FaceTransformers 라이브러리는 사용자가 특정 목적에 맞춰 기존의 사전 훈련된 모델을 쉽게 수정하고 확장할 수 있도록 지원합니다. 이를 통해 사용자는새로운 모델을 처음부터 전부 구현하지 않고도, 기존 모델의 구조와 가중치를 활용하여 필요한 목표를 달성할 수 있는 맞춤형 모델을 효율적으로 만들 수 있습니다.

 

https://youtu.be/2GYGAfVr6VE

XLM-R (Cross-lingual Language Model - RoBERTa)은 다국어 트랜스포머 모델로, 여러 언어의 데이터를 학습하여 다양한 언어 간의 자연어 처리 작업을 수행할 수 있습니다.

XLM-R은 mBERT의 후속 모델로, 더 큰 사전 훈련 말뭉치와 개선된 훈련 방법을 사용하여 더 높은 성능을 제공합니다.

 

XLM-R 등에서 사용되는 SentencePiece 토큰화 등에 대하여 살펴보겠습니다.

 

https://youtu.be/hZWxaBq7ebI

 

다국어 개체명 인식에 있어 사용하는 벤치마크 데이터세트인 XTREME을 중심으로 살펴봅니다.

감사합니다.

 

 유튜브 영상

 

https://youtu.be/sMRZUv_4VY0

 

 

 

 

+ Recent posts