AI & Business (인공지능과 경영)/Meta AI

[Meta AI] (1) SeamlessM4T - ① (바벨탑 붕괴) 세계 여행도 사귐도 자유롭게! 36개 언어 음성 통역

꿈공장장100 2023. 8. 26. 19:55

 

SeamlessM4T

 

이번 글에서는 2023년 8월 며칠전 발표된 SeamlessM4T 인공지능 모델을 소개합니다.

 

M4T가 무엇이지 궁금하여 찾아보니 논문 제목(SeamlessM4T—Massively Multilingual & Multimodal Machine
Translation)에 그 해답이 있었습니다.  번역을 하면 "대규모 다국어 및 다중 모드 기계 번역"입니다.

 

"대규모(Massively) 다국어(Multilingual) 및 다중(Multimodal) 기계(Machine) Translation" 이라는 제목에서 이미 그 기능을 기대하게 합니다.

 

이하는 메타의 관련 소개 글을 번역 및 정리하였습니다.

 

유투브 설명 및 실습영상

https://youtu.be/8qVOWUQUz-k?si=zqDVYkoX02AU2Yfc 

 

 

음성 번역을 위한 기본 멀티모달 모델로 전 세계가 더 가까워짐
(Bringing the world closer together with a foundational multimodal model for speech translation)

인터넷, 모바일 기기, 소셜 미디어, 커뮤니케이션 플랫폼이 전 세계적으로 확산되면서 사람들은 그 어느 때보다 더 많은 다국어 콘텐츠에 액세스할 수 있게 되었습니다. 이러한 상황에서 어떤 언어로든 정보를 전달하고 이해할 수 있는 온디맨드 능력이 점점 더 중요해지고 있습니다. 이러한 기능은 상 과학 소설에서 오랫동안 꿈꿔왔던 것이지만, AI는 이러한 비전을 기술적으로 현실화하기 직전에 있습니다.

 

 1. SeamlessM4T 기능
- 거의 100개 언어에 대한 자동 음성 인식
- 100개에 가까운 입력 및 출력 언어에 대한 음성-텍스트 번역
- 100개에 가까운 입력 언어와 35개(+영어) 출력 언어를 지원하는 음성 대 음성 번역
- 거의 100개 언어에 대한 텍스트-텍스트 번역
- 텍스트 음성 변환, 100개에 가까운 입력 언어와 35개(+영어) 출력 언어 지원

 

2. SeamlessM4T

- Meta가 생각하는 과제: 모든 작업을 수행할 수 있는 통합된 다국어 모델을 만드는 것

 

(1) 관련 모델, 데이터, 코드 제공 

- 오픈 사이언스에 대한 접근 방식에 따라 연구자와 개발자가 이 작업을 기반으로 구축할 수 있도록 SeamlessM4T를 CC BY-NC 4.0에 따라 공개적으로 배포함

- 또한 현재까지 가장 큰 규모의 개방형 다중 모드 번역 데이터 세트(총 27만 시간 분량의 음성 및 텍스트)인 SeamlessAlign의 메타데이터도 공개함

- 관련 코드도 제공

https://github.com/facebookresearch/stopes

https://github.com/facebookresearch/fairseq2

 

(2) SeamlessM4T의 특징

- SeamlessM4T는 제한된 언어 지원 범위와 음성 대 음성 번역 작업을 하위 시스템에서 여러 단계로 나누는 별도의 시스템에 의존하는 문제를 해결함으로써 음성 대 음성 및 음성 대 텍스트 분야에서 중요한 돌파구를 마련했음 (은하수를 여행하는 히치하이커의 가이드에 등장하는 가상의 바벨 피쉬와 같은 범용 언어 번역기를 구축하는 것은 기존의 음성 대 음성 및 음성 대 텍스트 시스템이 전 세계 언어의 극히 일부만 지원하기 때문에 어려운 일이었음)

- 단일 모델은 서로 다른 언어를 사용하는 사람들이 보다 효과적으로 소통할 수 있도록 온디맨드 번역을 제공

- 메타가 지원하는 저자원 및 중간 자원 언어의 성능을 크게 개선했음. 이러한 언어는 디지털 언어 사용량이 적은 언어임

- 또한 영어, 스페인어, 독일어와 같이 리소스가 많이 필요한 언어에 대해서도 강력한 성능을 유지

- SeamlessM4T는 별도의 언어 식별 모델 없이도 소스 언어를 암시적으로 인식함

 

(3) 개발 경과

- 이 작업은 메타를 비롯한 여러 사람들이 수년간 범용 번역기를 만들기 위해 노력해 온 진보를 기반으로 함

- 작년에 우리는 200개 언어를 지원하는 텍스트-텍스트 기계 번역 모델인 NLLB(No Language Left Behind)를 출시했으며, 이후 위키백과에 번역 제공업체 중 하나로 통합되었음

- 몇 달 후에는 널리 사용되는 문자 체계가 없는 호키엔어를 위한 최초의 직접 음성 대 음성 번역 시스템인 유니버설 음성 번역기의 데모를 공개했음

- 이를 통해 지도식 표현 학습의 획기적인 기술인 SpeechLASER에서 파생된 최초의 대규모 다국어 음성-음성 번역 데이터 세트인 SpeechMatrix를 개발했음

- 올해 초에는 1,100개 이상의 언어에 대한 자동 음성 인식, 언어 식별 및 음성 합성 기술을 제공하는 대규모 다국어 음성도 공유했음

- SeamlessM4T는 이러한 모든 프로젝트에서 얻은 결과를 바탕으로 광범위한 음성 데이터 소스에 걸쳐 구축된 단일 모델에서 비롯된 다국어 및 다중 모드 번역 경험을 최첨단 결과와 함께 제공함

 

 방법론

 

- 통합 모델을 구축하려면 가볍고 다른 최신 PyTorch 에코시스템 라이브러리와 쉽게 컴포저블할 수 있는 시퀀스 모델링 툴킷이 필요함

- 메타는 기존 염기서열 모델링 툴킷인 fairseq을 재설계했음

- 보다 효율적인 모델링과 데이터 로더 API를 갖춘 fairseq2는 SeamlessM4T의 모델링을 강화하는 데 도움이 됨
- 모델에는 번역된 텍스트와 음성을 직접 생성할 수 있는 멀티태스크 UnitY 모델 아키텍처를 사용함

- 이 새로운 아키텍처는 이미 바닐라 UnitY 모델의 일부인 자동 음성 인식, 텍스트-텍스트, 텍스트-음성, 음성-텍스트, 음성-음성 번역도 지원함

- 멀티태스크 UnitY 모델은 세 가지 주요 구성 요소로 이루어져 있음. 텍스트 및 음성 인코더는 거의 100개 언어의 음성 입력을 인식하는 작업을 수행함. 그런 다음 텍스트 디코더는 그 의미를 거의 100개 언어의 텍스트로 변환한 다음 텍스트-단위 모델을 통해 36개 음성 언어에 대한 개별 음향 단위로 디코딩함. 자체 감독 인코더, 음성-텍스트, 텍스트-텍스트 번역 구성 요소 및 텍스트-단위 모델은 모델의 품질을 개선하고 안정성을 학습하기 위해 사전 학습됨. 그런 다음 디코딩된 개별 단위는 다국어 HiFi-GAN 유닛 보코더를 사용하여 음성으로 변환됨.

 

 

1. 인코더가 음성을 처리하는 방법(How the encoder processes speech)

- 학습 안정성과 표현 품질을 개선한 w2v-BERT의 개선 버전인 자체 감독형 음성 인코더인 w2v-BERT 2.0은 수백만 시간의 다국어 음성을 분석하여 음성에서 구조와 의미를 찾는 방법을 학습

- 인코더는 오디오 신호를 가져와서 더 작은 부분으로 나누고 말하는 내용의 내부 표현을 구축함

- 음성 단어는 수많은 소리와 문자로 구성되어 있기 때문에 길이 어댑터를 사용하여 실제 단어에 대략적으로 매핑함

2. 인코더가 텍스트를 처리하는 방법(How the encoder processes text)

- 마찬가지로, 메타는 NLLB 모델을 기반으로 하는 텍스트 인코더를 보유하고 있음. 이 인코더는 거의 100개 언어의 텍스트를 이해하고 번역에 유용한 표현을 생성하도록 훈련되었음

 

3. 텍스트 제작(Producing text)

- 텍스트 디코더는 인코딩된 음성 표현 또는 텍스트 표현을 받도록 훈련되어 있음 - 이는 자동 음성 인식과 같은 동일한 언어의 작업이나 다국어 번역 작업에 적용할 수 있음. 예를 들어, 누군가가 프랑스어로 "봉주르"라는 단어를 말하면 스와힐리어로 번역된 텍스트는 "하바리"가 될 것으로 예상할 수 있음

 

- 멀티태스크 학습을 통해 강력한 텍스트-텍스트 번역 모델(NLLB)의 강점을 활용하여 토큰 수준의 지식 증류를 통해 음성-텍스트 번역 모델(speech-to-text translation model via token-level knowledge distillation)을 안내

4. 음성 생성(Producing speech)

- 음성을 표현하기 위해 음향 유닛을 사용함 

- UnitY 모델의 텍스트-단위(T2U) 구성 요소는 텍스트 출력을 기반으로 이러한 개별 음성 단위를 생성하며, UnitY 미세 조정 전에 ASR 데이터에 대해 사전 학습됨

- 그런 다음 다국어 HiFi-GAN 유닛 보코더를 사용하여 이러한 개별 유닛을 오디오 파형으로 변환

5. 데이터 스케일링(Data scaling)

- SeamlessM4T와 같은 데이터 기반 모델은 일반적으로 대량의 고품질 end-to-end 데이터, 즉 음성-텍스트 및 음성-음성 데이터의 이점을 활용

- 사람이 표기하고 번역한 음성에만 의존하는 방식으로는 100개 언어에 대한 음성 번역이라는 까다로운 작업을 처리할 수 없음

- Lionbridge는 공동 임베딩 공간에서 유사도 측정을 사용한 텍스트 대 텍스트 마이닝에 대한 선구적인 작업과 음성 마이닝의 초기 작업을 기반으로 SeamlessM4T 모델 학습을 위한 추가 리소스를 구축함
- 먼저, 200개 언어를 위한 새로운 대규모 다국어 및 모달 텍스트 임베딩 공간(a new massively multilingual and -modal text embedding space for 200 languages)을 구축하는데, 이 공간은 다국어 유사도 검색에서 LASER3나 LaBSE와 같은 기존 접근 방식보다 훨씬 뛰어난 성능을 발휘하는 SONAR( (Sentence-level mOdality- and laNguage-Agnostic Representations, 문장 수준의 모달리티 및 언어 인식적 표현)라고 명명되었음

- 그런 다음 교사-학생 접근 방식을 적용하여 이 임베딩 공간을 음성 양식으로 확장하고 현재 36개 언어를 지원함

- 마이닝은 공개적으로 사용 가능한 웹 데이터(수백억 개의 문장)와 음성(400만 시간)의 리포지토리에서 데이터로 수행됨. 총 443,000시간 이상의 음성을 텍스트와 자동으로 정렬하고 약 29,000시간의 음성 대 음성 정렬을 생성할 수 있었음

- SeamlessAlign이라고 불리는 이 말뭉치는 총량과 언어 커버리지 측면에서 현재까지 가장 큰 개방형 음성/음성 및 음성/텍스트 병렬 말뭉치임

 

6. 결과(Results)

- 이러한 작업과 언어에 대해 SeamlessM4T는 자동 음성 인식, 음성 대 텍스트, 음성 대 음성, 텍스트 대 음성, 텍스트 대 텍스트 번역에 걸쳐 거의 100개 언어에 대한 최첨단 결과와 멀티태스크 지원을 단일 모델에서 모두 달성

- 또한 지원되는 저자원 및 중간 자원 언어의 성능을 크게 개선하고 고자원 언어에 대한 강력한 성능을 유지
- 텍스트 기반 메트릭에 의존하지 않고 시스템을 더 정확하게 평가하기 위해 텍스트가 없는 메트릭을 BLASER 2.0으로 확장하여 이전 버전과 비슷한 정확도로 음성 및 텍스트 단위 전반을 평가할 수 있게 되었음

- 견고성을 테스트한 결과, 현재 최신 모델에 비해 음성-텍스트 작업에서 배경 소음과 화자 변화에 대해 시스템이 더 나은 성능을 보였음(각각 평균 37%, 48% 향상).
- SeamlessM4T는 또한 이전의 최신 경쟁 제품보다 성능이 뛰어남

 

 

7. 책임감 있게 SeamlessM4T를 구축한 방법(How we built SeamlessM4T responsibly)

- 번역 시스템은 정확해야 함. 모든 AI 시스템과 마찬가지로 모델이 사람이 말하고자 하는 내용을 잘못 표기하거나 유해한 부분이 있거나 부정확한 결과물을 생성할 수 있는 내재적 위험이 존재
- Meta의 AI 연구 및 개발은 책임감 있는 AI의 다섯 가지 원칙에 따라 책임감 있는 프레임워크를 따름. 책임감 있는 AI에 대한 약속에 따라 유해한 부분과 편향성에 대한 연구를 수행하여 모델에서 어떤 영역이 민감할 수 있는지 파악했음

- 유해성(toxicity)이 있는 경우, 다국어 유해성 분류기를 음성으로 확장하여 음성 입력 및 출력에서 유해성 단어를 식별하는 데 도움을 주었음. 훈련 데이터에서 불균형한 유헤상을 필터링했음. 입력 또는 출력에 서로 다른 양의 유해성이 포함된 경우 해당 훈련 쌍을 제거했
- 2023.8월 공개하는 데모는 SeamlessM4T의 기능을 보여주는 것으로, 연구의 중요한 부분임. 데모에서는 입력과 출력 모두에서 유해성을 감지함. 출력에서만 유해성이 감지되면 유해성이 추가되었다는 의미임. 이 경우 경고를 포함하며 출력은 표시하지 않음.

- 이 모델을 최신 기술과 비교할 때 음성 대 음성 및 음성 대 텍스트 번역 모두에서 추가된 유해성을 크게 줄였다고 함
- 성별 편향(결과가 특정 성별에 불공정하게 유리하거나 성별 고정관념을 따르는 경우)도 대규모 언어에서 평가하기 시작한 또 다른 영역임. 이제 이전에 설계한 다국어 HolisticBias 데이터 세트를 음성으로 확장하여 수십 개의 음성 번역 방향에서 성별 편향을 정량화할 수 있게 되었다고 함

 

 

 

 

※ 논문

(Paper_2023) SeamlessM4T—Massively Multilingual & Multimodal Machine.pdf
2.81MB

 

 

※ 관련 코드

https://github.com/facebookresearch/seamless_communication

 

GitHub - facebookresearch/seamless_communication: Foundational Models for State-of-the-Art Speech and Text Translation

Foundational Models for State-of-the-Art Speech and Text Translation - GitHub - facebookresearch/seamless_communication: Foundational Models for State-of-the-Art Speech and Text Translation

github.com

 

※ 관련 데모

 

https://seamless.metademolab.com/

 

Seamless Communication Translation Demo

 

seamless.metademolab.com