Meta에서 텍스트와 이미지 처리가 가능한 첫 번째 오픈소스 AI 모델인 Llama 3.2를 발표했습니다. 이 모델은 경량 버전부터 고성능 멀티모달 모델까지 다양한 형태로 제공됩니다. 이에 대하여 알아보고 텍스트와 이미지를 다루는 방법을 실습을 통하여 경험해 보겠습니다. 감사합니다.
Meta AI에서 공개한 Llama 3.1에 대하여 살펴보았습니다. 아직은 Closed model에 비하여 서비스 측면에서는 뒤지는 부분이 있으나 긴 시간으로 볼 때 오픈소스 분야에서도 지속적으로 모델이 향상되고 생태계에서 다른 부분과 연결이 될 수 있는 인공지능 모델이 지속적으로 발전되고 있는 것이 의미가 있다고 보여집니다. 감사합니다.
음성 번역을 위한 기본 멀티모달 모델로 전 세계가 더 가까워짐 (Bringing the world closer together with a foundational multimodal model for speech translation)
인터넷, 모바일 기기, 소셜 미디어, 커뮤니케이션 플랫폼이 전 세계적으로 확산되면서 사람들은 그 어느 때보다 더 많은 다국어 콘텐츠에 액세스할 수 있게 되었습니다. 이러한 상황에서 어떤 언어로든 정보를 전달하고 이해할 수 있는 온디맨드 능력이 점점 더 중요해지고 있습니다. 이러한 기능은 공상 과학 소설에서 오랫동안 꿈꿔왔던 것이지만, AI는 이러한 비전을 기술적으로 현실화하기 직전에 있습니다.
1. SeamlessM4T 기능 - 거의 100개 언어에 대한 자동 음성 인식 - 100개에 가까운 입력 및 출력 언어에 대한 음성-텍스트 번역 - 100개에 가까운 입력 언어와 35개(+영어) 출력 언어를 지원하는 음성 대 음성 번역 - 거의 100개 언어에 대한 텍스트-텍스트 번역 - 텍스트 음성 변환, 100개에 가까운 입력 언어와 35개(+영어) 출력 언어 지원
2. SeamlessM4T
- Meta가 생각하는 과제: 모든 작업을 수행할 수 있는 통합된 다국어 모델을 만드는 것
(1) 관련 모델, 데이터, 코드 제공
- 오픈 사이언스에 대한 접근 방식에 따라 연구자와 개발자가 이 작업을 기반으로 구축할 수 있도록 SeamlessM4T를 CC BY-NC 4.0에 따라 공개적으로 배포함
- 또한 현재까지 가장 큰 규모의 개방형 다중 모드 번역 데이터 세트(총 27만 시간 분량의 음성 및 텍스트)인 SeamlessAlign의 메타데이터도 공개함
- SeamlessM4T는 제한된 언어 지원 범위와 음성 대 음성 번역 작업을 하위 시스템에서 여러 단계로 나누는 별도의 시스템에 의존하는 문제를 해결함으로써 음성 대 음성 및 음성 대 텍스트 분야에서 중요한 돌파구를 마련했음 (은하수를 여행하는 히치하이커의 가이드에 등장하는 가상의 바벨 피쉬와 같은 범용 언어 번역기를 구축하는 것은 기존의 음성 대 음성 및 음성 대 텍스트 시스템이 전 세계 언어의 극히 일부만 지원하기 때문에 어려운 일이었음)
- 단일 모델은 서로 다른 언어를 사용하는 사람들이 보다 효과적으로 소통할 수 있도록 온디맨드 번역을 제공함
- 메타가 지원하는 저자원 및 중간 자원 언어의 성능을 크게 개선했음. 이러한 언어는 디지털 언어 사용량이 적은 언어임
- 또한 영어, 스페인어, 독일어와 같이 리소스가 많이 필요한 언어에 대해서도 강력한 성능을 유지함
- SeamlessM4T는 별도의 언어 식별 모델 없이도 소스 언어를 암시적으로 인식함
(3) 개발 경과
- 이 작업은 메타를 비롯한 여러 사람들이 수년간 범용 번역기를 만들기 위해 노력해 온 진보를 기반으로 함
- 작년에 우리는 200개 언어를 지원하는 텍스트-텍스트 기계 번역 모델인 NLLB(No Language Left Behind)를 출시했으며, 이후 위키백과에 번역 제공업체 중 하나로 통합되었음
- 몇 달 후에는 널리 사용되는 문자 체계가 없는 호키엔어를 위한 최초의 직접 음성 대 음성 번역 시스템인 유니버설 음성 번역기의 데모를 공개했음
- 이를 통해 지도식 표현 학습의 획기적인 기술인 SpeechLASER에서 파생된 최초의 대규모 다국어 음성-음성 번역 데이터 세트인 SpeechMatrix를 개발했음
- 올해 초에는 1,100개 이상의 언어에 대한 자동 음성 인식, 언어 식별 및 음성 합성 기술을 제공하는 대규모 다국어 음성도 공유했음
- SeamlessM4T는 이러한 모든 프로젝트에서 얻은 결과를 바탕으로 광범위한 음성 데이터 소스에 걸쳐 구축된 단일 모델에서 비롯된 다국어 및 다중 모드 번역 경험을 최첨단 결과와 함께 제공함
방법론
- 통합 모델을 구축하려면 가볍고 다른 최신 PyTorch 에코시스템 라이브러리와 쉽게 컴포저블할 수 있는 시퀀스 모델링 툴킷이 필요함
- 메타는 기존 염기서열 모델링 툴킷인 fairseq을 재설계했음
- 보다 효율적인 모델링과 데이터 로더 API를 갖춘 fairseq2는 SeamlessM4T의 모델링을 강화하는 데 도움이 됨 - 모델에는 번역된 텍스트와 음성을 직접 생성할 수 있는 멀티태스크 UnitY 모델 아키텍처를 사용함
- 이 새로운 아키텍처는 이미 바닐라 UnitY 모델의 일부인 자동 음성 인식, 텍스트-텍스트, 텍스트-음성, 음성-텍스트, 음성-음성 번역도 지원함
- 멀티태스크 UnitY 모델은 세 가지 주요 구성 요소로 이루어져 있음. 텍스트 및 음성 인코더는 거의 100개 언어의 음성 입력을 인식하는 작업을 수행함. 그런 다음 텍스트 디코더는 그 의미를 거의 100개 언어의 텍스트로 변환한 다음 텍스트-단위 모델을 통해 36개 음성 언어에 대한 개별 음향 단위로 디코딩함. 자체 감독 인코더, 음성-텍스트, 텍스트-텍스트 번역 구성 요소 및 텍스트-단위 모델은 모델의 품질을 개선하고 안정성을 학습하기 위해 사전 학습됨. 그런 다음 디코딩된 개별 단위는 다국어 HiFi-GAN 유닛 보코더를 사용하여 음성으로 변환됨.
1. 인코더가 음성을 처리하는 방법(How the encoder processes speech)
- 학습 안정성과 표현 품질을 개선한 w2v-BERT의 개선 버전인 자체 감독형 음성 인코더인 w2v-BERT 2.0은 수백만 시간의 다국어 음성을 분석하여 음성에서 구조와 의미를 찾는 방법을 학습함
- 인코더는 오디오 신호를 가져와서 더 작은 부분으로 나누고 말하는 내용의 내부 표현을 구축함
- 음성 단어는 수많은 소리와 문자로 구성되어 있기 때문에 길이 어댑터를 사용하여 실제 단어에 대략적으로 매핑함
2. 인코더가 텍스트를 처리하는 방법(How the encoder processes text)
- 마찬가지로, 메타는 NLLB 모델을 기반으로 하는 텍스트 인코더를 보유하고 있음. 이 인코더는 거의 100개 언어의 텍스트를 이해하고 번역에 유용한 표현을 생성하도록 훈련되었음
3. 텍스트 제작(Producing text)
- 텍스트 디코더는 인코딩된 음성 표현 또는 텍스트 표현을 받도록 훈련되어 있음- 이는 자동 음성 인식과 같은 동일한 언어의 작업이나 다국어 번역 작업에 적용할 수 있음. 예를 들어, 누군가가 프랑스어로 "봉주르"라는 단어를 말하면 스와힐리어로 번역된 텍스트는 "하바리"가 될 것으로 예상할 수 있음
- 멀티태스크 학습을 통해 강력한 텍스트-텍스트 번역 모델(NLLB)의 강점을 활용하여 토큰 수준의 지식 증류를 통해 음성-텍스트 번역 모델(speech-to-text translation model via token-level knowledge distillation)을 안내
4. 음성 생성(Producing speech)
- 음성을 표현하기 위해 음향 유닛을 사용함
- UnitY 모델의 텍스트-단위(T2U) 구성 요소는 텍스트 출력을 기반으로 이러한 개별 음성 단위를 생성하며, UnitY 미세 조정 전에 ASR 데이터에 대해 사전 학습됨
- 그런 다음 다국어 HiFi-GAN 유닛 보코더를 사용하여 이러한 개별 유닛을 오디오 파형으로 변환함
5. 데이터 스케일링(Data scaling)
- SeamlessM4T와 같은 데이터 기반 모델은 일반적으로 대량의 고품질 end-to-end 데이터, 즉 음성-텍스트 및 음성-음성 데이터의 이점을 활용함
- 사람이 표기하고 번역한 음성에만 의존하는 방식으로는 100개 언어에 대한 음성 번역이라는 까다로운 작업을 처리할 수 없음
- Lionbridge는 공동 임베딩 공간에서 유사도 측정을 사용한 텍스트 대 텍스트 마이닝에 대한 선구적인 작업과 음성 마이닝의 초기 작업을 기반으로 SeamlessM4T 모델 학습을 위한 추가 리소스를 구축함 - 먼저, 200개 언어를 위한 새로운 대규모 다국어 및 모달 텍스트 임베딩 공간(a new massively multilingual and -modal text embedding space for 200 languages)을 구축하는데, 이 공간은 다국어 유사도 검색에서 LASER3나 LaBSE와 같은 기존 접근 방식보다 훨씬 뛰어난 성능을 발휘하는 SONAR((Sentence-level mOdality- and laNguage-AgnosticRepresentations, 문장 수준의 모달리티 및 언어 인식적 표현)라고 명명되었음
- 그런 다음 교사-학생 접근 방식을 적용하여 이 임베딩 공간을 음성 양식으로 확장하고 현재 36개 언어를 지원함
- 마이닝은 공개적으로 사용 가능한 웹 데이터(수백억 개의 문장)와 음성(400만 시간)의 리포지토리에서 데이터로 수행됨. 총 443,000시간 이상의 음성을 텍스트와 자동으로 정렬하고 약 29,000시간의 음성 대 음성 정렬을 생성할 수 있었음
- SeamlessAlign이라고 불리는 이 말뭉치는 총량과 언어 커버리지 측면에서 현재까지 가장 큰 개방형 음성/음성 및 음성/텍스트 병렬 말뭉치임
6. 결과(Results)
- 이러한 작업과 언어에 대해 SeamlessM4T는 자동 음성 인식, 음성 대 텍스트, 음성 대 음성, 텍스트 대 음성, 텍스트 대 텍스트 번역에 걸쳐 거의 100개 언어에 대한 최첨단 결과와 멀티태스크 지원을 단일 모델에서 모두 달성함
- 또한 지원되는 저자원 및 중간 자원 언어의 성능을 크게 개선하고 고자원 언어에 대한 강력한 성능을 유지함 - 텍스트 기반 메트릭에 의존하지 않고 시스템을 더 정확하게 평가하기 위해 텍스트가 없는 메트릭을 BLASER 2.0으로 확장하여 이전 버전과 비슷한 정확도로 음성 및 텍스트 단위 전반을 평가할 수 있게 되었음
- 견고성을 테스트한 결과, 현재 최신 모델에 비해 음성-텍스트 작업에서 배경 소음과 화자 변화에 대해 시스템이 더 나은 성능을 보였음(각각 평균 37%, 48% 향상). - SeamlessM4T는 또한 이전의 최신 경쟁 제품보다 성능이 뛰어남
7. 책임감 있게 SeamlessM4T를 구축한 방법(How we built SeamlessM4T responsibly)
- 번역 시스템은 정확해야 함. 모든 AI 시스템과 마찬가지로 모델이 사람이 말하고자 하는 내용을 잘못 표기하거나 유해한 부분이 있거나 부정확한 결과물을 생성할 수 있는 내재적 위험이 존재 - Meta의 AI 연구 및 개발은 책임감 있는 AI의 다섯 가지 원칙에 따라 책임감 있는 프레임워크를 따름. 책임감 있는 AI에 대한 약속에 따라 유해한 부분과 편향성에 대한 연구를 수행하여 모델에서 어떤 영역이 민감할 수 있는지 파악했음
- 유해성(toxicity)이 있는 경우, 다국어 유해성 분류기를 음성으로 확장하여 음성 입력 및 출력에서 유해성 단어를 식별하는 데 도움을 주었음. 훈련 데이터에서 불균형한 유헤상을 필터링했음. 입력 또는 출력에 서로 다른 양의 유해성이 포함된 경우 해당 훈련 쌍을 제거했 - 2023.8월 공개하는 데모는 SeamlessM4T의 기능을 보여주는 것으로, 연구의 중요한 부분임. 데모에서는 입력과 출력 모두에서 유해성을 감지함. 출력에서만 유해성이 감지되면 유해성이 추가되었다는 의미임. 이 경우 경고를 포함하며 출력은 표시하지 않음.
- 이 모델을 최신 기술과 비교할 때 음성 대 음성 및 음성 대 텍스트 번역 모두에서 추가된 유해성을 크게 줄였다고 함 - 성별 편향(결과가 특정 성별에 불공정하게 유리하거나 성별 고정관념을 따르는 경우)도 대규모 언어에서 평가하기 시작한 또 다른 영역임. 이제 이전에 설계한 다국어 HolisticBias 데이터 세트를 음성으로 확장하여 수십 개의 음성 번역 방향에서 성별 편향을 정량화할 수 있게 되었다고 함