본문 바로가기
먼테크

AudioPaLM (말하고 들을 수 있는 대규모 언어 모델)

by 먼버그 2023. 7. 2.
반응형

 

 

음성 이해 및 생성을 위한 대규모 언어 모델인 AudioPaLM을 소개합니다.

 

AudioPaLM은 텍스트 기반 및 음성 기반 언어 모델인 PaLM-2[Anil et al., 2023] 및 AudioLM[Borsos et al., 2022]을 음성 인식 및 음성 변환 등의 애플리케이션으로 텍스트와 음성을 처리하고 생성할 수 있는 통합 멀티모달 아키텍처로 융합합니다.

 

AudioPaLM은 AudioLM의 화자 식별 및 억양과 같은 보조 언어 정보와 PaLM-2와 같은 텍스트 대규모 언어 모델에만 존재하는 언어 지식을 보존하는 기능을 상속합니다.

 

텍스트 전용 대규모 언어 모델의 가중치로 AudioPaLM을 초기화하면 음성 처리가 향상되어 사전 학습에 사용되는 더 많은 양의 텍스트 학습 데이터를 성공적으로 활용하여 음성 작업을 지원한다는 것을 보여줍니다.

 

결과 모델은 음성 번역 작업을 위한 기존 시스템보다 훨씬 성능이 뛰어나며 학습에서 입력/대상 언어 조합이 표시되지 않은 많은 언어에 대해 제로 샷 음성-텍스트 번역을 수행할 수 있습니다.

 

AudioPaLM은 또한 짧은 음성 프롬프트를 기반으로 언어 간에 음성을 전송하는 것과 같은 오디오 언어 모델의 기능을 보여줍니다.

 

음성 대 음성 번역 및 자동 음성 인식에 대해 설명하는 AudioPaLM 모델입니다.

 

사전 학습된 텍스트 전용 모델(파선)을 가져와서 임베딩 매트릭스를 확장하여 새로운 오디오 토큰 세트를 모델링합니다.

 

그렇지 않으면 모델 아키텍처는 변경되지 않습니다. 텍스트 및 오디오 토큰의 혼합 시퀀스가 입력으로 공급되고 모델은 텍스트 또는 오디오 토큰을 디코딩합니다. 오디오 토큰은 후반 AudioLM 단계에서 원시 오디오로 다시 변환됩니다.

 

 

기존의 PaLM 같은 text LLM과 AudioLM 같은 audio LLM 을 합친 구조라고 합니다.

ASR 뿐만 아니라 speech를 곧바로 번역하거나, 심지어는 speech to speech translation 즉 화자의 원래 목소리와 비슷하게 번역된 audio를 생성할 수도 있습니다.

심지어 학습 셋에 없던 translation pair에 대해서도 동작한다고 하니 꽤 놀랍습니다.

아직까지 연구단계이지만 벌써부터 기대가 가득한  AudioLM 입니다.

 

 

반응형