▶ 소규모 데이터로도 언어 추가 가능…오픈소스로 공개

메타 로고[로이터]
페이스북 모회사 메타가 1천 가지가 넘는 음성 언어를 인식할 수 있는 인공지능(AI) 기술을 선보였다.
메타의 기초AI연구(FAIR) 팀은 소수 언어 등 1천600개 언어를 인식해 문자로 받아쓸 수 있는 자동음성인식(ASR) 체계를 10일 공개했다.
메타는 모든 언어를 인식할 수 있다는 뜻을 담아 이 기술을 '옴니링구얼'(Omnilingual)이라고 명명했다.
메타는 옴니링구얼이 지원하는 언어 가운데는 AI 전사(轉寫·한 언어의 발음을 다른 문자 체계로 옮기는 과정) 기능이 제공된 적이 없는 '저자원 언어'(데이터가 부족하거나 연구 또는 기술지원이 미흡한 언어) 500종이 포함됐다고 설명했다.
이는 지금까지 주요 AI가 공식적으로 수십 가지 정도의 언어를 지원하는 데 그친 것과 대조적이다.
대규모언어모델(LLM)에 의존하는 현재의 생성 AI는 관련 데이터가 많은 고자원 언어에서는 잘 동작하지만, 그렇지 않은 저자원 언어에서는 구동이 제한적이다.
또 출시한 모델에 새로운 언어 지원을 추가하려면 전문가가 주도하는 미세조정을 거쳐야 하는 불편함도 있었다.
그러나 옴니링구얼은 소량의 음성-문자 데이터 쌍만 있더라도 기본적인 수준의 음성 인식 기능을 쓸 수 있다는 것이 메타의 설명이다.
다만, 메타가 공개한 자료를 보면 옴니링구얼의 저자원 언어 문자 오류율은 고자원 언어보다는 상당히 높은 수준이다.
고자원 언어 249종과 중자원 언어 881종에서는 오류율 10% 미만인 언어가 95%에 달했지만, 저자원 언어 546종에서는 오류율 10% 미만인 언어가 36%에 불과했다.
메타는 이날 옴니링구얼에 적용된 매개변수 70억 개 규모 음성 인코더를 누구나 활용할 수 있도록 오픈소스로 풀었다. 음성 데이터를 자동으로 AI가 이해할 수 있는 벡터 데이터 형태로 정렬하는 도구다.
또 소수 언어 350종의 음성자료 말뭉치(corpus)도 공개했다.
<연합뉴스>