오늘 하루 이 창 열지 않음

‘피아노 선율을 사람 노랫소리로’…엔비디아 AI 오디오 선보여

2024-11-25 (월)

크게 작게

▶ 사람 목소리 억양도 바꿔…아직 공개 계획은 없어

인공지능(AI) 선두 주자인 엔비디아가 25일 목소리를 수정하고 새로운 소리를 생성할 수 있는 AI 음악·오디오 모델을 새롭게 선보였다고 로이터통신이 보도했다.

이 기능은 음악이나 영화, 비디오게임 등 관련 산업에 유용하게 쓰일 수 있지만 엔비디아는 아직 공식 출시 계획은 잡지 않고 있다.

'기본 생성형 오디오 변환 작품 1번'(Foundational Generative Audio Transformer Opus 1)의 머리글자를 따 '푸가토'(Fugatto)라고 이름 붙인 이 모델은 텍스트가 주어지면 음향 효과와 음악을 만들 수 있다.

앞서 런웨이와 같은 스타트업이나 메타 플랫폼과 같은 대기업들도 텍스트에서 오디오 또는 비디오를 생성할 수 있는 기술을 선보인 바 있다.

엔비디아의 AI 음악·오디오 새 모델이 다른 AI 기술과 다른 점은 피아노로 연주된 선율을 사람이 노래한 소리로 바꾸거나 사람의 음성 녹음을 변환해 엑센트나 말투, 분위기를 바꿀 수 있다는 것이라고 로이터는 전했다.

엔비디아의 응용 딥 러닝 연구 담당 부사장 브라이언 카탄자로는 "지난 50년간 합성 오디오 분야에서 컴퓨터와 신시사이저 덕분에 음악이 많이 새로워졌다"면서 "생성형 AI는 음악, 비디오 게임, 그리고 무언가를 창작하려는 일반인들에게 새로운 기능을 제공할 것"이라고 말했다.

챗GPT 개발사인 오픈AI와 같은 AI 기업들은 엔터테인먼트 업계에서 AI를 사용할 수 있는지와 방법을 놓고 할리우드 제작사들과 협상하고 있지만, 할리우드 스타 스칼릿 조핸슨의 목소리를 오픈AI가 무단 모방했다는 논란이 불거진 이후 협력이 쉽지 않은 상황이다.

엔비디아는 새 모델이 오픈 소스 데이터로 학습됐지만 공개 여부와 공개 방법은 아직 논의 중이라고 밝혔다.

카탄자로 부사장은 "모든 생성형 기술은 항상 약간의 위험을 수반한다. 사람들이 만들지 말아야 할 것을 만드는데 이 기술을 사용할 수 있기 때문"이라면서 "이 점을 주의해야 하기 때문에 우리는 이 모델을 당장 공개할 계획이 없다"고 말했다.

오픈AI나 메타 역시 오디오나 동영상을 생성하는 모델을 개발했으나 대중에게 공개할 계획은 밝히지 않고 있다.

<연합뉴스>