생성형 AI 성능 좌우하는 LLM(대규모 언어모델)… AI 영토 확장의 결정적 키
2023-10-18 (수) 12:00:00
▶ 뉴스·논문 등 무제한 공짜 학습
▶ 저작권 논란 갈수록 거세질 듯
네이버가 24일 공개한 ‘하이퍼클로바X’는 인공지능(AI)을 떠받치는 기술인 ‘대규모 언어모델’(LLM·Large Language Model)이다. 오픈AI의 ‘챗GPT’ 같은 생성형 AI의 성능을 좌우하는 기술이라 미래 먹거리인 AI 영토 확장 승부를 결정지을 열쇠로 불린다.
LLM은 각종 정보를 모아 공부한 뒤 맥락을 알고 적절한 답을 만들어 생성형 AI에 공급한다. 일종의 ‘AI 서버’인 셈이다. 방대한 양의 데이터를 학습한 LLM은 인간의 언어(자연어)를 깊이 있게 이해해 사람처럼 문장을 쓰거나 음악을 만드는 등 창작도 할 수 있다.
그런 생성형 AI도 ‘돈 먹는 하마’라는 한계가 있다. LLM을 구축하려면 많은 양의 데이터와 컴퓨팅 파워가 뒷받침돼야 하고, 상용화를 위한 연구개발(R&D) 과정에 천문학적 비용이 들어간다. 구글의 ‘팜2’와 마이크로소프트(MS)의 투자를 받은 오픈AI의 ‘GPT4’ 등이 사실상 점령하고 있는 배경이기도 하다. 현재 국내에서 글로벌 빅테크에 버금가는 AI 기술력을 갖춘 건 네이버가 유일하다는 평가가 많다. 네이버도 하이퍼클로바X를 비롯한 AI 분야 연구 개발을 위해 최근 3, 4년 동안 1조 원을 썼다.
네이버를 포함한 빅테크들이 공통적으로 해결해야 할 과제도 있다. 초거대 AI의 성능이 좋아질수록 공짜로 학습한 데이터의 양도 늘어나는 만큼 저작료를 둘러싼 논란이 거세다.
현행 저작권법에선 데이터 이용 목적이 이른바 공정 이용(공익)에 해당하면 허락이나 대가 없이 쓸 수 있다. 학교 교육이나 재판 등에 쓰는 경우다. AI는 여기에 해당하지 않지만 공익을 위한 신기술 개발임을 내세워 뉴스나 논문, 서적 등의 데이터를 학습에 마구잡이로 써 왔다. 네이버도 하이퍼클로바X에 뉴스와 블로그 데이터 등을 학습시켰다.
그러나 기업들이 생성형 AI로 수익화에 나선 이상 데이터를 학습하려면 허가를 받고 정당한 대가도 내야 한다는 지적이 나온다.