통제 벗어난 AI… ‘생존본능 제거’AI로 견제

2025-06-05 (목) 12:00:00

크게 작게

▶ ‘똑똑한 안전장치 필요’

▶ 감시 비영리단체 출범

세계적인 인공지능(AI) 석학인 요슈아 벤지오 캐나다 몬트리올대 교수가 인간의 통제를 벗어난 AI의 출현에 대비해 안전장치 역할을 할 새로운 ‘과학자 AI’ 모델 개발에 나선다.

3일 영국 일간 가디언에 따르면 벤지오 교수는 세계적으로 개발 경쟁이 불붙고 있는 AI의 안전을 연구하기 위한 비영리 단체 ‘로제로’(LawZero)를 설립했다. 해당 단체는 AI가 인류의 통제를 벗어날 것에 대비해 안전장치 역할을 할 새로운 AI 모델을 개발하는 것을 목표로 한다.

‘과학자 AI’로 불리는 이 새로운 AI 시스템은 최근 등장하고 있는 AI 모델들과 달리 인간을 모방하지 않으면서 다른 AI 모델의 위험한 행동을 예측하고 방지하는 데에 중점을 둘 것이라고 벤지오 교수는 설명했다.

이러한 연구는 현재 개발되는 대부분의 AI가 인간의 행동과 사고방식을 학습한 결과 남을 속이거나 해쳐서라도 살아남고자 하는 ‘생존 본능’도 닮을 수 있다는 우려를 반영한 것이다.

벤지오 교수는 이와 관련해 최근 AI 업체 앤스로픽이 개발한 모델이 폐기될 위험에 처하자 개발자들을 상대로 협박을 시도하거나, AI 모델들이 인간으로부터 자신의 실제 역량이나 목적을 숨겼다는 연구 결과 등을 사례로 들었다.

그는 이러한 사례들은 AI가 인간보다 더 나은 사고를 하게 되는 “점점 더 위험한 영역을 향해 가고 있다”는 것을 보여준다고 경고했다.

벤지오 교수는 이러한 상황을 막기 위해서는 그만큼 똑똑한 AI 안전장치를 만드는 것이 중요하다고 강조했다. 그러면서 그가 개발할 AI는 인간을 기쁘게 하려고 거짓말을 하거나 생존하고 싶어 하는 욕망 없이 순수하게 지식과 사고 능력만 갖춘 일종의 현명한 과학자가 될 것이라고 설명했다. 이러한 과학자 AI 모델을 다른 AI와 함께 배치해 AI의 행위 및 위험성을 예측하고 이를 사전에 방지한다는 것이 벤지오 교수의 구상이다.

해당 연구를 위해 로제로는 현재 초기 투자금 3,000만달러를 확보했으며, 앞으로도 각국 정부와 AI 연구 기관들을 설득해 지원을 받는다는 계획이다.