오픈AI, ‘딥시크 R1 3배 정확도’ 딥리서치 깜짝 출시

2025-02-04 (화) 12:00:00 실리콘밸리=윤민혁 특파원

크게 작게

▶ 소뱅과 ‘기업용 AI’ 합작사 신설

▶ AI 전용기기·칩셋 개발 재확인

중국산 인공지능(AI) ‘딥시크’의 공세에 직면한 오픈AI가 심층 추론 모델 ‘딥리서치’로 반격에 나선다. 가장 어려운 AI 성능 평가에서 딥시크 최신 추론모델 R1 대비 3배 가까운 정확성을 보일 뿐 아니라, 기존 오픈AI 최고 성능 추론 모델인 o3보다도 2배가량 뛰어난 정답률을 자랑한다. 후발주자 추격에도 기술적 우위를 내세우며 AI 선도자 지위를 공고히하겠다는 각오를 내비친 것이다.

2일(현지 시간) 오픈AI는 일본 도쿄에서 생중계 발표를 통해 딥리서치 모델을 깜짝 공개했다. 딥리서치는 이름처럼 인터넷을 심층 조사해 더욱 뛰어난 답변을 내놓는 모델이다. 오픈AI o3 추론 모델에 인터넷 검색을 더한 셈이다.

오픈AI는 “챗GPT가 수백 개 온라인 소스를 찾고 분석, 종합해 연구자 수준의 포괄적인 보고서를 만든다”며 “사람이 수 시간을 들여 해야하는 작업을 수십 분 만에 완료할 수 있다”고 설명했다.

딥리서치는 일상적인 답변이 아닌 금융, 과학, 정책 등 전문지식 연구자를 위해 만들어진 모델이다. 질문과 동시에 답변이 생성되는 기존 모델과 달리 5~30분 가량의 조사를 통해 보다 깊이 있는 답변을 내놓는다. 이는 구글이 지난해 말 시범적으로 선보인 기능이기도 하다.

오픈AI는 “모든 출력은 명확한 인용문과 사고 요약과 함께 완벽하게 문서화돼 정보를 참조하고 검증하기 쉽다”며 “여러 웹사이트를 탐색해야 하는 틈새 시장의 비직관적인 정보를 찾는 데 효과적”이라고 했다.

오픈AI 딥리서치는 현재 가장 어려운 AI 성능평가(벤치마크)로 불리는 ‘인류의 마지막 시험(Humanity’s last exam)’에서 25.3%의 정답률을 기록했다. GPT-4o가 3.3%, 추론 모델인 오픈AI o1과 딥시크 R1이 각각 9.1%와 9.4%, 오픈AI 최신 추론 모델인 o3 미니가 높은 자원을 투입했을 때 13.0% 정답률을 기록하는 데 그쳤음에 미뤄볼 때 압도적인 정확도다.

오픈AI는 “언어학부터 로켓 과학, 고전에서 생태학에 이르는 100개 이상 주제에서 3,000개 이상 객관식 및 단답식 문제를 시험했다”며 “o1과 비교해서도 화학, 인문학, 사회과학, 수학 등에서 높은 성과를 보였고 전문화된 정보를 찾아내는 과정에서 인간과 유사한 접근 방식을 보였다”고 강조했다.

딥리서치는 월 200달러가 필요한 챗GPT 프로 사용자를 대상으로 이날부터 서비스한다. 월 최대 질문 한도는 100개다. 이후 플러스 및 비즈니스 사용자로 서비스 대상을 확대한다.

<실리콘밸리=윤민혁 특파원>