학습에 추론까지… 구글, 엔비디아 잡을 AI칩 2종 공개

2026-04-24 (금) 12:00:00 라스베가스=김창영 특파원

크게 작게

▶ 8세대 TPU, 용도별 분리 설계
▶ 연산·대역폭 강화로 개발 단축
▶ HBM 공급사 질문에 즉답 회피

구글이 자체 인공지능(AI) 칩 ‘텐서처리장치(TPU)’를 선보인 2015년 이래 처음으로 TPU를 학습용과 추론용으로 각각 내놨다. 맞춤형 칩 시장을 공략해 엔비디아 아성을 무너뜨리겠다는 야심을 노골적으로 드러냈다는 평가다.

구글은 21일(현지 시간) 미국 라스베이거스에서 열린 연례 기술 콘퍼런스 ‘구글 클라우드 넥스트 2026’에서 8세대 TPU인 TPU 8t와 TPU 8i를 각각 공개했다. 8t는 정밀한 학습에, 8i는 빠른 추론에 최적화된 맞춤형 AI 칩으로 올해 안에 공식 출시된다.

TPU 8t는 9600개 칩을 연결해 팟(pod·칩을 최대로 연결해 만든 판)을 구성한다. 팟당 FP4(4비트 부동소수점) 기준 121 엑사플롭스(1초에 100경 번의 연산)를 구현해 전작 TPU인 아이언우드보다 성능을 2.8배 높였다. 양방향 확장 시 칩당 대역폭은 초당 19.2테라비트로 전작보다 2배 높다. 대역폭은 칩끼리 데이터를 주고받는 속도다. 구글은 최고 수준의 연산 처리량과 대역폭으로 최첨단 AI 모델 개발 기간을 수개월에서 수주 단위로 단축할 수 있다고 강조했다.

TPU 8i는 FP8(8비트 부동소수점) 기준 팟당 11.6 엑사플롭스로 아이언우드 연산 처리 능력보다 9.8배 높다. D램을 쌓아 만든 고대역폭메모리(HBM)의 팟당 총 용량은 331.8TB(테라바이트)로 전작의 6.8배다. 직전 세대 TPU보다 3배 많은 384MB(메가바이트) S램, 288GB의 HBM을 탑재해 추론 병목을 줄이고 즉각적인 응답이 가능하게 만들었다.

TPU 2종은 고성능 AI 모델 구축부터 다양한 에이전트 운영, 복잡한 추론 과제 해결에 이르기까지 맞춤형 AI 개발에 최적화됐다. 전작 대비 달러당 성능을 80% 높이고 기업은 동일한 비용으로 두 배에 가까운 고객 수요를 처리할 수 있다. AI가 스스로 판단하고 실행하는 에이전틱 시대로 전환하면서 구글이 비용 효율성을 높인 TPU로 엔비디아에 맞서려 한다는 분석이 나온다.

이날 아민 바흐다트 구글 AI 인프라 부문 수석 부사장은 HBM 제조사가 어디냐는 취재진 질문에 즉답을 피한 채 “오직 최고만을 쓴다. 우리에게는 훌륭한 파트너들이 아주 많다”고 답했다. 아이언우드에는 5세대 HBM이 탑재됐으며 삼성전자와 SK하이닉스가 납품한 것으로 알려져 있다.

<라스베가스=김창영 특파원>