GTC 2025와 Taipei 2026 기조연설에서 주요하게 다룬 AI Factory와 Agentic AI라는 주제를 연장선 있게 살펴보고자 하는 글이다.

GTC 2025 기조연설에서 엔비디아가 던진 핵심 메시지는 단순히 더 빠른 GPU의 등장이 아니었다. 인공지능이 더 이상 비용만 소비하는 실험적 기술이 아니라, 실제 수익을 만들어내는 생산 인프라가 되었다는 선언이었다.

GTC 2025가 AI 인프라의 방향성을 보여준 자리였다면, 1년 뒤 열린 GTC Taipei 2026에서 젠슨 황은 그 위에서 실제 어떤 컴퓨팅 구조가 돌아가게 될지를 설명한다. 이제 AI는 스스로 계획하고 툴을 사용하며 일을 수행하는 Agentic AI 단계에 들어섰다.

변화는 생각보다 훨씬 크다. 컴퓨팅 구조 자체가 App 중심에서 Agent 중심으로 이동하고 있으며, 그 결과 데이터센터는 GPU를 여러 대 꽂아둔 서버실이 아니라 'AI Factory'로 재정의되고 있다. 전력, 냉각, 네트워크, 스케줄링 소프트웨어까지 포함해 토큰을 대량 생산하는 산업 설비 전체라고 할 수 있다.

과거 컴퓨팅 인프라 경쟁의 중점은 더 높은 연산 성능(FLOPS)을 확보하는 것이었다면, AI 시대의 핵심 KPI는 '빠르고 저렴하게 응답 토큰을 생산하는 것'으로 옮겨간다.

전 세계 데이터센터 자본 지출(CAPEX) 규모가 조 단위 달러 시장으로 향하는 가운데, 엔비디아는 더 이상 하나의 칩 제조사가 아니다. GPU를 넘어 네트워크, 냉각, 광통신, 데이터센터 소프트웨어, 로봇 플랫폼까지 직접 설계하며 차세대 AI 생산 라인의 설계자 역할을 하고 있다.

1. 컴퓨팅 패러다임의 대전환

범용 컴퓨팅의 한계와 가속 컴퓨팅으로의 전환

지난 수십 년 동안 컴퓨팅의 중심은 범용 CPU였다. 사람이 작성한 코드를 순차적으로 실행하며, 정해진 규칙에 따라 계산하는 방식이다. 하지만 대규모 데이터와 AI 워크로드가 폭증하면서 전통적인 컴퓨팅 방식은 효율성과 전력 측면에서 한계에 직면했다.

AI 모델은 대량 병렬 연산을 요구한다. 수천, 수만 개의 연산을 동시에 처리해야 하므로 CPU보다 GPU 같은 가속기가 훨씬 적합하다. 이 때문에 데이터센터는 CPU 중심 구조에서 GPU 기반의 가속 컴퓨팅(Accelerated Computing) 으로 빠르게 이동하고 있다.

전력량 대비 토큰 생산량 (Tokens per Watt)

쉽게 말하면 "전기요금 1원을 냈을 때 AI가 얼마나 많은 토큰을 생산할 수 있는가" 에 대한 개념이다. AI 데이터센터가 직면한 가장 큰 제약은 전력 공급이다. 대규모 AI 클러스터는 하나의 도시 수준 전력을 소비한다. 하지만 발전소나 국가 전력망에서 특정 데이터센터 건물 하나에 공급해 줄 수 있는 최대 전력량은 법적, 물리적으로 정해져 있다.

과거의 접근 방식: 더 많은 AI 연산이 필요하면 서버와 전력을 늘리면 됨
현재의 제약: 전력망 한계로 공급 가능한 Watt 자체가 제한됨

결국 AI 인프라 경쟁은 "제한된 전력 안에서 얼마나 더 많은 토큰을 생산하느냐" 의 문제로 이동하고 있다. 이 관점에서 보면 GPU 성능 경쟁은 단순 benchmark 성능 경쟁이 아니라, 토큰 생산 공장의 생산성 경쟁에 가깝다.

2026 GTC에서 젠슨 황은 AI 데이터센터를 반복해서 Token Factory라고 불렀다. 이제 데이터센터의 목적은 제한된 전력과 비용 안에서 얼마나 많은 유효한 토큰(output) 을 생산하느냐로 나아간다. FLOPS 자체의 중요성이 사라진 것은 아니다. 다만 FLOPS는 목적이 아닌 더 많은 토큰을 생산하기 위한 수단으로 위치가 바뀌고 있다.

Ref. Why ‘tokens per watt’ is crucial for measuring AI efficiency

스스로 행동하는 Agentic AI의 부상

AI 패러다임의 3단계 진화

AI의 역할도 빠르게 변화하고 있다.

정보 검색 (Retrieval) : 데이터베이스에서 기존 정보를 '찾아주는' 단계
추론/생성 (Generative) : 컨텍스트를 이해하고 새로운 단어와 이미지를 '만들어내는' 단계
행동/수행 (Agentic AI) : 목표를 위해 스스로 계획을 세우고 도구를 써서 '해결하는' 단계

Agentic AI는 여러 번의 사고 과정을 거치거나 툴 사용을 반복하기 때문에 훨씬 많은 연산량을 필요로 한다.

추론 연산량의 폭발적 증가

복잡한 문제를 여러 단계로 나누어 해결하는 사고(reasoning) 모델이 등장하면서, 실제 서비스 단계에서 필요한 추론 연산량이 급격히 증가했다. 과거의 AI 서비스가 질문 → 답변 수준이었다면, 이제는 계획 → 탐색 → 검증 → 재추론 → 실행 과정을 반복한다.

엔비디아는 GTC 2025에서 이런 reasoning 기반 AI 워크로드가 등장하면서, 추론에 필요한 연산 수요가 과거 예상보다 최대 100배 수준으로 재평가되고 있다고 했다. 단순히 모델 크기가 커졌다는 의미가 아닌, AI 사용 방식 자체가 바뀌고 있다는 신호에 가깝다.

AI 산업 초기에는 대부분의 비용이 모델 학습에 집중되어 있었지만 이제는 실시간 추론 성능이 더 중요해졌다.

중요해진 핵심 지표들

TTFT (Time To First Token)
사용자가 요청 후 첫 응답 토큰을 받기까지 걸리는 시간
Throughput (처리량)
초당 얼마나 많은 토큰을 생성할 수 있는가
Tokens per Watt
동일 전력당 생산 가능한 토큰 양

앱에서 에이전트로

GTC 2026에서 젠슨 황은 미래 컴퓨팅 구조를 꽤 직설적으로 설명했다. 과거 컴퓨터는 Application + Operating System 구조였다. 사용자가 프로그램을 실행하고 클릭과 입력을 반복하는 방식이다.

반면 앞으로의 컴퓨팅은 다음과 같은 구조가 된다.

Model (LLM)
    ↓
Harness (오케스트레이션)
    ↓
Tools (DB, Python, Browser, CAD 등)
    ↓
Memory (Short / Long-term)

사용자는 더 이상 앱을 실행해 직접 조작하지 않는다. 의도를 전달하면 에이전트가 스스로 툴을 호출하고 중간 계획을 세우며 작업을 수행한다. 앱을 클릭하는 컴퓨팅 환경에서, 작업을 위임하는 환경으로 인터페이스 자체가 이동하는 것을 의미한다. 엔비디아 입장에서는 Agent가 많아질수록 추론량이 늘어나고, 이는 결국 더 많은 GPU 수요로 연결된다.

2. 하드웨어 아키텍처의 혁신

Blackwell과 AI Factory 중심 설계

GTC 2025에서 엔비디아가 강조한 핵심은 GPU를 쉬지 않게 만드는 것에 있다. 대규모 AI 인프라에서 GPU는 가장 비싼 자원인데 실제 데이터센터에서는 데이터 로딩, GPU 간 통신 지연, 발열과 냉각 한계 등의 이유로 병목이 발생해 GPU가 종종 놀게 된다.

엔비디아는 Blackwell 세대에서 이 병목들을 줄이는 방향으로 시스템 전체를 재설계했다. 주요한 변화는 AI Factory 전체 효율을 높이는 방향으로 설계 중심축이 이동했다는 것이다.

소비자 GPU에서도 강화된 AI 기반 렌더링

Blackwell 아키텍처의 변화는 데이터센터뿐 아니라 소비자 GPU에도 영향을 미치고 있다.

대표적으로 GeForce RTX 50 시리즈에서는 DLSS 4(Multi Frame Generation) 기반의 AI 렌더링 비중이 크게 확대되었다.

전통적인 그래픽 렌더링은 GPU가 모든 픽셀을 직접 계산하는 방식이었다. 하지만 최근에는 일부 프레임과 픽셀 정보를 기반으로, AI가 중간 프레임과 디테일을 예측·보완하는 방향으로 그래픽 파이프라인이 변화하고 있다.

이는 FPS 향상을 넘어, 컴퓨팅 리소스를 더 효율적으로 활용하는 방향으로 그래픽 처리 방식 자체가 변화하고 있음을 보여준다.

전력을 극복하는 시스템 설계

AI Factory에서 가장 비싼 비용은 GPU가 아니라, 종종 전력과 냉각 비용이다. 특히 대규모 reasoning 모델 추론은 GPU utilization을 극단적으로 밀어붙이기 때문에 시스템 효율이 매우 중요해진다.

엔비디아는 Blackwell 세대에서 동일한 전력 안에서 더 많은 토큰을 생산하는 것 을 핵심 목표로 제시했다.

Hopper 세대의 한계

이전 세대인 Hopper 기반 인프라는 대규모 AI 학습과 추론에서 큰 성과를 냈지만, 규모가 커질수록 다음과 같은 문제가 있었다.

GPU 간 데이터 이동 비용 증가
네트워크 병목
공랭(Air Cooling)의 한계
시스템 규모 확장 시 전력 낭비 증가

특히 GPU 수가 늘어날수록, 실제 연산보다 데이터를 옮기는 비용 이 커지는 문제가 나타났다.

Blackwell NVL72의 접근

Blackwell 세대의 대표 시스템인 NVL72는 이러한 병목을 줄이는 데 집중한다.

72개의 GPU를 하나의 거대한 가속 컴퓨터처럼 연결
NVLink 기반 초고속 인터커넥트
대규모 액체 냉각(Liquid Cooling)
Inference orchestration 소프트웨어와의 결합

엔비디아는 Blackwell 기반 시스템이 NVIDIA Dynamo와 결합 시 Hopper 세대 대비 추론 throughput을 40배 수준까지 개선할 수 있다고 한다.

3. 소프트웨어와 인프라의 진화

NVIDIA Dynamo: AI Factory의 오케스트레이션 계층

AI 인프라를 하나의 거대한 공장(AI Factory)으로 볼 때, 이를 효율적으로 제어할 운영체제가 필수적이다. 엔비디아는 AI 가속기 인프라의 핵심 워크로드인 Prefill¹ 단계와 Decode² 단계를 지능적이고 동적으로 분산 및 관리하는 데이터센터 스케일의 OS인 NVIDIA Dynamo를 개발하고 이를 오픈소스로 공개했다.

Dynamo OS는 대규모 연산 워크로드가 인프라 전체에 골고루 분산되도록 조율하여, 유저가 체감하는 토큰 생성 속도를 보장하면서 동시에 AI factory 전체의 throughput을 파레토 프론티어³ 경계면까지 끌어올린다. Blackwell NVLink 72 시스템에 이 Dynamo OS를 결합하면 동일 전력 조건에서 Hopper 대비 최대 40배의 추론 성능 향상이라는 결과물을 만들어낸다.

실리콘 포토닉스와 네트워크 병목 제거

GPU 간 통신 문제

최신 AI를 학습시키거나 에이전트를 대규모로 돌리려면 수만 대의 GPU를 거대한 하나의 컴퓨터처럼 묶어야 한다. 이때 GPU 사이를 연결해 데이터를 주고받는 통신선으로 기존에는 주로 구리선(전기 신호)을 사용했는데, 데이터 양이 폭발적으로 늘어나면서 문제가 생겼다.

전기는 거리가 멀어질수록 저항 때문에 열이 발생하고 신호가 약해진다. 수만 대의 GPU를 구리선으로 연결하면, 데이터를 보내는 데만 수백 메가와트(중소도시 전체가 쓸 수 있는 전력량)의 전기가 통신선과 냉각팬을 돌리는 데 낭비된다.

Co-Packaged Optics(CPO)

이를 해결하기 위해 엔비디아는 Silicon Photonics 기반 네트워크 전략을 공개했다. 전기 대신 빛(광신호)으로 데이터를 전송하는 기술이다.

GTC 2025에서 공개된 포토닉스 전략의 중심은 GPU 자체가 아니라 네트워크 스위치에 가깝다.

기존 구조에서는 Switch ASIC → 광 트랜시버 → 광케이블 단계를 거쳐야 했다. 하지만 Co-Packaged Optics(CPO) 는 광통신 모듈을 Switch ASIC⁴ 가까이에 통합하여 신호 변환 비용과 전력 손실, 발열 등을 감소시키고, 더 높은 bandwidth를 확보하는 등의 효과를 노린다.

GPU를 빠르게 만드는 것보다 GPU 사이 연결을 더 효율적으로 만드는 것에 엔비디아가 집중하기 시작했다는 의미다.

MRM(Micro Ring Resonator Modulator)

실리콘 포토닉스 핵심 기술 중 하나가 MRM 이다.

쉽게 말해, 빛 신호를 매우 빠르게 ON, OFF 하는 초소형 광 스위치 같은 것이다. 실리콘 위에 매우 작은 링 구조를 만들고, 미세한 전압 변화를 이용해 특정 파장의 빛을 통과시키거나 차단한다. 이를 통해 아주 낮은 전력으로도 초고속 데이터 전송이 가능하다.

엔비디아는 포토닉스 기반 네트워크에서 1.6 Tb/s급 연결 속도를 강조하며, 향후 AI Factory 규모 확장의 핵심 기술 중 하나로 제시했다.

첨단 패키징과 공급망

이러한 포토닉스 전략은 GPU 뿐 아니라 반도체 제조, 광학 부품, 첨단 패키징, 냉각 시스템이 긴밀하게 연결되어야 완성된다. 특히 TSMC의 첨단 패키징 기술은 엔비디아의 차세대 시스템 설계에서 중요한 역할을 할 것으로 거론된다.

엔비디아가 반복해서 말하는 'AI Factory'는 결국 공급망 전체 시스템 경쟁이다.

4. 향후 3개년 로드맵

GTC 2025에서 엔비디아는 단순 제품 발표를 넘어, 향후 수년간의 인프라 공급 로드맵을 매우 구체적으로 공개했다.

이는 단순 마케팅 발표 이상의 의미를 가진다. AI 인프라 투자는 수백억~수천억 달러 단위의 CAPEX가 들어가는 사업이다. 클라우드 사업자와 데이터센터 운영사는 장기 공급 예측 가능성을 매우 중요하게 본다. 언제 어떤 성능의 인프라가 나오는지가 고객의 투자 계획과 직결된다.

이 때문에 엔비디아는 매년 새로운 아키텍처를 출시하는 연간 cadence 전략을 더욱 명확히 하고 있다.

[2025 하반기]
Blackwell Ultra (메모리, Inference 성능 강화)
        ↓
[2026 하반기]
Vera Rubin (HBM4, NVLink 확장)
        ↓
[2027 하반기]
Rubin Ultra (초대형 NVLink 확장)
        ↓
[차세대]
Feynman

1) GPU를 더 크게 연결한다

AI 모델 규모가 커질수록 단일 GPU 성능 향상만으로는 부족하다. 궁극적인 목표는 거대한 하나의 컴퓨터처럼 동작하게 만들 수 있도록 하는 것이다. 즉, GPU 경쟁이 아니라 cluster architecture 경쟁으로 이동 중이다.

2) Vera CPU

AI Agent 시대의 CPU 역할은 과거와 달라지고 있다. 기존 CPU는 사람을 위해 설계됐다. 웹 서버, VM, 일반 애플리케이션처럼 초 단위 응답을 처리하는 구조였다. 하지만 Agentic AI는 다르다. 에이전트는 툴을 호출하고, 데이터베이스를 읽고, 메모리를 검색하고, 다시 reasoning을 수행한다. 이 과정에서 GPU가 기다리는 시간이 길어질수록 전체 비용이 증가한다.

2026 GTC에서 공개된 Vera CPU는 바로 이 문제를 해결하기 위해 설계됐다. GPU가 추론을 수행하는 동안 Vera CPU는 에이전트 런타임 오케스트레이션, 데이터 접근 및 수집 등을 담당한다. CPU의 역할이 범용 컴퓨팅에서 GPU utilization을 극대화하기 위한 조정으로 이동하고 있는 것이다.

5. 개인 컴퓨터 재정의

앱을 실행하는 컴퓨터에서 Agent를 실행하는 컴퓨터로

2026 GTC Taipei에서는 컴퓨팅 인터페이스 자체가 바뀌고 있다는 점을 반복해 강조한다.

지난 수십 년 동안 PC는 사용자가 애플리케이션을 실행하는 구조였다. 브라우저를 열고, 문서를 작성하고, IDE에서 코드를 수정하는 방식이다. 운영체제는 여러 앱을 관리하고, 사용자는 GUI를 통해 직접 작업했다.

하지만 Agentic AI 시대의 사용자는 더 이상 어떤 앱을 열지 고민하지 않는다. 목표를 설명하면 에이전트가 스스로 계획을 세우고, 여러 툴을 호출하며 작업을 수행한다. 즉 컴퓨터가 앱 실행 환경 에서 에이전트 실행 환경 으로 이동하기 시작했다는 의미다.

RTX Spark와 Personal AI Computer

변화에 맞춰 엔비디아는 RTX Spark 라는 새로운 컴퓨팅 방향을 공개했는데, 로컬에서 지속적으로 Agent inference를 수행할 수 있는 구조를 갖고 있다.

MediaTek과 협력한 N1X SoC 기반 시스템을 공개하며 AI 워크로드(로컬 LLM 추론, 코드 생성 및 실행, 개인 메모리 기반 AI Assistant 등)를 로컬에서 처리하는 방향을 제시했다. 특히 RTX GPU 기반의 대규모 VRAM과 CUDA 생태계를 활용해, 클라우드 호출 없이도 개인 Agent가 지속적으로 동작하는 환경을 강조했다.

이 전략은 데이터센터 전략과 구조적으로 닮아 있다. AI Factory가 대규모 토큰 생산 공장이라면, RTX Spark는 이를 개인 단위로 축소한 개인용 AI 작업장이라 할 수 있다.

왜 엔비디아는 다시 PC를 이야기하는가

현재 엔비디아 전략의 중심축은 여전히 AI Factory다. 실제 수익과 CAPEX 대부분이 데이터센터 인프라에서 발생하며, Vera Rubin, 네트워크, 광통신, 추론 최적화가 발표의 중심이었다.

그럼에도 2026년 다시 PC를 전면에 내세운 이유가 있다. Agentic AI는 생각보다 훨씬 많은 상호작용을 필요로 한다. 클라우드에서 모든 요청을 처리하면 latency와 추론 비용이 증가한다. 결국 일부 추론은 로컬에서 처리될 가능성이 높다. 특히 개인 비서, 코드 Agent, 창작 도구처럼 지속적으로 컨텍스트를 유지해야 하는 AI는 로컬 실행의 장점이 크다.

엔비디아는 이를 새로운 PC 교체 사이클의 시작점으로 보고 있는 것으로 보인다. 이 방향에서 앞으로의 개인 컴퓨팅은 경쟁력 있는 AI Agent를 로컬에서 실행하는 역량으로 경쟁할 것이다.

6. Physical AI와 휴머노이드 로봇

관성과 마찰을 이해하는 Physical AI 생태계

지금까지 대부분의 AI는 텍스트, 이미지, 영상 같은 디지털 데이터를 학습해왔다. 하지만 현실 세계는 훨씬 복잡하다. 로봇은 관성, 마찰, 중력 같은 물리 법칙을 이해해야 한다.

엔비디아는 이제 다음 AI 단계로 현실 세계를 이해하고 행동하는 Physical AI를 강조하고 있다.

로봇 플랫폼으로서의 엔비디아

흥미로운 점은 엔비디아가 직접 로봇 제조사가 되려 하지 않는다는 것이다. 스마트폰 iOS나 Android처럼 로봇 산업의 공통 플랫폼을 장악하려는 전략이다.

엔비디아가 제공하려는 것은 시뮬레이션 환경, 학습 데이터 생성, 물리 엔진, 추론 인프라 등이다. 로봇의 몸을 제조사가 만들면 두뇌는 엔비디아가 만드는 구조이다.

데이터 수집을 위한 가상 인프라 제공

로봇 학습에서 가장 어려운 문제는 데이터다. 현실 세계의 데이터를 모으는 것은 느리고 비싸며 위험하다. 엔비디아는 현실에서 시행착오를 겪기 전에 가상 세계에서 로봇을 수억 번 연습시키는 방식을 제공한다.

Omniverse: 현실과 유사한 물리 환경을 가진 디지털 트윈 시뮬레이션 플랫폼
Cosmos: 로봇 훈련에 필요한 고품질의 가상 데이터를 대규모로 생성

이는 자율주행, 물류, 제조업, 휴머노이드 로봇 전반에 활용될 수 있다.

Cosmos 3

엔비디아는 2026 GTC Taipei에서 물리 환경 변화를 예측하고 행동 계획을 생성하는 Cosmos 3를 전면에 내세웠다.

Cosmos 3는 Mixture-of-Transformers 구조를 사용한다. 환경을 이해하고 추론하는 reasoning transformer와, 행동 및 세계 상태를 생성하는 generation transformer를 결합한 형태다. 텍스트, 영상, 행동 등 여러 데이터를 함께 다루는 omnimodel 구조도 특징이다.

Groot N1

GTC 2025에서 엔비디아는 Groot N1을 오픈소스로 공개했다. 가상 환경에서 학습된, 인간형 휴머노이드 로봇 범용 Foundation Model⁵이다. Cosmos 3가 물리 환경을 이해하고 시뮬레이션하는 기반 모델이라면, Groot N1은 휴머노이드 로봇의 행동 실행 레이어에 가깝다.

로봇 제조사는 이 기반 위에 물류, 가정용 등등 특성에 맞는 fine-tuning을 수행할 수 있다. 이는 언어 모델 시장에서 Base Model + Fine-tuning 구조가 만들어졌던 흐름과 유사하다.

GPU 기반 물리 시뮬레이션

엔비디아는 또한 Google DeepMind, Disney Research 등과 협력해 개발한 Newton 물리 엔진도 공개했다. 로봇이 현실 물리와 더 가까운 환경에서 학습하도록 시뮬레이션할 수 있는 모델이다.

기존 게임 엔진 수준 물리 모델만으로는 촉각, 충돌 반응, 균형 유지 같은 문제는 핸들링하기 어려웠다. Newton 물리 엔진은 로봇의 정밀한 촉각 피드백 및 미세 모터 제어 학습을 가능하게 한다.

맺음말

GTC 2025에서 엔비디아가 보여준 것은 AI Factory라는 산업 구조의 시작이었다. 그들은 데이터센터 전체, 전력 냉각 아키텍처, 네트워크 스토리지, 인프라 소프트웨어 OS, 나아가 로봇 생태계에 이르기까지 돈이 만들어지는 공장의 생산 라인 전체를 설계하는 회사로 스스로를 정의했다.

그리고 GTC Taipei 2026에서 그 위에 올라갈 애플리케이션 레이어가 Agentic AI임이 명확해졌다. AI는 이제 직접 계획하고, 툴을 호출하고, 다른 AI를 다시 호출하는 구조로 발전하고 있다. 이 변화는 곧 추론 연산량 증가로 이어지고, 데이터센터 구조 자체를 바꾸고 있다.

그래서 엔비디아는 GPU 회사에 머물지 않는다. GPU, CPU, 네트워크, 스토리지, 냉각, 데이터센터 운영 소프트웨어, 로봇 시뮬레이션, 기업용 Agent runtime까지 직접 설계한다. AI가 돈을 버는 방식 전체가 바뀌고 있기 때문이다.

Additional References

Prefill
LLM이 입력 prompt 전체를 읽고 내부 상태를 계산하는 초기 단계 ↩
Decode
모델이 실제 응답 토큰을 하나씩 생성하는 단계 ↩
Pareto frontier (파레토 프론티어) 더 이상 다른 지표의 희생 없이는 특정 지표를 향상시킬 수 없는 최적의 기술적 한계선. 여기서는 '속도'와 '처리량'의 이상적인 균형점을 의미함 ↩
ASIC(Application-Specific Integrated Circuit) 네트워크 스위치 안에서 패킷을 초고속으로 전달하는 전용 반도체 칩 ↩
Foundation Model
대규모 사전 학습을 통해 다양한 downstream task에 활용할 수 있는 범용 모델 ↩