AWS re:Invent 2024 Recap: Compute

AWS re:Invent 2024 Recap: Compute

요약: AWS는 re:Invent 2024에서 Nitro System 기반의 다양한 EC2 인스턴스, x86 대비 고효율의 Graviton 프로세서, AI 특화 칩셋 Trainium 등 컴퓨팅 성능 향상과 비용 절감에 초점을 맞춘 최신 기술을 선보였습니다. Graviton은 높은 성능과 낮은 전력 소비를 제공하며, Trainium은 고성능 AI 컴퓨팅을 지원합니다. AWS는 이처럼 지속적인 기술 개발을 통해 고객에게 최적화된 클라우드 환경을 제공합니다.

💡 리뷰어 한줄평

benny.ahn 이 글의 소개로 AWS Trainium을 탑재한 강력한 인스턴스에 관심이 생겼습니다. AWS의 새로운 칩셋이 최근 AI 시장의 핵심 화두인 저비용, 고성능 모델 생성에 큰 도움을 줄지 기대됩니다.

billy.j 소프트웨어적으로 뿐만 아니라 하드웨어적으로 지속발전하는 AWS의 모습을 한눈에 볼 수 있어, 인프라를 운영함에 있어 유익한 글이었습니다.

시작하며

안녕하세요, 카카오페이 SE팀 카일러입니다.
2024년 12월 2일부터 6일까지 라스베이거스에서 열린 AWS re:Invent 2024에 참석하여 AWS Compute 분야(EC2, Graviton, Trainium, Nitro System)의 최신 기술과 발표 내용을 직접 경험했습니다. 이 글에서는 AWS가 Compute 인프라를 어떻게 확장하고 있으며, 기업과 개발자에게 어떤 변화를 가져올지 분석하고자 합니다.

시작하기에 앞서 EC2란 무엇인지와 EC2의 다양한 유형 및 기본 가이드에 대해 간략히 전달드리도록 하겠습니다.

Compute - EC2 (Amazon Elastic Compute Cloud)

  • AWS에서 가상 머신(서버, 인스턴스)을 제공하는 가장 대표적이자 기본적인 컴퓨팅 서비스
  • 필요할 때 가상 머신(서버, 인스턴스)을 생성하고 종료가 가능

한 번쯤 봐두면 좋을 EC2 관련 정보


1. Compute

AWS Compute
AWS Compute

AWS re:Invent 2024 CEO Keynote 세션에서는 Compute와 관련된 다양한 변화를 소개하였습니다. AWS는 고객의 다양한 요구를 반영해 하드웨어와 소프트웨어에서 고객 맞춤형 발전을 이끌어냈습니다. 구체적으로, Graviton, Nvidia Blackwell GPU 기반 인스턴스, Trainium, Ultra Server 등 다양한 인스턴스 유형과 관련 기술을 설명했으며, 2025년에 출시될 AWS Trainium3 칩셋도 언급했습니다.

AWS EC2
AWS EC2

24년도 12월 기준, EC2는 약 850개의 다양한 인스턴스 유형을 제공합니다. 예상보다 훨씬 많은 유형을 제공하는 것을 보고 AWS의 스케일을 실감할 수 있었습니다. 적합한 인스턴스를 선택하면 비용 최적화와 안정적인 운영이 가능할 것 같습니다. 이를 위해 필요한 인스턴스가 해당 지역에서 지원되는지 확인하고, 적절한 인스턴스를 고를 수 있도록 학습이 필요하다고 느꼈습니다. (위 한 번쯤 봐두면 좋을 EC2 관련 정보 보기!)

Compute에 대한 많은 소개들이 있었는데 그중에 자주 강조된 부분은 NITRO System에 관련된 내용이었습니다. 이제 NITRO System의 주요 구성 요소와 적용 전후 아키텍처에 어떤 변화가 있었는지 살펴보겠습니다.

NITRO SYSTEM

keynote - AWS Nitro System
keynote - AWS Nitro System

행사에서 접한 NITRO System을 조사하면서 알게 된 내용인데요. AWS는 고객 맞춤의 다양한 인스턴스 유형에 대한 지원이 어떻게 가능한가에 대한 설명을 자주 했었는데 그 이야기의 중심에는 항상 NITRO System가 빠지지 않았습니다. EC2에 관심 있으신 분은 Dive Deep into the AWS Nitro System ( CMP301 ) 세션을 한번 시청해 보시는 걸 권장드립니다.

NITRO System의 개발 배경은 많은 고객과 다양한 클라우드 워크로드에 대한 운영 중에 많은 시행착오와 경험에서 진행되었다고 하네요.

  1. 이용하는 고객에게 직접적인 영향을 줄 수 있어야 한다.
  2. 성능과 전력 효율성을 높일 수 있어야 한다.
  3. 즉각적인 대응이 가능해야 한다.

위 3가지 외에도 여러 가지 측면에서 자체 칩셋에 대한 필요성이 존재했었고, 이는 곧 NITRO System(하드웨어/소프트웨어)의 개발로 이어지게 되어 지금은 핵심기술이 되었습니다.

현재 NITRO System 주요 구성 요소

  • Nitro Card : 기능을 지원하는 데 따른 IO의 부담을 덜어 전반적인 시스템 성능을 개선하는 카드
    • Local NVMe storage volumes
    • Networking hardware support
    • Management
    • Monitoring
    • Security
  • Nitro Hypervisor : 메모리 및 CPU 할당을 관리, 경량 하이퍼바이저
  • Nitro Security Chip : 가상화 및 보안 기능 전용 하드웨어

NITRO System이 실행되기 전 EC2 기존 아키텍처

AWS NITRO System
AWS NITRO System

NITRO System이 실행되고 난 이후의 아키텍처

AWS NITRO System
AWS NITRO System

위 NITRO System을 사용함에 따라 발생하는 이점

  1. 성능 개선: 기존 아키텍처는 Xen기반 아키텍처에서 발생하던 성능 오버헤드를 해소합니다. Dom0가 VM을 관리하면서 CPU와 메모리를 사용하는 방식에서, 경량 가상화 구조로 변경하고 전용 NITRO 카드가 이를 대체하여 성능을 최적화합니다.
  2. 유연성: NITRO System을 적용함에 따라 모듈식 디자인을 구성할 수 있었고, 다양한 하드웨어와 조합하여 사용 가능하므로 시스템 확장성과 호환성이 뛰어납니다.

NITRO System을 기반으로 다양한 칩셋을 개발했습니다. 그 후 Graviton, Trainium 하드웨어를 개발했고, 자연스럽게 해당 하드웨어를 사용하는 인스턴스 유형으로 이어졌습니다.

AWS NITRO System
AWS NITRO System

결과적으로 기존 시스템은 지난 10년 동안 70개의 인스턴스 유형을 제공했습니다. 하지만 2017년 NITRO System을 도입한 후 제공가능한 인스턴스 유형이 기하급수적으로 증가했습니다. 불과 7년 만에 800개로 늘어났습니다. 현재도 AWS는 자체 칩셋과 NITRO System을 지속적으로 개발하고 있으며, 새로운 유형과 칩셋으로 고객에게 더 나은 경험을 제공할 수 있었습니다.

참고1) Mac OS에 대한 선택도 가능함

macOS용 Amazon EC2 M1 MAC 인스턴스 출시


2. Graviton

Compute의 발전에 따라 AWS에서는 ARM 새로운 칩에 관심을 가지게 되었고, 2018년에 ARM칩인 Graviton을 출시했습니다. AWS에 참석하기 전에는 프로세서는 그저 빠르고 발열만 적으면 최고라고 생각했었는데요. 하지만 세션을 들으면서 Graviton이 가장 빠른 CPU를 만드는 게 아니라, 워크로드에 효율적으로 대응할 수 있도록 설계된 특수 목적 프로세서라는 점을 깨달았습니다. 이후 Graviton은 세대를 거치며 성능을 개선하였습니다. 덕분에 AWS Compute를 사용하는 많은 유저들은 더 많은 프로세서를 선택할 수 있는 기회가 생겼습니다.

칩셋 개발은 다음과 같이 특수 목적이 각기 다릅니다.

(참고) Graviton칩의 발전과 성능 개선

AWS Graviton chip
AWS Graviton chip

버전출시특수 목적성능 개선
Graviton12018Arm market readiness최초 AWS ARM Graviton칩, 성능개선에 대한 수치는 크지 않음
Graviton22019Scale-out 확장형 워크로드에 집중 (웹 서버와 컨테이너화 된 마이크로 서비스 등)기존 x86대비 40%의 가성비 향상
Graviton32021ML, HPC, and Media workloads, 컴퓨팅 파워를 요구하는 특수한 작업 부하에 초점Graviton2 대비 25% 더 향상된 컴퓨팅 성능
Graviton42023Mission-critical applicationsGraviton3 대비 데이터베이스에서 최대 40%, 대규모 Java 애플리케이션에서는 45% 향상

각 세대는 다음 최신 유형으로 간단하게 변경 가능하다는 점 역시 이점입니다.

Graviton은 x86 CPU 대비 40% 더 비용 효율적이고, 전력 사용량은 기존 대비 60%에 불과합니다. 또한 새로 출시되는 Graviton4는 기존 Graviton3보다 약 30% 더 향상된 성능을 자랑합니다.

AWS Graviton
AWS Graviton


AWS Graviton4
AWS Graviton4


AWS는 ARM 기반의 프로세서인 Graviton을 도입하여 성능 개선과 비용 절감을 이끌어냈습니다. Graviton은 기존 x86 아키텍처를 뛰어넘는 비용 효율성과 전력 효율성을 자랑하며, 다양한 애플리케이션에서 그 효율성을 입증합니다.

그렇다면 실제 서비스에서는 Graviton을 어떻게 적용하고 있는지, 그리고 어떤 고객들이 이 기술로 혜택을 보고 있는지 살펴보겠습니다.

고객 사례

Pinterest

Graviton Pinterest
Graviton Pinterest

Pinterest는 Graviton으로 전환하며 미용을 약 47% 절감했으며, 탄소 배출 절감 효과 또한 무려 62%에 달합니다. 이는 Graviton의 성능과 효율성 덕분에 가능한 일이었습니다.

Amazon Prime Day

또 Amazon Prime Day에서도 Graviton을 25만 개 이상 활용하여, 5,800개 이상의 서비스를 안정적으로 운영했습니다. 이젠 AWS에서 제공하는 많은 인스턴스/서버들에 Graviton이 사용해 운영하고 있다는 이야기를 들으며 안정성이 상당히 높아졌다는 생각이 들었습니다.

카카오페이와 카카오페이 증권

카카오페이 증권은 Graviton으로의 전환을 통해 도입 전과 비교해 20%의 비용 절감과 성능 향상, 탄소 배출량 50% 감소의 효과를 달성했습니다. 또한, 카카오페이 전체 시스템에서도 Graviton 전환 및 rightsizing으로 EC2 비용의 약 40%를 절감했습니다.

Graviton Kakaopay
Graviton Kakaopay

다양한 고객의 사례 확인

그 외에도 다양한 고객 성공 사례에서 Graviton 외에도 적용하고자 하는 기술에 대한 사례 검색이 가능했으며, 잘 정리되어 있어서 효과적으로 참조할 수도 있었습니다.

Graviton칩에 대한 이야기 다음으로 다루고자 하는 내용은 AI관련 EC2 서비스 Trainium Chip입니다.


3. Compute - AI관련칩: Trainium Chip

Keynote 세션 중 환호가 큰 주제가 몇 개 있었는데 그중 한 개가 Trainium의 새로운 칩을 발표할 때였습니다.

Trainium2

Trainium의 경우 Graviton 칩에 이은 AWS에서 AI훈련 및 추론용으로 출시한 칩이며 21년도에 첫 출시를 했었고, 이번에는 Trainium2에 대한 소개를 했었습니다.

Trainium
Trainium

Trainium2 chip
Trainium2 chip

Trainium2 하드웨어 특성과 어떤 고민을 거쳐 하드웨어 설계를 진행했는지 설명을 듣고 매우 흥미를 느꼈습니다. 단순히 설명에 그치는 게 아니라, 실제 Trainium2 칩이 어떻게 생겼는지에 보면서 이해해서 더욱 재미있었습니다. Trainium2 칩 하나로 사람이 수백만 년 동안 할 수 있는 계산을 1초 만에 해낼 수 있다는 점이 놀라웠습니다. “최대한의 컴퓨팅 성능과 메모리를 얻으려면 가장 진보된 기술로 만들어진 걸 써야 한다!”라는 이야기가 역시 AWS라는 생각이 드는 재미있는 포인트 중에 한 개였습니다.

Trainium Server
Trainium Server

Trainium2 서버는 8개의 가속기 트레이로 구성되어 있으며, 각 트레이에는 2개의 Trainium2 칩이 탑재되어 총 16개의 칩이 하나의 서버에 구성되어 있습니다.
기존 Trainium1은 최대 3페타플롭이었는데, Trainium2 서버는 약 7배 증가한 20페타플롭의 컴퓨팅 용량을 제공할 수 있었습니다.
(1페타플롭(PetaFlop) = 1초당 1,000조 번의 수학 연산처리)

여기서 잠깐 Neuron Link에 대한 이야기를 하고 난 후 Trainium2 + Neuron Link에 의해 만들어진 클러스터 환경 UltraServer로 넘어가려 합니다.

Neuron Link
Neuron Link

AWS 고유의 Trainium 상호 연결 기술입니다. 여러 대의 Trainium2 서버를 하나의 논리적 서버로 결합할 수 있으며, 초당 2TB의 대역폭을 제공합니다. 기존 고속 네트워크 프로토콜과 달리, NeuronLink 서버는 서로의 메모리에 직접 액세스 할 수 있습니다. AWS는 이 기술과 Trainium2를 기반으로 UltraServer를 구축하였습니다.

Ultra Server
Ultra Server

AWS는 이번 행사에서 UltraServere를 공개했으며, 64개의 Trainium2 칩을 사용해 현재 EC2 AI서버보다 5배 더 많은 컴퓨팅 용량과 10배 더 많은 메모리를 제공합니다.
이 성능에 관심이 생겨 AWS 한국 블로그에서 관련 정보를 확인했으나, 아쉽게도 바로 사용 가능한 단계는 아니었습니다. 문의하면 미리보기를 요청할 수 있는 상태였습니다.

Coming_Soon_Trainium3
Coming_Soon_Trainium3

CEO Keynote에서 AWS는 2025년에 Trainium3를 출시할 예정이라고 발표했습니다. 발표를 들으면서 새 칩셋의 하드웨어와 소프트웨어 발전 속도가 정말 빠르다는 것을 느꼈습니다.

고객 사례

Anthropic

Anthropic
Anthropic

Anthropic Trn2
Anthropic Trn2

Anthropic에서는 위 소개드린 AWS Trainium2칩을 이용한 Trn2 UltraServer의 EC2 UltraCluster를 구성하여 Claude 모델을 훈련하는데 사용하고 있습니다.


마치며

AWS re:Invent 2024를 참가한 후, 이번 글을 정리하면서 EC2가 무엇인지, 그리고 EC2를 사용할 때 다양한 유형을 편리하게 선택할 수 있는 이유를 알게 되었습니다. 매년 다양한 유형이 등장할 때마다 “이번에는 이런 것이 준비되었구나” 하고 끝났지만, 그 배경에는 끊임없는 연구개발과 유저 친화적인 서비스를 제공하려는 AWS의 철학을 느낄 수 있었습니다.

인스턴스 생성중 유형 선택 부분
인스턴스 생성중 유형 선택 부분

예를 들어, 이번 행사에 참가하기 전에는 인스턴스 생성 화면에서 필요한 vCPU와 메모리 스펙을 보고 왜 이렇게 많은 유형과 정보가 있는지 궁금했었습니다. 하지만 행사 후 학습하면서 “이런 수요와 하드웨어 덕분에 다양한 유형이 지원되는 것이구나” 하고, 필요한 것을 잘 파악해 제공하는 것이 중요하다는 점을 다시 한번 깨달았습니다. 예시로 한 가지 인스턴스 유형을 언급했지만, 그 외에도 AWS 서비스를 효과적으로 지원하고 제공하려면 네트워킹, 스토리지, 사용 용도 등 여러 가지를 학습해야 한다는 점을 느꼈습니다.

23, 24년도에는 AI와 관련된 다양한 칩셋과 시스템을 다루는 내용이 주를 이루었습니다. 매년 새롭게 등장하는 칩과 급격히 증가하는 유형들, 기존에 사용하기 어려웠던 부분의 개선은 AWS 사용자로서 매우 기대되는 내용이었습니다. 내년에는 또 어떤 새로운 시스템이 출시될지 궁금합니다.

Compute/EC2를 처음 접하거나 조금이라도 관심이 있는 분들에게 이번 글이 도움이 되었기를 바랍니다.


참고 자료

kyler.woo
kyler.woo

카카오페이 SE팀 카일러입니다.