Arm의 Neoverse V2 기반으로 만들어진 AWS의 그래비톤(Graviton) 4 프로세서가 이전 세대 프로세서보다 컴퓨팅 성능이 30% 더 빨라지고, 메모리 대역폭이 75% 더 넓어지는 등 뛰어난 성능 향상과 AI와 머신러닝 작업을 효과적으로 처리할 수 있는 최적화를 통해 클라우드 컴퓨팅 환경의 획기적 변화를 주도하고 있다.
▲AWS Graviton4 chip image
컴퓨팅 성능 30% ↑·메모리 대역폭 75% ↑
AI·머신러닝 효과적 처리, HPC 뛰어난 성능
Arm의 Neoverse V2 기반으로 만들어진 AWS의 그래비톤 4 프로세서가 이전 세대 프로세서보다 컴퓨팅 성능이 30% 더 빨라지고, 메모리 대역폭이 75% 더 넓어지는 등 뛰어난 성능 향상과 AI와 머신러닝 작업을 효과적으로 처리할 수 있는 최적화를 통해 클라우드 컴퓨팅 환경의 획기적 변화를 주도하고 있다.
Arm은 최근 개최된 AWS re:Invent 2024에서 공개된 그래비톤(Graviton) 4를 통해 Arm과 AWS가 오랫동안 협력해 보다 효율적이고 지속 가능하며 강력한 클라우드를 위한 기반을 마련하고 있다고 23일 밝혔다.
최신 Arm Neoverse V2 기반 AWS 그래비톤 4 프로세서는 이전 세대인 그래비톤 3에 비해 최대 30% 향상된 컴퓨팅 성능, 50% 더 많은 코어, 75% 더 많은 메모리 대역폭을 제공한다.
Arm Neoverse V2 플랫폼에는 고성능 부동 소수점 및 벡터 명령어 지원과 같은 Armv9 아키텍처의 새로운 기능이 포함돼 있으며, SVE/SVE2, Bfloat16 및 Int8 MatMul과 같은 기능은 AI/ML 및 HPC 워크로드에서 강력한 성능을 제공한다.
AI 워크로드 채택을 촉진하기 위해 Arm은 올해 초 선도적인 AI 프레임워크 및 소프트웨어 에코시스템과 협력하여 전체 ML 스택이 Arm에서 즉시 사용 가능한 추론 성능 최적화의 이점을 누릴 수 있도록 Arm Kleidi를 출시했다.
이를 통해 개발자는 별도의 Arm 관련 전문 지식 없이도 워크로드를 구축할 수 있다.
예를 들어 PyTorch에서 이러한 최적화를 통해 초당 토큰 수(tokens/sec)와 첫 토큰 생성 시간(time-to-first-token) 지표를 크게 개선하여 AWS 그래비톤 4에서 Llama 3 70B 및 Llama 3.1 8B와 같은 LLM을 실행할 수 있게 됐다.
HPC(고성능 컴퓨팅) 워크로드의 경우, 그래비톤 4는 코어당 16% 더 많은 메인 메모리 대역폭과 vCPU당 두 배의 L2 캐시를 제공하는 등 그래비톤 3E에 비해 성능이 크게 향상됐다.
이는 주로 메모리 대역폭에 제한이 있는 HPC 애플리케이션의 성능에 매우 중요하다.
EDA(전자 설계 자동화) 워크로드의 경우, Arm의 엔지니어링 팀이 측정한 결과, 그래비톤 4는 RTL 시뮬레이션 워크로드에서 그래비톤3보다 최대 37% 더 높은 성능을 제공하는 것으로 나타났다.
지난 몇 년 동안 소프트웨어 에코시스템 전반에서 최종 고객들이 AWS 그래비톤 프로세서에 다양한 클라우드 워크로드를 배포하면서 도입이 지속적으로 증가했다. 고객들은 비용을 절감하고, 향상된 성능을 경험하며, 탄소 발자국 및 지속 가능성 목표를 개선하고 있다.
이와 같이 AWS 그래비톤 4는 클라우드 컴퓨팅의 혁신을 가속화하며, 더 강력하고 효율적인 클라우드 환경을 구축하는 데 기여하고 있다.