Share
카테고리 AI/IT / 경제 / 과학 / 코딩/자동화

AWS, 자체 AI 칩 ‘트레이니움’으로 AI 시장 판도를 흔들다: 엔비디아, 구글과의 협력과 경쟁 속 미래 전략

작성자 mummer · 2025-12-14
서론: AI 시대의 새로운 강자, AWS 트레이니움의 등장

서론: AI 시대의 새로운 강자, AWS 트레이니움의 등장

최근 인공지능(AI) 기술의 발전은 산업 전반에 혁신을 가져오고 있으며, 그 핵심에는 강력한 컴퓨팅 인프라가 있습니다. 특히 구글의 TPU와 엔비디아의 GPU가 주도하던 AI 칩 시장에 아마존 웹 서비스(AWS)가 자체 개발 칩 ‘트레이니움(Trainium)’을 앞세워 강력한 도전장을 내밀고 있습니다. 단순한 대항마를 넘어, AWS는 어떤 전략으로 AI 인프라 시장의 새로운 지평을 열고 있을까요? 오늘 이 글에서 AWS 트레이니움 3 및 트레이니움 4의 특징과 엔비디아와의 흥미로운 협력, 그리고 AI 칩 생산의 숨겨진 병목 현상까지, AI 컴퓨팅 시장의 복잡한 역학 관계를 친절하게 파헤쳐 보겠습니다.

AWS, 자체 AI 칩 '트레이니움 3'으로 시장에 출사표를 던지다

AWS, 자체 AI 칩 ‘트레이니움 3’으로 시장에 출사표를 던지다

AWS는 ‘리인벤트(re:Invent)’ 행사에서 자체 개발한 AI 학습용 칩인 ‘트레이니움 3 울트라 서버(Trainium 3 Ultra Server)’의 일반 공급(GA, General Availability)을 발표하며 AI 시장에 본격적인 출사표를 던졌습니다. 이는 연구용이 아닌 실제 상업용으로 누구나 AWS 클라우드 서비스(EC2)를 통해 이용할 수 있게 되었다는 것을 의미합니다. 트레이니움 3는 이전 버전에 비해 전력 당 토큰 비율이 5배나 향상되어, 엔비디아 GPU를 사용하지 않고도 높은 효율을 제공합니다. 최대 144개의 트레이니움 3 칩이 하나의 덩어리로 엮여 강력한 AI 학습 성능을 구현하며, 이는 구글 TPU나 엔비디아의 NVL72와 같은 랙 스케일(Rack-scale) 솔루션과 경쟁 구도를 형성하고 있습니다. AWS는 이 칩을 통해 고객들이 AI 학습 비용(TCO)을 절감하고, 더욱 효율적인 AI 모델을 개발할 수 있도록 지원하는 것을 목표로 하고 있습니다.

엔비디아와의 예상치 못한 협력, '트레이니움 4'의 등장

엔비디아와의 예상치 못한 협력, ‘트레이니움 4’의 등장

트레이니움 3의 강력한 성능 발표와 함께 더욱 주목할 만한 소식은 바로 차세대 칩인 ‘트레이니움 4’에 대한 계획입니다. 놀랍게도 AWS는 트레이니움 4를 엔비디아와 협력하여 개발 중이라고 밝혔습니다. 특히 엔비디아의 핵심 기술인 ‘NVLink 퓨전(Fusion)’과 ‘MGX 랙 아키텍처’를 통합하도록 설계되고 있다는 점이 인상적입니다. 과거 엔비디아가 독점적으로 사용하던 MVLink 기술을 AWS와 같은 외부 칩에도 확장 통합하도록 개방했다는 것은 AI 인프라 시장에 큰 변화를 예고합니다. 이는 엔비디아가 자사의 지배력을 유지하면서도 개방형 표준으로 확장을 꾀하는 전략으로 해석됩니다. AWS는 이러한 협력을 통해 엔비디아의 검증된 랙 스케일 기술을 활용하여 자체 AI 칩 시스템의 성능과 확장성을 빠르게 끌어올릴 수 있을 것으로 기대됩니다.

AI 칩 생산의 핵심 병목: TSMC CoWoS 패키징 기술

AI 칩 생산의 핵심 병목: TSMC CoWoS 패키징 기술

아마존, 구글, 엔비디아 등 모든 빅테크 기업들이 AI 칩 개발에 뛰어들고 있지만, 이 모든 경쟁의 이면에는 TSMC의 ‘CoWoS(Chip-on-Wafer-on-Substrate)’ 패키징 기술이라는 중요한 병목 현상이 존재합니다. HBM(고대역폭 메모리)과 AI 칩 다이를 연결하는 2.5D 패키징 기술인 CoWoS는 신호선이 매우 많아 정교한 반도체 공정 수준의 배선이 필수적입니다. 하지만 CoWoS-S(실리콘 인터포저) 방식은 생산 비용이 높고 생산 용량(케파)이 제한적이라는 한계가 있습니다. 이에 대안으로 CoWoS-R(RDL 인터포저)이나 CoWoS-L(로직 퍼스트)과 같은 기술들이 등장했습니다. 이들은 더 큰 칩을 엮을 수 있고 비용 효율적이지만, CoWoS-S만큼 세밀한 IO 배선은 어렵습니다. 결국 어떤 CoWoS 기술을 사용하느냐에 따라 AI 칩의 생산량과 공급 능력이 결정되며, 현재 TSMC의 CoWoS 생산 능력은 AI 칩 시장 전체의 성장을 제한하는 핵심 요인이 되고 있습니다.

TCO 절감과 클라우드 경쟁력 강화: AWS의 거대한 비전 '프로젝트 레이니어'

TCO 절감과 클라우드 경쟁력 강화: AWS의 거대한 비전 ‘프로젝트 레이니어’

AWS의 트레이니움 전략은 단순히 고성능 칩을 만드는 것을 넘어, 총 소유 비용(TCO, Total Cost of Ownership)을 절감하고 클라우드 서비스 경쟁력을 강화하는 데 중점을 두고 있습니다. 특히 ‘프로젝트 레이니어(Project Rainier)’는 이러한 비전을 상징적으로 보여줍니다. AWS는 2025년 말까지 인디애나에 위치한 30개 데이터센터에 100만 개 이상의 트레이니움 2 칩만을 사용하여 대규모 클러스터를 구축하고 있습니다. 이 클러스터에는 엔비디아 GPU가 단 한 개도 사용되지 않습니다. 이는 엔트로픽(Anthropic)과 같은 파트너의 AI 워크로드를 자체 칩으로 저렴하게 운영하며, AWS의 클라우드 서비스인 ‘베드락(Bedrock)’ 등을 통해 더욱 경쟁력 있는 가격으로 AI 인프라를 제공하려는 전략의 일환입니다. GPU 공급망이 특정 기업에 의해 통제될 수 있는 상황에서, AWS는 자체 칩 설계를 통해 안정적인 공급망을 확보하고 비용 효율성을 극대화하여 클라우드 AI 시장의 주도권을 더욱 공고히 하려는 것으로 보입니다.

AI 인프라 시장의 재편과 미래 전망

AI 인프라 시장의 재편과 미래 전망

AWS의 트레이니움 전략은 단순히 엔비디아 GPU를 대체하겠다는 의미를 넘어섭니다. 이는 ‘랙 스케일 표준’을 재정의하려는 움직임으로 해석될 수 있습니다. 엔비디아는 MVLink 퓨전을 통해 자사의 지배력을 개방형 표준으로 확장하려 하고, AWS는 이러한 흐름 속에서 엔비디아와 손잡고 자체 칩 부스팅을 가속화하고 있습니다. 반면 구글은 TPU의 3D 토러스(Torus) 구조와 같은 독자적인 내부망 확장 형태로 스케일업을 구축하고 있어, 각 빅테크 기업들이 AI 인프라 구축에 있어 서로 다른 전략을 취하고 있음을 보여줍니다. 결국 AI 칩 시장의 미래는 TSMC CoWoS 패키징과 같은 공급망 병목 현상, 그리고 각 기업이 어떤 협력과 경쟁 구도를 가져갈지에 따라 크게 좌우될 것입니다. AI 시대의 혁신을 이끌어갈 컴퓨팅 인프라 전쟁은 이제 더욱 흥미로운 국면으로 접어들고 있습니다.

You may also like

WordPress Appliance - Powered by TurnKey Linux