안녕하세요, 리키입니다. 오늘은 쿠버네티스 환경에서 애플리케이션의 안정성을 어떻게 더 잘 지킬 수 있는지에 대한 기술적인 이야기를 좀 해보려고 합니다. 특히 아마존의 EKS 환경에서 Karpenter와 ARC(Amazon Application Recovery Controller)가 어떻게 함께 작동하는지, 그리고 이 새로운 기능이 우리에게 어떤 의미가 있는지 설명해 드리겠습니다.
최근 아마존 EKS 환경에서 여러 가용 영역(Availability Zone, AZ)에 걸쳐 고가용성 애플리케이션을 운영하는 것이 중요해지고 있습니다. 단일 장애 지점을 없애기 위해서죠. ARC는 이러한 여러 AZ에 걸쳐 애플리케이션의 복구와 관리를 돕는 역할을 해왔습니다. 이제 Karpenter 프로젝트가 이 ARC의 ‘존(zonal) 이동’ 기능을 지원하게 되었다는 소식이 나왔습니다.
이 기능이 왜 중요하냐면, 만약 특정 AZ에 문제가 생겼을 때, 우리는 인클러스터 네트워크 트래픽을 해당 AZ에서 다른 AZ로 안전하게 이동시켜 애플리케이션의 중단을 최소화해야 합니다. ARC의 존 이동 기능은 이러한 네트워크 트래픽을 재배치하는 데 도움을 주죠. 이 기능을 통해 우리는 특정 AZ의 장애를 일시적으로 완화할 수 있게 됩니다.
더욱 자동화된 경험을 위해 ‘존 자동 이동(zonal autoshift)’ 기능도 추가되었습니다. 이 기능은 AWS가 우리의 요청에 따라 이 작업을 대신 관리하도록 허용하는 것입니다. 이 자동 이동 과정에는 한 단계 적은 AZ로 클러스터가 정상적으로 작동하는지 확인하는 연습 실행(practice runs)도 포함됩니다. 이 과정에서 Karpenter는 중요한 역할을 합니다. 존 이동이 활성화되면, Karpenter는 손상된 AZ에서 새로운 용량을 프로비저닝하는 것을 멈추고, 노드 내의 자발적인 혼합(consolidation)이나 드리프트(drift) 같은 변경 사항도 중단시킵니다.
특히, 볼륨 친화도(volume affinities)와 같이 특정 AZ에 엄격하게 요구되는 Pod들이 있다면, Karpenter는 해당 AZ에 대한 새로운 배포 시도를 막아줍니다. 즉, 존 이동이 진행되는 동안에도 시스템의 안정성을 유지하는 것이죠. 이 모든 것은 별도의 커스텀 ARC 리소스를 만들 필요 없이, Karpenter가 기존의 EKS 클러스터 ARC 리소스와 직접 통합되어 작동합니다. Karpenter 설정에서 ENABLE_ZONAL_SHIFT만 활성화하면 되는 아주 깔끔한 통합이 이루어진 것입니다.
참고 원문: https://aws.amazon.com/about-aws/whats-new/2026/05/karpenter-arc-zonal-shift/

