Azure Site Recovery 는 중단 중에 워크로드를 사용할 수 있도록 하는 VM(가상 머신)에 대한 관리되는 복제 및 장애 조치 서비스입니다. 기본 사이트에서 보조 위치로 워크로드를 지속적으로 복제하고 데이터 손실 및 가동 중지 시간을 제한합니다. 계획된 유지 관리 또는 예기치 않은 중단 중에 장애 조치(failover) 및 장애 복구(failback)를 오케스트레이션합니다. 이 서비스는 조직이 비즈니스 연속성을 유지하는 데 도움이 되는 온-프레미스 환경 및 Azure VM에 대한 DR(재해 복구)을 지원합니다.
Azure 사용하는 경우 신뢰성은 공유 책임입니다. Microsoft는 복원력 및 복구를 지원하는 다양한 기능을 제공합니다. 이러한 기능이 사용하는 모든 서비스 내에서 작동하는 방식을 이해하고 비즈니스 목표 및 가동 시간 목표를 충족하는 데 필요한 기능을 선택할 책임이 있습니다.
이 문서에서는 일시적인 오류, 가용성 영역 중단 및 지역 중단을 포함하여 다양한 잠재적인 중단 및 문제에 대해 Site Recovery를 복원력 있게 만드는 방법을 설명합니다. 또한 Site Recovery SLA(서비스 수준 계약)에 대한 주요 정보도 강조 표시합니다.
비고
이 문서에서는 Site Recovery 서비스의 복원력 또는 다양한 문제에 대한 복원력을 만드는 방법을 설명합니다. Site Recovery를 사용하여 VM 또는 기타 자산을 보호하는 방법은 설명하지 않습니다. 자세한 내용은 Site Recovery 정보를 참조하세요.
안정성을 위한 프로덕션 배포 권장 사항
프로덕션 워크로드에서 Site Recovery를 사용하는 경우 다음 작업을 수행하는 것이 좋습니다.
복제를 위해 대상 지역에 Recovery Services 볼트를 배포합니다.
Azure-Azure DR의 경우, 데이터 변경 빈도가 높은 VM에 대해 Site Recovery 변동이 잦음 기능을 사용합니다. 높은 변동 지원은 RPO(복구 지점 목표)를 향상시키고 많은 대규모 데이터베이스 워크로드에 대한 복제를 가능하게 합니다.
Azure-Azure DR의 경우 ZRS(영역 중복 스토리지)를 사용하도록 캐시 스토리지 계정을 구성합니다.
재해 복구 훈련의 일환으로 테스트 장애 조치를 정기적으로 수행합니다. 매 분기 또는 격년으로 DR 훈련을 실행하여 복제 및 장애 조치(failover) 프로세스가 정상인지 확인합니다.
주문형 용량 예약을 사용하여 장애 조치(failover)를 위해 대상 지역에서 컴퓨팅 리소스를 사용할 수 있는지 확인합니다.
모바일 에이전트에 대해 자동 업데이트를 사용하도록 설정합니다.
복제 상태를 모니터링하고 문제가 발생할 경우 알림을 받도록 경고를 구성합니다.
안정성 아키텍처 개요
Site Recovery를 사용하는 경우 복제된 VM을 나타내는 원본 및 대상을 정의합니다.
원본은 온-프레미스 물리적 서버, VMware VM 및 Hyper-V VM을 포함하여 지원되는 다른 원본의 Azure VM 또는 VM 또는 서버일 수 있습니다.
target 항상 Azure VM입니다. Azure-Azure VM 복제의 경우 대상은 원본 VM과 다른 지역 또는 가용성 영역일 수 있습니다.
다음을 비롯한 리소스 및 관련 설정을 배포하고 구성할 책임이 있습니다.
Site Recovery가 복제 구성 설정을 저장하는 데 사용하는 복구 서비스 자격 모음. 볼트는 복제된 데이터를 저장하지 않습니다. 자격 증명 모음의 중복 구성은 Site Recovery에서는 중요하지 않지만, 동일한 자격 증명 모음을 Azure Backup에 사용하는 경우에는 중요합니다.
보관소에는 다음과 같은 추가 구성이 포함될 수 있습니다.
스냅샷 빈도 및 보존 길이를 구성하는 복제 정책입니다.
머신이 장애 조치되는 순서를 조정하며, 스크립트 및 수동 작업을 포함할 수 있는 복구 계획입니다. 복구 계획은 특정 순서로 장애 조치해야 하는 애플리케이션 및 데이터베이스 계층과 같은 여러 계층이 있는 워크로드에 특히 유용합니다.
Azure 대 Azure 복제의 경우 대상에 복제되기 전에 해당 지역에 원본 데이터의 복사본을 저장하는 cache 스토리지 계정. 캐시 스토리지 계정의 중복 구성은 가용성 영역 중단 시 안정성에 영향을 줄 수 있습니다.
다이어그램은 세 가지 가용성 영역을 보여 줍니다. 영역 1에는 VM이 포함됩니다. 다음 섹션은 모든 세 가지 영역에 걸쳐 있으며, 여기에는 Site Recovery 핵심 구성 요소, 복구 서비스 자격 증명 모음, ZRS에 대한 캐시 스토리지 계정이 포함됩니다.
비고
이 가이드에서는 Site Recovery의 Azure 기반 구성 요소 및 복제 관계의 안정성에 중점을 둡니다. 온-프레미스 환경 또는 다른 클라우드 공급자에서 데이터 또는 VM을 복제하는 경우 Azure 외부의 구성 요소의 안정성을 고려합니다.
배포하는 구성 요소에 대한 자세한 내용은 다음 문서를 참조하세요.
핵심 Site Recovery 서비스는 Microsoft가 관리하는 인프라에서 실행됩니다. 이 문서에서는 이러한 구성 요소를 총체적으로 핵심 Site Recovery 서비스라고 합니다.
일시적인 오류에 대한 복원력
일시적인 오류는 구성 요소에서 짧고 간헐적인 오류입니다. 클라우드와 같은 분산 환경에서 자주 발생하며 작업의 일반적인 부분입니다. 일시적인 오류는 짧은 시간 후에 스스로 수정됩니다. 애플리케이션은 일반적으로 영향을 받는 요청을 다시 시도하여 일시적인 오류를 처리할 수 있는 것이 중요합니다.
모든 클라우드 호스팅 애플리케이션은 클라우드 호스팅 API, 데이터베이스 및 기타 구성 요소와 통신할 때 Azure 임시 오류 처리 지침을 따라야 합니다. 자세한 내용은 임시 오류 처리를 위한 권장 사항을 참조하세요.
Site Recovery 작업을 다시 시도하여 복제 프로세스 중에 발생하는 일시적인 오류를 자동으로 처리합니다. Site Recovery에 대한 일시적인 오류 처리를 구성할 필요가 없습니다.
가용성 영역 오류에 대한 복원력
사용 가능성 영역은 Azure 지역 내에서 물리적으로 분리된 데이터 센터 그룹입니다. 한 영역이 실패하면 서비스가 나머지 영역 중 하나로 전환될 수 있습니다.
가용성 영역 실패 시 Site Recovery 복제가 어떻게 동작하는지 이해하려면 다음 서비스 구성 요소를 고려해야 합니다.
핵심 Site Recovery 서비스: 핵심 Site Recovery 서비스는 지원되는 지역의 가용성 영역 오류에 복원력이 있도록 설계되었습니다. 서비스의 내부 구성 요소는 고객 구성 없이 영역 중복성을 자동으로 지원합니다.
Recovery Services 볼트: 이 볼트는 구성 데이터를 저장합니다. Site Recovery가 영역 복원력을 지원하는 지역에서는 금고의 구성 데이터도 영역 복원력이 있습니다.
캐시 스토리지 계정: Azure-Azure 복제의 경우 ZRS 계층을 사용하여 배포하여 캐시 스토리지 계정 영역을 중복으로 만들 책임이 있습니다.
캐시 스토리지 계정에 LRS(로컬 중복 스토리지) Azure Storage 복제 계층을 사용하고 영역이 실패하는 경우 Site Recovery는 최근에 변경된 데이터를 대상에 복제하지 않을 수 있습니다.
비고
Site Recovery는 여러 가용성 영역의 VM 간에 장애 조치(failover)하는 데 도움이 될 수 있습니다. 자세한 내용은 가용성 영역 간에 Azure VM DR 사용 설정을 참조하세요.
요구 사항
지역 지원:
Site Recovery 서비스 및 Recovery Services 자격 모음: Site Recovery 서비스는 다음 지역에서 영역 탄력성을 가지고 있습니다.
Americas 유럽 중동 아시아 태평양 칠레 중부 오스트리아 동부 Israel Central 인도네시아 중부 Mexico Central Italy North 일본 서부 미국 서부 3 폴란드 중부 말레이시아 서부 Spain Central 뉴질랜드 북부 Site Recovery는 모든 가용성 영역 사용 지역에서 가용성 영역에 대한 지원을 배포하고 있습니다. 이전 표에 영역 복원력으로 나열되지 않은 지역에서는 영역 오류가 작업에 영향을 줄 수 있습니다.
캐시 스토리지 계정: 모든 가용성 영역 사용 지역에 ZRS 스토리지 계정을 배포할 수 있습니다.
비용
Site Recovery 가용성 영역 구성에 관계없이 보호되는 VM 인스턴스 수에 따라 요금이 청구됩니다. 자세한 내용은 Site Recovery 가격 책정을 참조하세요.
가용성 영역 지원 구성
Core Site Recovery service: 핵심 Site Recovery 서비스에서 영역 복원력을 구성하지 않습니다. Microsoft는 지원되는 지역에서 영역 복원력을 제공합니다.
Microsoft가 나중에 지역에서 영역 복원력을 사용하도록 설정하면 Site Recovery 리소스가 영역 복원력의 이점을 자동으로 활용합니다. 어떤 조치도 취할 필요가 없습니다.
Recovery Services 자격 증명 모음: Recovery Services 자격 증명 모음에는 중복 설정이 있지만 Site Recovery는 자격 증명 모음의 중복 구성을 사용하지 않습니다. Site Recovery를 사용할 때, 영역 내 중복성을 위해 백업 볼트를 구성할 필요가 없습니다.
Cache Storage 계정: Azure-Azure 복제를 사용하는 경우 캐시 스토리지 계정을 만들고 적절한 수준의 중복성으로 구성할 책임이 있습니다. 영역 중복을 만들려면 ZRS 복제 유형에 맞게 구성합니다. 자세한 내용은
Azure Blob Storage 참조하세요.
모든 영역이 정상인 경우의 동작
이 섹션에서는 핵심 서비스에 대한 가용성 영역 지원이 있는 지역에서 Site Recovery를 사용하고, 캐시 스토리지 계정이 ZRS를 사용하도록 구성되고, 모든 가용성 영역이 작동할 때 예상되는 사항에 대해 설명합니다.
영역 간 작업: 복제 프로세스는 여러 가용성 영역의 인프라를 사용하여 복제 작업을 트리거하고 실행할 수 있습니다. 서비스는 이 인프라를 투명하게 관리합니다.
영역 간 데이터 복제: Site Recovery 및 스토리지가 영역 데이터 복제를 처리합니다.
Site Recovery 구성: Site Recovery는 귀하의 보관소를 LRS를 사용하도록 구성하더라도 영역 간에 구성 데이터를 복제합니다.
캐시 스토리지 계정: ZRS를 사용하도록 캐시 스토리지 계정을 구성하는 경우 스토리지는 영역 간에 캐시된 데이터를 동기적으로 복제합니다.
영역 오류 중 동작
이 섹션에서는 핵심 서비스에 대한 가용성 영역 지원이 있는 지역에서 Site Recovery를 사용하고, 캐시 스토리지 계정이 ZRS를 사용하도록 구성되고, 가용성 영역 중단이 발생할 때 예상되는 사항에 대해 설명합니다.
비고
실패한 영역에 원본 VM이 포함된 경우 대상에 대한 장애 조치(failover)를 트리거할 책임이 있습니다. 자세한 내용은 다음 문서를 참조하세요.
- Azure VM을 보조 지역으로 페일오버합니다
- VMware 가상 머신(가상 시스템) 장애 조치(failover)
Hyper-V VM을 Azure
- 검색 및 응답: Site Recovery 플랫폼은 가용성 영역에서 오류를 자동으로 감지하고 응답을 시작합니다. 핵심 Site Recovery 서비스에 대한 영역 장애 조치(failover)를 수동으로 시작할 필요가 없습니다. 그러나 영역 중단이 원본 VM에 영향을 미치는 경우 VM의 장애 조치(failover)를 시작해야 할 수 있습니다.
- 통지: 영역이 다운된 경우 Microsoft는 자동으로 알리지 않습니다. 그러나 Azure Service Health 사용하여 영역 오류를 포함하여 서비스의 전반적인 상태를 파악하고 Service Health 경고를 설정하여 문제를 알릴 수 있습니다.
활성 요청: 활성 복제 작업에 미치는 영향은 복제 유형에 따라 달라집니다.
Azure VM의 영역 간 및 지역 간 복제: 원본 또는 대상 인스턴스가 실패한 영역에 있으면 두 인스턴스를 다시 사용할 수 있게 될 때까지 복제가 일시 중지됩니다.
실패한 영역에 원본 또는 대상 VM이 포함되어 있지 않고 ZRS를 사용하도록 캐시 스토리지 계정을 구성한 경우 복제가 계속 실행됩니다.
온프레미스에서 Azure로: 대상 인스턴스가 실패한 영역에 있는 경우, 인스턴스가 다시 사용 가능해질 때까지 복제가 중단됩니다.
실패한 영역에 대상 VM이 포함되어 있지 않으면 복제가 계속 실행됩니다.
예상 데이터 손실: 영역 오류 중에는 데이터 손실이 예상되지 않습니다.
예상 가동 중지 시간: 실패한 영역에 원본 또는 대상 VM이 포함되어 있으면 두 인스턴스를 다시 사용할 수 있게 될 때까지 복제가 일시 중지됩니다.
재배포: Site Recovery 및 Storage는 영역 오류에 자동으로 적응합니다.
핵심 Site Recovery 서비스: 핵심 Site Recovery 서비스는 정상 가용성 영역의 인프라를 자동으로 사용하여 복제를 수행합니다. 어떤 조치도 취할 필요가 없습니다.
캐시 스토리지 계정: 스토리지는 캐시 데이터에 대한 요청을 정상 영역으로 자동으로 라우팅합니다.
영역 복구
영향을 받는 가용성 영역이 복구되면 Site Recovery는 영역 중단 중에 일시 중지된 복제 작업을 자동으로 다시 시작합니다.
서버 또는 VM을 영역 중단 시 장애 조치했을 때, 이에 대한 장애 복구를 시작하는 것은 귀하의 책임입니다. 자세한 내용은 다음 문서를 참조하세요.
Azure VM의 영역 간 및 지역 간 복제:주지역에 Azure VM 장애 복구
온프레미스에서 Azure로의 복제:
물리적-Azure 복제:물리적 서버-Azure DR 아키텍처
Hyper-V에서 Azure로의 복제:Hyper-V에서 Azure로의 DR 아키텍처
VMware-Azure 복제:온-프레미스 DR 장애 조치 및 복구에 대한 설명
영역 오류 테스트
Site Recovery 플랫폼은 내부 구성 요소에 대한 영역 복원력을 관리합니다. 이 기능은 완전히 관리되므로 가용성 영역 오류 프로세스를 시작하거나 유효성을 검사할 필요가 없습니다.
VM 장애 조치(failover) 및 전반적인 응답 절차를 테스트해야 하는 정기적인 DR 훈련을 수행하는 것이 중요합니다. 프로덕션 환경에 영향을 주지 않도록 DR 훈련을 디자인합니다. 자세한 내용은 다음 문서를 참조하세요.
Azure VM의 영역 간 및 지역 간 복제:Azure VM에 대해 DR 드릴 수행하기
온-프레미스에서 Azure로 복제:
물리적 환경에서 Azure로 복제:Azure에 DR 테스트를 수행합니다
Hyper-V-Azure 복제:Azure에 DR 훈련 실행
VMware-Azure 복제:Azure에 DR 드릴 실행
지역 전체 오류에 대한 복원력
Azure 간 복제의 경우 Site Recovery는 VM을 정상 대상 지역으로 장애 조치(failover)를 사용하도록 설정하여 지역 오류에 대한 복원력을 제공합니다. 자세한 내용은 Azure VM을 다른 Azure 지역으로 복제하기를 참조하세요.
고려 사항
자격 증명 금고 지역: 선택한 특정 Azure 지역에 복구 서비스 자격 증명 금고를 배포합니다. 금고의 지역이 중요합니다. 자원 금고의 지역에서 장애가 발생해도 복제가 계속됩니다. 그러나 지역이 복구될 때까지 장애 조치(failover) 및 장애 복구(failback)를 포함한 Site Recovery 관리 작업을 수행할 수 없습니다.
대상 지역에 보관소를 배포하면 원본 지역 중단 중에 장애 조치(failover) 및 복구 작업을 계속 사용할 수 있습니다. 또한, 세 번째 지역에서의 중단이 장애 조치 및 복구 작업에 영향을 미치지 않도록 방지합니다.
비고
자격 증명 볼트가 일반적으로 대상 지역으로 사용하는 지역에 있는 경우 복제를 장애 조치하고 복제를 다시 설정하면 해당 지역이 새 원본 지역이 됩니다. 이후에 해당 지역에 문제가 발생하는 경우 두 지역이 모두 정상 상태가 될 때까지 장애 복구(failback)를 수행하지 못할 수 있습니다.
용량 예약: 대상 지역이 필요한 VM 유형을 지원하고 워크로드에 사용 가능한 용량이 있는지 확인해야 합니다. 주문형 용량 예약을 사용하여 장애 조치(failover)가 발생하는 경우 워크로드에 컴퓨팅 리소스를 사용할 수 있도록 하는 것이 좋습니다.
다중 지역 지원 구성
Recovery Services 자격 모음: 자격 모음의 지역을 선택해야 합니다. 자세한 내용은 고려 사항참조하세요.
Recovery Services 볼트에는 이중화 설정이 있지만 Site Recovery는 볼트의 이중화 구성을 사용하지 않습니다. Site Recovery를 사용하는 경우 지리적으로 중복을 위해 볼트를 구성할 필요가 없습니다.
캐시 스토리지 계정: 캐시 스토리지 계정은 복제되기 전에 데이터의 임시 위치로만 사용되므로 GRS(지역 중복 스토리지)를 사용하도록 구성해서는 안 됩니다.
지역 오류 중 동작
지역 실패 시 Site Recovery 핵심 서비스의 특정 동작은 실패를 경험하는 지역에 따라 달라집니다.
원본 지역의 오류: Azure 간 복제의 경우 원본 지역을 사용할 수 없는 경우 장애 조치(failover)를 트리거할 수 있습니다.
원본 지역을 사용할 수 없으므로 원본 지역의 VM이 정상 상태가 될 때까지 복제가 중지됩니다.
다이어그램은 원본 지역 및 대상 지역을 보여줍니다. 원본 VM에 두 가지 오류가 표시됩니다. Site Recovery 복제라는 레이블이 지정된 화살표는 대상 지역을 가리킵니다. 대상 지역에는 대상 VM 및 복구 서비스 볼트가 포함됩니다.
대상 지역의 오류: 대상 지역을 사용할 수 없기 때문에 복제가 중지되며, 지역이 정상 상태로 복구될 때까지 대상 장애 조치(failover)를 할 수 없습니다.
다이어그램은 원본 지역 및 대상 지역을 보여줍니다. 원본 지역에는 원본 VM이 포함됩니다. Site Recovery 복제라는 레이블이 지정된 화살표는 대상 지역을 가리킵니다. X는 복제 실패를 나타냅니다. 대상 지역에는 대상 VM 및 Recovery Services 볼트가 포함됩니다. 실패는 대상 VM 및 복구 서비스 자격 증명 모음에 표시됩니다.
볼트가 포함된 지역의 장애: 볼트를 원본 지역이나 대상 지역이 아닌 제3의 지역에 배포했을 때 해당 지역에 장애가 발생하면, Site Recovery는 데이터 복제를 계속 수행합니다. 그러나 보관소가 정상 상태가 될 때까지 장애 조치(failover) 또는 복구(failback)를 비롯한 작업을 시작할 수 없습니다.
다이어그램은 원본 지역, 대상 지역 및 보관소 지역을 보여 줍니다. 원본 VM에서 대상 지역의 VM으로의 복제를 나타내는 Site Recovery 라벨이 붙은 화살표입니다. Recovery Services 보관소에서 오류가 표시됩니다. 장애 조치(failover), 장애 복구(failback) 및 기타 작업을 차단하지만 복제는 계속된다는 레이블이 붙은 화살표가 Services Recovery 자격 증명 모음에서 Site Recovery 복제로 가리킵니다.
지역 복구
지역 중단 시 장애 조치한 서버 또는 VM에 대한 장애 복구를 시작할 책임이 있습니다. 자세한 내용은 다음 문서를 참조하세요.
Azure VM의 영역 간 및 지역 간 복제: Azure VM을 주 지역으로 다시 연결합니다
온-프레미스에서 Azure로 복제:
물리적-Azure 복제:물리적 서버-Azure DR 아키텍처
Hyper-V에서 Azure로의 복제:Hyper-V에서 Azure로의 DR 아키텍처
VMware-Azure 복제:온프레미스 DR 장애 조치 및 장애 복구
지역 오류 테스트
VM 장애 조치(failover) 및 전반적인 응답 절차를 테스트하는 정기적인 DR 훈련을 수행하는 것이 중요합니다. 프로덕션 환경에 미치는 영향을 방지하기 위해 DR 훈련을 디자인합니다. 자세한 내용은 다음 문서를 참조하세요.
Azure VM의 영역 간 및 지역 간 복제:Azure VM에 대해 DR 드릴 수행하기
온-프레미스에서 Azure로 복제:
물리적 환경에서 Azure로 복제:Azure에 DR 테스트를 수행합니다
Hyper-V-Azure 복제:Azure에 DR 훈련 실행
VMware-Azure 복제:Azure에 DR 드릴 실행
구성 및 복제 문제에 대한 복원력
DR 솔루션은 재해가 발생하기 전에 작동한다는 것을 알고 있는 경우에만 신뢰할 수 있습니다. Site Recovery를 모니터링하여 구성 오류 또는 VM 복제 상태 문제와 같은 문제를 검색합니다. 자세한 내용은 Monitor Site Recovery를 참조하세요.
복제 상태에 대한 문제를 알 수 있도록 Azure Monitor 경고를 구성하는 것이 좋습니다. 자세한 내용은 Site Recovery에 대한 기본 제공 Azure Monitor 경고를 참조하세요.
서비스 유지 관리에 대한 복원력
Azure 핵심 Site Recovery 서비스에 대한 업데이트 및 유지 관리를 자동으로 관리합니다. 유지 관리 작업에는 가동 중지 시간이 필요하지 않으며 VM 및 서버의 복제를 중단하지 않습니다.
그러나 필요한 경우 모바일 에이전트를 포함하여 VM 및 서버의 Site Recovery 구성 요소에 업데이트를 적용할 책임이 있습니다.
중요합니다
에이전트에 대해 자동 업데이트를 사용하도록 설정하는 것이 좋습니다. 에이전트 버전이 4개 이상 뒤쳐지면 복제가 꺼지고 워크로드의 복구 가능성이 손상됩니다.
자세한 내용은
서비스 수준 약정
Azure 서비스에 대한 SLA(서비스 수준 계약)는 각 서비스의 예상 가용성과 솔루션이 가용성 기대치를 달성하기 위해 충족해야 하는 조건을 설명합니다. 자세한 내용은 SLA for online services 참조하세요.
Site Recovery의 경우, 별도의 SLA들이 적용됩니다.
서비스 가용성은 Site Recovery를 사용하여 보호된 인스턴스를 전환할 수 있음을 의미합니다. 보호된 인스턴스는 보조 위치에 복제되는 VM 또는 물리적 서버입니다. 이 SLA에 적합하려면 적어도 30분마다 실패한 장애 조치(failover) 시도를 다시 시도해야 합니다.
RTO(복구 시간 목표)는 장애 조치(failover)를 트리거하거나 스크립트가 트리거하는 시점부터 대상 VM이 실행되는 시점까지의 시간입니다. 이번에는 수동 작업 또는 스크립트 실행을 제외합니다.
SLA는 보조 지역에 충분한 컴퓨팅 용량이 있는 경우에만 서비스 크레딧을 제공합니다.