워크플로에 Azure Blob Storage로 데이터 이동이 포함된 경우 효율적인 전략을 사용하고 있는지 확인합니다. 캐시를 만들고, Blob 컨테이너를 스토리지 대상으로 추가한 다음, Azure HPC Cache를 사용하여 데이터를 복사해야 합니다.
이 문서에서는 Azure HPC Cache에서 사용하기 위해 데이터를 Blob Storage로 이동하는 가장 좋은 방법을 설명합니다.
팁 (조언)
이 문서는 NFS 탑재 Blob Storage(ADLS-NFS 스토리지 대상)에는 적용되지 않습니다. NFS 기반 메서드를 사용하여 HPC Cache에 추가하기 전이나 후에 ADLS-NFS Blob 컨테이너를 채울 수 있습니다. 자세한 내용은 NFS 프로토콜을 사용하여 미리 로드된 데이터를 읽어보세요.
다음 사실을 염두에 두세요.
Azure HPC Cache는 특수 스토리지 형식을 사용하여 Blob Storage에서 데이터를 구성합니다. 따라서 Blob Storage 대상은 이전에 Azure HPC Cache 데이터에 사용되었던 새 빈 컨테이너 또는 Blob 컨테이너여야 합니다.
여러 클라이언트 및 병렬 작업을 사용하는 경우 Azure HPC Cache를 통해 백 엔드 스토리지 대상으로 데이터를 복사하는 것이 더 효율적입니다. 한 클라이언트의 간단한 복사 명령은 데이터를 느리게 이동합니다.
이 문서에 설명된 전략은 빈 Blob 컨테이너를 채우거나 이전에 사용한 스토리지 대상에 파일을 추가하는 데 사용됩니다.
Azure HPC Cache를 통해 데이터 복사
Azure HPC Cache는 여러 클라이언트를 동시에 제공하도록 설계되었기 때문에 캐시를 통해 데이터를 복사하려면 여러 클라이언트의 병렬 쓰기를 사용해야 합니다.
cp
copy 일반적으로 한 스토리지 시스템에서 다른 스토리지 시스템으로 데이터를 전송하는 데 사용하는 명령은 한 번에 하나의 파일만 복사하는 단일 스레드 프로세스입니다. 즉, 파일 서버는 한 번에 하나의 파일만 수집합니다. 이는 캐시의 리소스 낭비입니다.
이 섹션에서는 Azure HPC Cache를 사용하여 데이터를 Blob Storage로 이동하는 다중 클라이언트 다중 스레드 파일 복사 시스템을 만들기 위한 전략을 설명합니다. 여러 클라이언트 및 간단한 복사 명령을 사용하여 효율적인 데이터 복사에 사용할 수 있는 파일 전송 개념 및 의사 결정 지점에 대해 설명합니다.
또한 도움이 될 수 있는 몇 가지 유틸리티에 대해서도 설명합니다. 이 유틸리티를 msrsync 사용하여 데이터 세트를 버킷으로 나누고 rsync 명령을 사용하는 프로세스를 부분적으로 자동화할 수 있습니다. 스크립트는 parallelcp 원본 디렉터리를 읽고 복사 명령을 자동으로 발급하는 또 다른 유틸리티입니다.
전략 계획
데이터를 병렬로 복사하는 전략을 빌드할 때 파일 크기, 파일 수 및 디렉터리 깊이의 장단점을 이해해야 합니다.
- 파일이 작으면 관심 있는 메트릭은 초당 파일입니다.
- 파일이 큰 경우(10MiBi 이상) 관심 메트릭은 초당 바이트입니다.
각 복사 프로세스에는 처리량 속도와 파일 전송 속도가 있으며, 복사 명령의 길이 타이밍을 지정하고 파일 크기와 파일 수를 팩터링하여 측정할 수 있습니다. 속도를 측정하는 방법을 설명하는 것은 이 문서의 범위를 벗어나지만 작은 파일이나 큰 파일을 처리할지 여부를 이해해야 합니다.
Azure HPC Cache를 사용한 병렬 데이터 수집 전략에는 다음이 포함됩니다.
수동 복사 - 미리 정의된 파일 또는 경로 집합에 대해 백그라운드에서 두 개 이상의 복사 명령을 한 번에 실행하여 클라이언트에서 다중 스레드 복사본을 수동으로 만들 수 있습니다. 자세한 내용은 Azure HPC Cache 데이터 수집 - 수동 복사 방법을 참조하세요.
부분적으로 자동화된 복사
msrsync-msrsync는 여러 병렬rsync프로세스를 실행하는 래퍼 유틸리티입니다. 자세한 내용은 Azure HPC Cache 데이터 수집 - msrsync 메서드를 참조하세요.스크립트 복사
parallelcp- Azure HPC Cache 데이터 수집 - 병렬 복사 스크립트 방법으로 병렬 복사 스크립트를 만들고 실행하는 방법을 알아봅니다.
다음 단계
스토리지를 설정한 후 클라이언트가 캐시를 탑재하는 방법을 알아봅니다.