원본 최적화

Azure SQL Database를 제외한 모든 원본에 대해 현재 분할을 선택한 값으로 사용하는 것이 좋습니다. 다른 모든 원본 시스템에서 읽을 때 데이터 흐름은 데이터 크기에 따라 데이터를 균등하게 분할합니다. 약 128MB의 데이터에 대해 새 파티션이 만들어집니다. 데이터 크기가 증가함에 따라 파티션 수가 증가합니다.

모든 사용자 지정 분할은 Spark가 데이터를 읽은 발생하며 데이터 흐름 성능에 부정적인 영향을 줍니다. 데이터가 읽기에 균등하게 분할되므로 데이터의 셰이프와 카디널리티를 먼저 이해하지 않는 한 권장되지 않습니다.

메모

읽기 속도는 원본 시스템의 처리량에 의해 제한될 수 있습니다.

Azure SQL Database 원본

Azure SQL Database에는 '원본' 분할이라는 고유한 분할 옵션이 있습니다. 원본 분할을 사용하도록 설정하면 원본 시스템에서 병렬 연결을 사용하도록 설정하여 Azure SQL Database에서 읽기 시간을 향상시킬 수 있습니다. 파티션 수와 데이터를 분할하는 방법을 지정합니다. 카디널리티가 높은 파티션 열을 사용합니다. 원본 테이블의 분할 체계와 일치하는 쿼리를 입력할 수도 있습니다.

팁 (조언)

원본 분할의 경우 SQL Server의 I/O는 병목 현상입니다. 파티션을 너무 많이 추가하면 원본 데이터베이스가 포화 상태가 될 수 있습니다. 일반적으로 이 옵션을 사용하는 경우 4~5개의 파티션이 이상적입니다.

원본 분할

격리 수준

Azure SQL 원본 시스템에서 읽은 격리 수준은 성능에 영향을 줍니다. '커밋되지 않은 읽기'를 선택하면 가장 빠른 성능을 제공하고 데이터베이스 잠금을 방지할 수 있습니다. SQL 격리 수준에 대한 자세한 내용은 격리 수준 이해를 참조하세요.

쿼리를 사용하여 읽기

테이블 또는 SQL 쿼리를 사용하여 Azure SQL Database에서 읽을 수 있습니다. SQL 쿼리를 실행하는 경우 변환을 시작하기 전에 쿼리를 완료해야 합니다. SQL 쿼리는 더 빠르게 실행될 수 있는 작업을 푸시다운하고 SELECT, WHERE 및 JOIN 문과 같은 SQL Server에서 읽은 데이터의 양을 줄이는 데 유용할 수 있습니다. 작업을 푸시다운할 때 데이터가 데이터 흐름에 들어오기 전에 변환의 계보 및 성능을 추적하는 기능이 손실됩니다.

Azure Synapse Analytics 소스

Azure Synapse Analytics를 사용하는 경우 스테이징 사용 이라는 설정이 원본 옵션에 있습니다. 이렇게 하면 서비스를 사용하여 Synapse에서 Staging 읽을 수 있습니다. 이는 CETAS 및 COPY 명령과 같은 최고의 성능을 자랑하는 대량 로드 기능을 활용하여 읽기 성능을 크게 향상시킵니다. Staging 사용하도록 설정하려면 데이터 흐름 작업 설정에서 Azure Blob Storage 또는 Azure Data Lake Storage gen2 준비 위치를 지정해야 합니다.

스테이징 활성화

파일 기반 원본

Parquet와 구분된 텍스트 비교

데이터 흐름은 다양한 파일 형식을 지원하지만 Spark 네이티브 Parquet 형식은 최적의 읽기 및 쓰기 시간을 위해 권장됩니다.

파일 집합에서 동일한 데이터 흐름을 실행하는 경우 폴더에서 읽거나 와일드카드 경로를 사용하거나 파일 목록에서 읽는 것이 좋습니다. 단일 데이터 흐름 작업 실행은 모든 파일을 일괄 처리로 처리할 수 있습니다. 이러한 설정을 구성하는 방법에 대한 자세한 내용은 Azure Blob Storage 커넥터 설명서의 원본 변환 섹션에서 확인할 수 있습니다.

가능하면 For-Each 작업을 사용하여 파일 집합을 통해 데이터 흐름을 실행하지 마세요. 이로 인해 for-each의 각 반복이 자체 Spark 클러스터를 스핀업합니다. 이는 종종 필요하지 않으며 비용이 많이 들 수 있습니다.

인라인 데이터 세트와 공유 데이터 세트 비교

ADF 및 Synapse 데이터 세트는 팩터리 및 작업 영역에서 공유 리소스입니다. 그러나 구분된 텍스트와 JSON 원본을 사용하여 많은 수의 원본 폴더와 파일을 읽을 때 프로젝션 내에서 "사용자 프로젝션된 스키마" 옵션을 설정하여 데이터 흐름 파일 검색의 성능을 향상시킬 수 있습니다. 스키마 옵션 대화 상자. 이 옵션은 ADF의 기본 스키마 자동 검색을 해제하고 파일 검색의 성능을 크게 향상시킵니다. 이 옵션을 설정하기 전에 ADF에 프로젝션에 대한 기존 스키마가 있도록 프로젝션을 가져와야 합니다. 이 옵션은 스키마 드리프트에서 작동하지 않습니다.

성능과 관련된 다른 데이터 흐름 문서를 참조하세요.