온-프레미스 데이터 원본에 대한 Microsoft Purview 데이터 품질 통해 조직은 데이터베이스 및 레거시 플랫폼과 같은 내부 시스템 내에 저장된 데이터의 품질을 평가, 모니터링 및 개선할 수 있습니다. 규칙 기반 유효성 검사, 오류 검색 및 수정 워크플로를 지원하면서 조직 정책을 준수합니다. 기존 인프라와 통합하면 온-프레미스 및 클라우드 환경 모두에서 일관된 데이터 품질 인사이트 및 거버넌스를 제공합니다.
자체 호스팅 데이터 통합 런타임을 사용하면 온-프레미스 데이터 원본을 Purview에 안전하게 연결하여 데이터 품질 프로세스를 확장할 수 있습니다. 이 문서에서는 기본 인프라를 향상시키고 몇 가지 주요 이점을 제공하는 Kubernetes 기반 Linux 자체 호스팅 데이터 통합 런타임에 대해 설명합니다.
- 확장성: 수백 대의 컴퓨터로 확장할 수 있습니다.
- 성능: 워크로드 검사 성능이 향상되었습니다.
- 보안(컨테이너화): Kubernetes 클러스터에서 컨테이너화된 배포를 사용하도록 설정하므로 Windows 컴퓨터에서 직접 데이터 통합 런타임을 호스트할 필요가 없습니다.
지원되는 데이터 원본
- Oracle
- SQL Server
아키텍처
높은 수준의 아키텍처 보기에서 Kubernetes 기반 데이터 통합 런타임을 설치하면 Kubernetes 클러스터의 노드에서 여러 Pod가 자동으로 생성됩니다. DIRCTL이라는 명령줄 도구가 이 설치를 트리거합니다. DIRCTL은 Microsoft Purview 서비스에 연결하여 데이터 통합 런타임을 등록하고 Kubernetes 클러스터에 연결하여 자체 호스팅 데이터 통합 런타임을 설치합니다.
설치하는 동안 프로세스는 MCR(Microsoft Container Registries)에서 데이터 통합 런타임 Pod로 데이터 통합 런타임 이미지를 다운로드합니다. 설치가 완료되면 클러스터의 Pod가 Purview 서비스에 연결하여 검사 작업을 가져옵니다. 검사 작업을 끌어오면 데이터 품질 검사를 위해 온-프레미스 데이터 원본을 연결할 수 있습니다.
필수 구성 요소
데이터 통합 런타임 명령줄 도구(DIRCTL)
데이터 통합 런타임을 설정하려면 데이터 통합 DIRCTL(런타임 명령줄 도구)이 필요합니다. 다운로드 및 설치 지침은 자체 호스팅 통합 런타임을 위한 DIRCTL 도구 설정(미리 보기)을 참조하세요.
역할
Purview에서 자체 호스팅 통합 런타임을 설정하려면 데이터 거버넌스 관리자 역할이 필요합니다.
Kubernetes 클러스터
기존 Linux 기반 Kubernetes 클러스터가 필요하거나 준비해야 합니다. Kubernetes 노드 선택기의 정의에 따라 노드 선택기를 사용하여 노드를 식별합니다. 최소 구성:
- 컨테이너 유형: Linux
- Kubernetes 버전: 1.24.9 이상
- 노드 OS: x86 아키텍처에서 실행되는 Linux 기반 OS
- 노드 사양: 최소 8코어 CPU, 32GB 메모리 및 80GB 이상의 사용 가능한 하드 디스크 공간
- 노드 수: 1개 이상(고정, 활성화되지 않은 클러스터 자동 스케일러)
- 노드당 Pod 번호: 20개 이상(최대 Pod 번호 – Self-Hosted IR에 속하지 않는 다른 Pod 수)
참고
각 노드의 폴더 /var/irstorage/ 는 자체 호스팅 통합 런타임용으로 예약됩니다. 읽기 가능하고 데이터 통합 런타임에 쓸 수 있습니다. 이 폴더에서 로그를 얻거나 외부 드라이버를 이 폴더에 업로드할 수 있습니다. 데이터 통합 런타임은 존재하지 않는 경우 폴더를 만들고 데이터 통합 런타임이 삭제된 후에는 폴더를 삭제하지 않습니다. 데이터 통합 런타임에서 사용하는 컨테이너 이미지는 데이터 통합 런타임에 의해 정리되지 않는 Kubernetes 가비지 수집에서 관리됩니다. Kubernetes 클러스터에 대한 적절한 임계값을 구성합니다.
아웃바운드 연결은 컨테이너 이미지를 끌어오고 데이터 품질 작업 끌어오기 및 생성된 통계 푸시와 같은 활동을 포함하는 추가 작업을 위해 필요합니다.
Kubernetes 컨텍스트
Kubernetes 클러스터 정보와 이 클러스터에 대한 사용자 권한 및 자격 증명을 포함하는 Kubernetes 컨텍스트는 Kubernetes 클러스터와 통신하는 데 필요합니다. DIR 관리에 대한 사용자의 권한에 대한 구성을 용이하게 하기 위해 Kubernetes 관리 역할로 시작할 수 있습니다. 이 컨텍스트는 Kubernetes 클러스터를 설치하여 생성되고 구성 파일에 저장됩니다. 이 파일을 가져올 수 있는 위치와 방법은 Kubernetes 클러스터 설정에 따라 달라집니다.
kubeadm init를 사용하여 Kubernetes 클러스터를 설정하는 경우 에서
/etc/Kubernetes/admin.conf구성 파일을 찾을 수 있습니다.AKS를 사용하는 경우 AKS의 지침에 따라 Az PowerShell 모듈 명령을 사용하여 이 클러스터의 자격 증명을 로컬 컴퓨터에 가져올 수 있습니다. 컨텍스트를 아래
$HOME/.kube/config의 구성 파일에 직접 병합할 수 있습니다.Kubernetes 클러스터를 설정하는 다른 도구를 사용하는 경우 Kubernetes 설명서를 참조하세요.
Kubernetes 컨텍스트에 대한 구성 파일을 가져와서 IRCTL 명령을 실행하려는 컴퓨터의 구성 파일에
$HOME/.kube/config병합합니다. 또는 라는KUBECONFIG환경 변수에서 Kubernetes 컨텍스트의 구성 파일을 설정할 수 있습니다. Kubernetes 컨텍스트에 대한 자세한 내용은 여러 클러스터에 대한 액세스를 구성하는 방법을 참조하세요.
자체 호스팅 데이터 통합 런타임 설정
설정>Microsoft Purview 통합 카탈로그>데이터 통합 런타임으로 이동한 다음 새로 만들기를 선택하여 데이터 통합 런타임을 만듭니다.
자체 호스팅 통합 런타임에 대한 이름 및 설명을 입력한 다음 , 만들기를 선택합니다.
키 생성을 선택하여 등록 키를 생성하고 데이터 통합 런타임을 등록합니다.
키 값을 복사하고 완료를 선택합니다.
팁
필요한 경우 키를 다시 생성하거나 생성된 키를 해지할 수 있습니다.
Linux 위해 를 선택하여 데이터 통합 런타임 명령줄(DIRCTL) 도구를 다운로드합니다. DIRCTL을 설치하고 관리하는 방법에 대한 세부 정보를 가져옵니다.
DIRCTL 명령줄을 실행하려는 컴퓨터에서 다운로드에서 DIRCTL을 설치합니다. DIRCTL은 Kube 구성의 컨텍스트에 따라 Kubernetes 클러스터에 연결합니다. 컨텍스트를 지정하지 않으면 DIRCTL은 현재 컨텍스트를 사용합니다. 다음 두 가지 방법 중 하나로 컨텍스트를 설정할 수 있습니다.
- 명령줄을 실행하고
kubectl이 명령을 실행하여 현재 컨텍스트를 확인합니다.-
kubectl config get-contexts: 머신에 구성된 모든 컨텍스트 나열 -
kubectl config current-context: 현재 컨텍스트 이름 가져오기 kubectl config use-context <name of context>
-
- DIRCTL을 실행하고 를 실행
-context하여 Kube 구성에서 컨텍스트를 지정합니다.
- 명령줄을 실행하고
DIRCTL Create 명령을 실행합니다
./DIRCTL create - -registration-key <registration-key copied from the portal>. DIRCTL 만들기 명령은 데이터 품질에 새 데이터 통합 런타임을 등록하고 Kubernetes에서 등록된 데이터 통합 런타임과 관련된 Pod로 애플리케이션 만들기를 시작합니다. 기존 시스템 요구 사항과의 호환성을 유지하면서 데이터 통합 런타임 기능에 필수적인 리소스 및 구성의 프로비저닝을 처리합니다.
등록이 완료되면 설정의 데이터 통합 런타임 페이지에서 데이터 통합 런타임의 상태 검사 수 있습니다. 상태 온라인으로 표시됩니다. 명령을 실행 ./DIRCTL describe하여 데이터 통합 런타임의 상태 검사 수도 있습니다.
팁
다음은 데이터 통합 런타임이 허용해야 하는 에 연결하는 퍼블릭 엔드포인트입니다.
- < >purview_account_name.purview.azure.com
- Mcr.microsoft.com
- *.data.mcr.microsoft.com
데이터 통합 런타임을 사용하여 온-프레미스 데이터 원본 연결 설정
Oracle 데이터베이스에 연결
데이터 통합 런타임 instance 연결하여 연결을 만듭니다.
- 통합 카탈로그 상태 관리>데이터 품질로 이동합니다.
- Oracle 데이터 자산을 사용하여 데이터 제품을 만든 거버넌스 도메인을 선택합니다.
- 관리를선택한 다음 연결을 선택하여 Oracle 데이터베이스에 대한 연결을 설정합니다.
다음 정보를 추가하여 연결을 설정합니다.
- 연결의 표시 이름을 입력합니다.
- 설명을 입력 합니다.
- 원본 유형에서 Oracle을 선택합니다.
- 필수 구성 요소의 일부로 만든 데이터 통합 런타임 을 선택합니다.
- 호스트 이름을 입력 합니다 .
- 포트 번호를 입력합니다.
- 서비스 이름을 입력합니다.
- 스키마 이름을 입력합니다.
- 인증 방법을 선택합니다.
- 사용자 이름을 입력합니다.
- 자격 증명에서 Azure 구독, Azure Key Vault 연결, 비밀 이름 및 비밀 버전을 입력합니다.
- 제출을 선택하여 연결 설정을 완료합니다.
팁
필요한 정보가 모두 없는 경우 초안으로 저장 을 선택하여 연결 설정을 완료하기 위한 나머지 정보가 있는 경우 나중에 계속 진행합니다.
이 이미지는 연결을 만드는 방법을 보여 줍니다.
SQL Server 데이터베이스에 연결
Oracle과 마찬가지로 데이터 통합 런타임 instance 연결하여 연결을 만듭니다. SQL Server 단일 데이터베이스에는 여러 스키마에 속하는 테이블이 포함될 수 있으므로 단일 연결을 사용하여 단일 데이터베이스의 모든 스키마를 검사할 수 있습니다. 연결은 데이터베이스 정보만 허용하지만 스키마는 허용하지 않습니다. 다른 데이터 원본 형식과 마찬가지로 SQL Server 대한 연결을 만듭니다.
- 통합 카탈로그 상태 관리>데이터 품질로 이동합니다.
- Oracle 데이터 자산을 사용하여 데이터 제품을 만든 거버넌스 도메인을 선택합니다.
- 관리를선택한 다음 연결을 선택하여 Oracle 데이터베이스에 대한 연결을 설정합니다.
연결을 성공적으로 설정하려면 다음 정보를 추가합니다.
- 연결의 표시 이름을 입력합니다.
- 설명을 입력 합니다.
- 원본 유형에서 SQL Server 선택합니다.
- 필수 구성 요소의 일부로 만든 데이터 통합 런타임 을 선택합니다.
- 서버 엔드포인트를 입력합니다.
- 데이터베이스 이름을 입력 합니다 .
- 인증 방법을 선택합니다.
- 사용자 이름을 입력합니다.
- 자격 증명에서 Azure 구독, Azure Key Vault 연결 및 비밀 이름을 입력합니다.
- 제출을 선택하여 연결 설정을 완료합니다.
팁
필요한 정보가 모두 없는 경우 초안으로 저장 을 선택하여 연결 설정을 완료하기 위한 나머지 정보가 있는 경우 나중에 계속 진행합니다.
이 이미지는 연결을 만드는 방법을 보여 줍니다.
데이터 품질 검사
연결 설정을 완료한 후 데이터 품질 프로파일링 및 검사 문서에 따라 Oracle 및 SQL Server 온-프레미스 데이터 원본의 데이터 품질을 측정하고 모니터링합니다.
고가용성 및 확장성
Kubernetes 지원 자체 호스팅 통합 런타임을 설치하는 동안 노드 선택기를 사용하여 고가용성을 위해 Kubernetes 클러스터에 여러 노드를 할당합니다. 여러 노드가 있는 경우의 이점은 다음과 같습니다.
검사에 대한 단일 실패 지점이 아니도록 자체 호스팅 통합 런타임의 고가용성입니다.
더 많은 동시 검사. 각 노드는 여러 검사 실행을 동시에 처리할 수 있습니다. 더 많은 동시 검사가 필요한 경우 Kubernetes 클러스터의 노드를 수동으로 스케일 아웃할 수 있습니다.
Azure Blob, Azure Data Lake Storage Gen2 및 Azure Files 같은 일부 원본을 검사할 때 각 검사 실행은 여러 노드를 사용하여 검사 성능을 높일 수 있습니다. 다른 원본의 경우 검사는 노드 중 하나에서만 실행됩니다.
Kubernetes 클러스터의 노드에서 수동으로 스케일 아웃하거나 스케일링하여 Kubernetes 지원 자체 호스팅 통합 런타임의 기능을 업데이트할 수 있습니다.
참고
각 새 노드에서 검사하는 데 필요한 모든 드라이버를 업로드해야 합니다.
네트워킹 요구 사항
| Domain name | 아웃바운드 포트 | 설명 |
|---|---|---|
퍼블릭 클라우드: <tenantID>-api.purview-service.microsoft.com Azure Government: <tenantID>-api.purview-service.microsoft.us 중국: <tenantID>-api.purview-service.microsoft.cn |
443 | Microsoft Purview 서비스에 연결하는 데 필요합니다. Microsoft Purview 프라이빗 엔드포인트를 사용하는 경우 계정 프라이빗 엔드포인트는 이 엔드포인트를 다룹니다. |
퍼블릭 클라우드: <purview_account>.purview.azure.com Azure Government: <purview_account>.purview.azure.us 중국: <purview_account>.purview.azure.cn |
443 | Microsoft Purview 서비스에 연결하는 데 필요합니다. Microsoft Purview 프라이빗 엔드포인트를 사용하는 경우 계정 프라이빗 엔드포인트는 이 엔드포인트를 다룹니다. |
| mcr.microsoft.com | 443 | 이미지를 다운로드하는 데 필요합니다. |
| *.data.mcr.microsoft.com | 443 | 이미지를 다운로드하는 데 필요합니다. |