이 문서에서는 Databricks UI를 사용하여 데이터 프로필을 만드는 방법을 보여 줍니다. API를 사용할 수도 있습니다.
Databricks UI에 액세스하려면 다음을 수행합니다.
작업 영역 왼쪽 사이드바에서
을 클릭합니다. 카탈로그 탐색기를 엽니다.
프로파일을 지정할 테이블로 이동합니다.
품질 탭을 클릭합니다.
이 스키마에 대해 이상 탐지가 설정되어 있지 않은 경우 사용 설정을 클릭합니다.
이 스키마에 대해 이상 탐지를 사용하도록 설정한 경우 구성을 클릭합니다.
데이터 품질 모니터링 대화 상자의 데이터 프로파일링 필드에서 구성을 클릭합니다.
대화 상자에서 프로필 유형을 선택합니다. 다음 섹션에서는 프로필 형식 옵션 및 각 형식에 대한 추가 선택에 대해 설명합니다.
Profiling
프로필 유형 드롭다운 메뉴에서 만들려는 프로필 유형을 선택합니다. 프로필 형식이 테이블에 표시됩니다.
| 프로필 유형 | 설명 |
|---|---|
| 시계열 프로필 | 시간에 따라 측정된 값을 포함하는 테이블입니다. 이 테이블에는 타임스탬프 열이 포함되어 있습니다. |
| 스냅샷 프로필 | 모든 델타 관리 테이블, 외부 테이블, 뷰, 구체화된 뷰 또는 스트리밍 테이블입니다. 스냅샷 프로필의 최대 테이블 크기는 4TB입니다. 더 큰 테이블의 경우 시계열 프로필을 대신 사용합니다. |
| 추론 프로파일 | 기계 학습 분류 또는 회귀 모델에 의한 예측 값 출력을 포함하는 테이블입니다. 이 표에는 타임스탬프, 모델 ID, 모델 입력(특징), 모델 예측 결과가 포함된 열 및 고유한 관찰 ID와 실제 레이블이 포함된 선택적 열이 포함되어 있습니다. 또한 모델에 대한 입력으로 사용되지 않지만 공정성 및 편향 조사 또는 기타 작업에 유용할 수 있는 인구 통계 정보와 같은 메타데이터를 포함할 수도 있습니다. |
TimeSeries 또는 Inference을 선택하면 추가 매개변수가 필요하며, 이는 다음 섹션에 설명되어 있습니다.
메모
- 시계열 또는 유추 프로필을 처음 만들 때 프로필은 생성 30일 전의 데이터만 분석합니다. 프로필을 만든 후에는 모든 새 데이터가 처리됩니다.
- 구체화된 뷰에 정의된 모니터는 증분 처리를 지원하지 않습니다.
팁 (조언)
TimeSeries 및 Inference 프로필의 경우, 테이블에서 변경 데이터 피드 (CDF)를 활성화하는 것이 가장 좋습니다. CDF를 사용하도록 설정하면 새로 고칠 때마다 전체 테이블을 다시 처리하는 대신 새로 추가된 데이터만 처리됩니다. 이렇게 하면 많은 테이블에서 프로파일링을 확장할 때 실행 효율성이 높아지고 비용이 절감됩니다.
TimeSeries 프로필
프로필의 TimeSeries 경우 다음을 선택해야 합니다.
- 시간에 따라 창에서 데이터를 분할하는 방법을 결정하는 메트릭 세분성을 지정합니다.
- 테이블의 타임스탬프 열을 지정하십시오. 타임스탬프 열 데이터 형식은
TIMESTAMP를 사용하여to_timestamp타임스탬프로 변환할 수 있는 형식이거나 형식이어야 합니다.
Inference 프로필
프로필의 Inference 경우 세분성 및 타임스탬프 외에도 다음을 선택해야 합니다.
- 문제 유형(분류 또는 회귀)을 선택합니다.
- 모델의 예측 값이 포함된 열인 예측 열을 지정합니다.
- 모델 예측의 실제 값을 포함하는 레이블 열을 선택적으로 지정합니다.
- 예측에 사용되는 모델의 ID를 포함하는 열인 모델 ID 열을 지정합니다.
고급 옵션
고급 옵션 섹션에서 일정을 설정하고, 전자 메일 알림을 추가하고, 사용자 지정 메트릭 및 조각화 식을 추가하고, 기본 프로필 구성을 변경할 수 있습니다.
일정
예약된 기준으로 실행할 프로필을 설정하려면 일정에 따라 새로 고침 을 선택하고 프로필 실행 빈도 및 시간을 선택합니다. 프로필을 자동으로 실행하지 않으려면 수동으로 새로 고침을 선택합니다. 수동으로 새로 고침을 선택하면 나중에 품질 탭에서 메트릭을 새로 고칠 수 있습니다.
알림
프로필에 대한 전자 메일 알림을 설정하려면 알림을 받을 전자 메일을 입력하고 사용하도록 설정할 알림을 선택합니다. 알림 이벤트 유형별로 최대 5개의 전자 메일이 지원됩니다.
Metrics
메트릭 섹션에서 다음 기본 설정을 변경하도록 선택할 수 있습니다.
메트릭 테이블 스키마 이름: 프로필에서 만든 메트릭 테이블이 저장되는 Unity 카탈로그 스키마입니다. 이 위치는 {catalog}형식이어야 합니다. {schema}. 기본적으로 프로파일된 테이블과 동일한 스키마 위치로 설정됩니다. 다른 위치를 지정할 수 있습니다.
자산 디렉터리: 데이터 프로파일링 자산을 저장할 기존 디렉터리의 절대 경로입니다. 기본적으로 자산은 기본 디렉터리 "/Users/{user_name}/databricks_lakehouse_monitoring/{table_name}"에 저장됩니다. 이 필드에 다른 위치를 입력하면 지정한 디렉터리의 "/{table_name}" 아래에 자산이 만들어집니다. 이 디렉터리가 작업 영역의 어느 곳에나 있을 수 있습니다. 조직 내에서 공유하려는 프로필의 경우 "/Shared/" 디렉터리의 경로를 사용할 수 있습니다.
이 필드는 비워 둘 수 없습니다.
다음 설정을 지정할 수도 있습니다.
- Unity 카탈로그 기준 테이블 이름: 비교를 위한 기준 데이터가 포함된 테이블 또는 뷰의 이름입니다.
-
메트릭 조각화 식: 식을 조각화하면 테이블 전체 외에도 프로파일링할 테이블의 하위 집합을 정의할 수 있습니다. 조각화 식을 만들려면 식 추가 를 클릭하고 식 정의를 입력합니다. 예를 들어, 표현식
"col_2 > 10"은 두 개의 조각을 생성합니다: 하나는col_2 > 10에 대해, 다른 하나는col_2 <= 10에 대해 생성됩니다. 또 다른 예로,"col_1"의 표현은col_1의 각 고유 값에 대해 하나의 조각을 생성합니다. 데이터는 각 표현별로 독립적으로 그룹화되므로, 각 술어와 그 보충에 대해 별도의 조각이 생성됩니다. -
사용자 지정 메트릭: 사용자 지정 메트릭은 기본 제공 메트릭과 같이 메트릭 테이블에 표시됩니다.
사용자 지정 메트릭을 구성하려면 사용자 지정 메트릭 추가를 클릭합니다.
- 사용자 지정 메트릭의 이름을 입력합니다.
- 사용자 지정 메트릭 유형을 선택합니다. 선택:
Aggregate,Derived또는Drift. - 입력 열의 드롭다운 목록에서 메트릭을 적용할 열을 선택합니다.
- 출력 형식 필드에서 메트릭의 Spark 데이터 형식을 선택합니다.
- 정의 필드에 사용자 지정 메트릭을 정의하는 SQL 코드를 입력합니다.
UI에서 프로필 설정 편집
프로필을 만든 후 품질 탭에서 구성을 클릭하여 프로필 설정을 변경할 수 있습니다.
대화 상자의 데이터 프로파일링 섹션에서 구성을 클릭합니다.
UI에서 프로필 결과 새로 고침 및 보기
프로필을 수동으로 실행하려면 새로 고침 기록 보기를 클릭합니다. 모든 이전 프로필을 보여 주는 대화 상자가 열립니다. 메트릭 새로 고침을 클릭하여 프로필 업데이트를 트리거합니다.
새로 고침 기록을 보려면 데이터 프로파일링을 사용하도록 설정한 Databricks 작업 영역을 사용해야 합니다.
프로필 메트릭 테이블에 저장된 통계에 대한 자세한 내용은 메트릭 테이블 모니터링을 참조하세요. 메트릭 테이블은 Unity 카탈로그 테이블입니다. Notebook과 SQL 쿼리 탐색기에서 쿼리할 수 있으며, 카탈로그 탐색기에서 볼 수 있습니다.
프로필 출력에 대한 액세스 제어
프로필에서 만든 메트릭 테이블 및 대시보드는 프로필을 만든 사용자가 소유합니다. Unity 카탈로그 권한을 사용하여 메트릭 테이블에 대한 액세스를 제어할 수 있습니다. 작업 영역 내에서 대시보드를 공유하려면 대시보드의 오른쪽 위에 있는 공유 단추를 클릭합니다.
UI에서 프로필 삭제
UI에서 프로필을 삭제하려면 UI에서 프로필 편집 설정의 지침에 따라 프로필 업데이트 대화 상자를 엽니다. 업데이트 드롭다운 메뉴에서 삭제를 선택합니다.