작업 UI 또는 Databricks CLI 또는 REST API와 같은 개발자 도구를 사용하여 작업을 만들고 실행할 수 있습니다. UI 또는 API를 사용하여 실패하거나 취소된 작업을 복구하고 다시 실행할 수 있습니다. 이 문서에서는 작업 및 파이프라인 작업 영역 UI를 사용하여 작업을 만들고, 구성하고, 편집하는 방법을 보여 줍니다. 다른 도구에 대한 자세한 내용은 다음을 참조하세요.
- Databricks CLI를 사용하여 작업을 만들고 실행하는 방법에 대한 자세한 내용은 Databricks CLI를 참조하세요.
- 작업 API를 사용하여 작업을 만들고 실행하는 방법에 대한 자세한 내용은 REST API 참조의 작업을 참조하세요.
- 작업을 구성하는 데 IaC(Infrastructure-as-code) 접근 방식을 선호하는 경우 선언적 자동화 번들을 사용할 수 있습니다. 번들을 사용하여 작업을 구성하고 오케스트레이션하는 방법에 대한 자세한 내용은 선언적 자동화 번들을 참조하세요.
- Databricks Notebook에서 직접 작업을 실행하고 예약하는 방법을 알아보려면 예약된 Notebook 작업 만들기 및 관리를 참조하세요.
팁
작업을 YAML로 보려면 작업에 대해 지금 실행 왼쪽의 케밥 메뉴를 클릭한 다음 코드 버전으로 전환(YAML)을 클릭합니다.
작업에 필요한 최소 구성은 무엇인가요?
Azure Databricks 모든 작업에는 다음이 필요합니다.
- Databricks Notebook과 같이 실행할 논리가 포함된 작업입니다. Lakeflow 작업에서 작업 구성 및 편집 참조
- 논리를 실행할 컴퓨팅 리소스. 컴퓨팅 리소스는 서버리스 컴퓨팅, 클래식 작업 컴퓨팅 또는 다목적 컴퓨팅일 수 있습니다. 작업용 컴퓨팅 구성을 참조하세요.
- 작업을 실행해야 하는 경우에 대해 지정된 일정. 필요에 따라 일정 설정을 생략하고 작업을 수동으로 트리거할 수 있습니다.
- 고유한 이름
새 작업 만들기
이 섹션에서는 Notebook 작업을 사용하여 새 작업을 만들고 작업 영역 UI로 예약하는 단계를 설명합니다.
작업이 태스크가 하나 이상 포함합니다. 해당 작업에 대한 첫 번째 작업을 구성하여 새 작업을 만듭니다.
참고
각 작업 유형의 동적 구성 옵션이 작업 영역 UI에 있습니다. Lakeflow 작업에서 작업 구성 및 편집을 참조하세요.
- 작업 영역에서
사이드바의 작업 및 파이프라인입니다.
- 만들기를 클릭한 다음 작업을 클릭합니다.
- Notebook 타일을 클릭하여 첫 번째 작업을 구성합니다. Notebook 타일을 사용할 수 없는 경우 다른 작업 유형 추가를 클릭하고 Notebook을 검색합니다.
- 태스크 이름을 입력합니다.
- 경로 필드에서 노트북을 선택합니다.
- 작업 만들기를 클릭합니다.
작업 영역에서 작업이 서버리스 컴퓨팅을 사용하도록 설정되지 않은 경우, 컴퓨팅 옵션을 선택해야 합니다. Databricks는 작업을 구성할 때 항상 작업 컴퓨팅을 사용하는 것을 권장합니다.
작업 영역 작업 목록에 새 작업이 기본 이름 New Job <date> <time>로 나타납니다.
워크플로에 필요한 경우 동일한 작업 내에서 작업을 계속 추가할 수 있습니다. 작업이 100개보다 큰 작업에는 특별한 요구 사항이 있을 수 있습니다. 자세한 내용은 작업이 많은 작업을 참조하세요.
작업 예약
작업이 실행되는 시기를 결정할 수 있습니다. 기본적으로 수동으로 시작할 때만 실행되지만 자동으로 실행되도록 구성할 수도 있습니다. 트리거 만들어 일정에 따라 또는 이벤트에 따라 작업을 실행할 수 있습니다.
작업 내 태스크 흐름 제어
작업에서 여러 작업을 구성할 때 특수 작업을 사용하여 태스크 실행 방법을 제어할 수 있습니다. Lakeflow 작업 내의 작업 흐름 제어를 참조하세요.
작업 영역에서 편집할 작업 선택
다음과 같이 작업 영역 UI를 사용하여 기존 작업을 편집합니다.
- Azure Databricks 작업 영역의 사이드바에서 작업 및 파이프라인을 클릭합니다.
- 필요에 따라 작업 필터와 내 소유 필터를 선택합니다.
- 작업의 이름 링크를 클릭합니다.
작업 UI를 사용하여 다음을 수행합니다.
- 작업 설정 편집
- 작업 이름 변경, 복제, 삭제
- 기존 작업에 새 태스크 추가
- 작업 설정 편집
작업 설정 편집
측면 패널에 작업 세부 정보가 표시됩니다. 작업 일정 또는 트리거, 작업 매개 변수, 컴퓨팅 구성, 태그, 알림, 최대 동시 실행 수, 기간 임계값 및 Git 설정을 변경할 수 있습니다. 작업 액세스 제어가 사용하도록 설정된 경우 작업 권한을 편집할 수도 있습니다.
모든 작업 태스크에 대한 매개 변수 추가
작업 수준에서 구성된 매개 변수는 키워드 인수를 허용하도록 구성된 Python wheel 파일을 포함하여 키-값 매개 변수를 허용하는 잡의 태스크에 전달됩니다. 매개 변수화 작업을 참조하세요.
작업에 태그 추가
작업에 레이블 또는 키-값 특성을 추가하려면 작업을 편집할 때 태그를 추가하면 됩니다.
작업 목록에서 태그를 사용하여 작업을 필터링할 수 있습니다. 예를 들어, department 태그를 사용하여 특정 부서의 작업을 필터링할 수 있습니다.
참고
작업 태그는 개인 식별 정보 또는 암호와 같은 중요한 정보를 저장하도록 설계되지 않았기 때문에 Databricks는 중요하지 않은 값에만 태그를 사용하는 것이 좋습니다.
또한 태그는 작업을 실행할 때 생성된 작업 클러스터에 전파되므로 기존 클러스터 모니터링에서 태그를 사용할 수 있습니다.
태그를 추가하거나 편집하려면 작업 세부 정보 가로 패널에서 + 태그를 클릭합니다. 태그를 레이블 또는 키-값 페어로 추가할 수 있습니다. 레이블을 추가하려면 키 필드에 레이블을 입력하고 값 필드를 비워 둡니다.
작업과 함께 Git 사용
원격 Git 리포지토리에서 직접 소스 코드를 체크 아웃하도록 작업 작업을 구성할 수 있습니다. 대규모 리포지토리에 대한 스파스 체크 아웃을 비롯한 지침 및 모범 사례는 Lakeflow 작업에서 Git 사용을 참조하세요.
작업에 서버리스 사용 정책 추가
중요하다
이 기능은 공개 프리뷰입니다.
작업 영역에서 서버리스 사용 정책을 사용하여 서버리스 사용량의 특성을 지정하는 경우 작업 세부 정보 측면 패널의 예산 정책 설정을 사용하여 작업의 서버리스 사용 정책을 선택할 수 있습니다. 서버리스 사용 정책을 사용하여 특성 사용량을 참조하세요.
작업 이름 변경, 복제, 삭제
작업의 이름을 바꾸려면 작업 UI로 이동하여 작업 이름을 클릭합니다.
기존 작업을 복제하여 새 작업을 빠르게 만들 수 있습니다. 작업을 복제하면 작업 ID를 제외하고 동일한 작업 복사본이 만들어집니다. 작업을 복제하려면 다음을 수행합니다.
-
왼쪽 사이드바의 작업 및 파이프라인입니다.
- 복제하려는 작업의 이름을 클릭하여 작업 UI를 엽니다.
-
을 클릭합니다. 지금 실행 단추 옆에 있습니다.
- 드롭다운 메뉴에서 작업 복제를 선택합니다.
- 복제된 작업의 이름을 입력합니다.
- 복제를 클릭하세요.
작업 삭제
작업을 삭제하려면 작업 페이지로 이동하여 을 클릭합니다. 작업 이름 옆에 있는 드롭다운 메뉴에서 작업 삭제 를 선택합니다.
작업 실행 기간 또는 스트리밍 백로그 메트릭에 대한 임계값 구성
중요하다
Lakeflow 작업에 대한 스트리밍 관찰 가능성은 공개 미리 보기로 제공됩니다.
작업 실행 기간 또는 스트리밍 백로그 메트릭에 대한 선택적 임계값을 구성할 수 있습니다. 기간 또는 스트리밍 메트릭 임계값을 구성하려면 작업 세부 정보 패널에서 기간 및 스트리밍 백로그 임계값 클릭합니다.
작업의 예상 완료 시간 및 최대 완료 시간을 포함하여 작업 기간 임계값을 구성하려면 메트릭 드롭다운 메뉴에서 실행 기간 선택합니다. 경고 필드에 기간을 입력하여 작업의 예상 완료 시간을 구성합니다. 작업이 임계값을 초과하면 이벤트가 트리거됩니다. 이 이벤트를 사용하여 작업이 느리게 실행되는 경우 알릴 수 있습니다. 느린 작업에 대한 알림 구성을 참조하세요. 작업에 대한 최대 완료 시간을 구성하려면 제한 시간 필드에 최대 기간을 입력합니다. 이 시간 내에 작업이 완료되지 않으면 Azure Databricks는 상태를 "시간 초과"로 설정합니다.
스트리밍 백로그 메트릭에 대한 임계값을 구성하려면 메트릭 드롭다운 메뉴에서 메트릭을 선택하고 임계값을 입력합니다. 스트리밍 원본에서 지원하는 특정 메트릭에 대해 알아보려면스트리밍 작업에 대한
임계값을 초과하여 이벤트가 트리거되는 경우 이벤트를 사용하여 알림을 보낼 수 있습니다. 느린 작업에 대한 알림 구성을 참조하세요.
필요에 따라 태스크의 시간 임계값을 지정할 수 있습니다. 작업 실행 기간 또는 스트리밍 백로그 메트릭대한
작업 실행 대기열 활성화
참고
2024년 4월 15일 이후 UI를 통해 생성된 작업은 기본적으로 대기열 관리가 사용하도록 설정됩니다.
동시성 제한으로 인해 작업 실행이 건너뛰지 않도록 하기 위해 작업의 대기열 기능을 활성화할 수 있습니다. 큐를 사용하도록 설정하면, 작업 실행에 필요한 리소스가 없는 경우 실행이 최대 48시간 동안 큐에 대기됩니다. 용량이 사용 가능하면 작업이 큐에서 해제되고 실행됩니다. 대기 중인 실행은 작업에 대한
다음 제한 중 하나에 도달하면 실행이 큐에 대기됩니다.
- 작업 공간에서 최대 동시 실행 가능한 활성 상태.
- 작업 영역에서 최대 동시
Run Job태스크 실행. - 작업의 최대 동시 실행 횟수.
큐잉은 특정 작업에 대해서만 실행되는 작업 수준의 속성입니다.
큐를 사용하거나 사용하지 않도록 설정하려면 고급 설정을 클릭하고 작업 세부 정보 가로 패널에서 큐 토글 단추를 클릭합니다.
최대 동시 실행 수 구성
기본적으로 모든 새 작업에 대한 최대 동시 실행은 1입니다.
고급 설정에서 동시 실행 편집을 클릭하여 이 작업의 최대 병렬 실행 수를 설정합니다.
Azure Databricks 새 실행을 시작할 때 작업이 이미 최대 활성 실행 수에 도달한 경우 실행을 건너뜁니다.
동일한 작업의 여러 동시 실행을 허용하려면 이 값을 1보다 높게 설정합니다. 예를 들어, 작업을 빈번한 일정에 따라 트리거하고 싶을 때, 연속 실행을 겹치게 하거나 입력 매개 변수에 따라 다른 여러 실행을 트리거하려는 경우에 유용합니다.