파이프라인에 대한 환경 버전 구성

Important

SDP의 환경 버전은 베타 버전입니다.

환경 버전은 Python 언어 버전과 파이프라인의 Python 코드에 사용할 수 있는 미리 설치된 Python 라이브러리 집합을 고정합니다. 파이프라인에 추가하는 모든 외부 종속성은 이 기준 위에 계층화됩니다.

환경 버전은 파이프라인이 실행되는 Databricks 런타임 버전에서 파이프라인의 Python 런타임을 분리합니다. 환경 버전이 설정되는 동안 Databricks 런타임 업그레이드는 Python 언어 버전 또는 사전 설치된 라이브러리 버전을 변경하지 않습니다. Python 런타임은 동일한 환경 버전을 사용하는 서버리스 작업 및 Notebook과도 일치합니다. Lakeflow Spark 선언적 파이프라인에 대한 현재 Databricks 런타임 버전을 찾으려면 Lakeflow Spark 선언적 파이프라인 릴리스 정보 및 릴리스 업그레이드 프로세스를 참조하세요.

Important

환경 버전이 있는 파이프라인은 Spark Connect 통해 Python 코드를 실행합니다. Spark Connect는 파이프라인 코드의 동작을 변경합니다. 기존 파이프라인에서 환경 버전을 사용하도록 설정하기 전에 제한 사항, 동작 변경, 호환성 검사 및 마이그레이션 워크플로에 대한 환경 버전 호환성을 참조하세요.

요구 사항

환경 버전에는 다음과 같은 요구 사항이 있습니다.

  • 파이프라인은 Unity 카탈로그를 사용해야 합니다. Hive 메타스토어 파이프라인은 지원되지 않습니다.

지원되는 환경 버전

SDP는 서버리스 컴퓨팅과 클래식 컴퓨팅 모두에서 환경 버전 34 를 지원합니다. Python 언어 버전 및 각 버전에서 사용할 수 있는 사전 설치된 Python 라이브러리의 전체 목록은 환경 버전 참조 참조하세요.

파이프라인에서 환경 버전 사용

파이프라인 편집기 UI, 파이프라인 REST API 또는 선언적 자동화 번들을 통해 환경 버전을 구성할 수 있습니다.

파이프라인에서 환경 버전을 사용하도록 설정하기 전에 Spark Connect와의 호환성을 확인해야 합니다.

UI를 통해 사용

  1. 파이프라인 편집기에서 설정을 클릭합니다.
  2. 파이프라인 환경 아래에서 연필 아이콘을 선택합니다.환경을 편집합니다.
  3. 드롭다운 목록에서 환경 버전을 선택합니다.
  4. 파이프라인 설정을 저장합니다.

파이프라인 환경 섹션에 추가된 외부 종속성은 선택한 환경 버전에 포함된 라이브러리 위에 계층화됩니다. 파이프라인에 대한 Python 종속성 관리를 참조하세요.

API를 통해 사용

Pipelines REST API는 파이프라인 만들기 및 업데이트에 대한 블록을 허용합니다 environment . 작업 영역에 대해 개인 액세스 토큰 인증 을 사용하도록 설정해야 합니다.

환경 버전으로 파이프라인을 만들려면 다음을 수행합니다.

curl --request POST \
  --url 'https://<workspace-host>/api/2.0/pipelines' \
  --header 'Authorization: Bearer <personal-access-token>' \
  --header 'Content-Type: application/json' \
  --data-raw '{
    "name": "<pipeline-name>",
    "catalog": "<catalog>",
    "schema": "<schema>",
    "channel": "CURRENT",
    "environment": {
      "environment_version": "4",
      "dependencies": [
        "simplejson==3.19.*"
      ]
    }
  }'

기존 파이프라인에서 환경 버전을 설정하려면 동일한 environment 블록을 로 PUT /api/2.0/pipelines/<pipeline-id>보냅니다.

선언형 자동화 번들을 통해 활성화

선언적 자동화 번들을 사용하여 파이프라인을 만들 때 파이프라인의 YAML 정의에서 환경 버전을 설정할 수 있습니다.

  1. Databricks CLI가 버전 v0.294.0 이상인지 확인합니다. 그렇지 않은 경우 설치 가이드에 따라 업그레이드합니다.
  2. 파이프라인 번들 자습서에 따라 번들을 설정합니다.
  3. 번들에서 파이프라인 YAML을 찾으세요. 일반적으로 <bundle-folder>/resources/<pipeline_name>_pipeline.yml입니다.
  4. 파이프라인 YAML에서 environment_versiondependencies 필드를 설정합니다:
resources:
  pipelines:
    my_pipeline:
      name: my_pipeline
      catalog: ${var.catalog}
      schema: ${var.schema}
      root_path: '../src/my_pipeline'
      libraries:
        - glob:
            include: ../src/my_pipeline/transformations/**
      environment:
        environment_version: 4
        dependencies:
          - --editable ${workspace.file_path}

파이프라인에서 환경 버전 확인

환경 버전이 파이프라인에 구성되어 있는지 확인하려면 다음을 수행합니다.

  • UI: 파이프라인 설정을 열고 파이프라인 환경 섹션을 확인하거나 JSON 패널에서 environment.environment_version 필드를 검사합니다.
  • API: GET /api/2.0/pipelines/<pipeline-id>을(를) 호출하고 응답에서 environment.environment_version을(를) 찾습니다.
  • 이벤트 로그: environment_version 필드의 create_update 이벤트를 검사합니다.

파이프라인에서 환경 버전 사용 안 함

파이프라인 설정의 파이프라인 환경 섹션을 통해 환경 버전을 제거하거나 API 또는 번들 정의의 environment_version 블록에서 필드를 제거 environment 합니다.

환경 버전이 제거되면 파이프라인은 이전 Python 런타임 구성으로 돌아갑니다.

참고하십시오