Lakeflow Spark 선언적 파이프라인 릴리스 노트 2026

다음 Lakeflow Spark 선언적 파이프라인 기능, 개선 사항 및 버그 수정은 2026년에 릴리스되었습니다.

비고

Lakeflow Spark 선언적 파이프라인 채널 릴리스는 롤링 업그레이드 프로세스를 따르므로 채널 업그레이드는 서로 다른 시간에 다른 지역에 배포됩니다. Databricks Runtime 버전을 포함한 해당 릴리스는 초기 릴리스 날짜 후 일주일 이후까지 업데이트되지 않을 수 있습니다. 파이프라인에 대한 현재 Databricks 런타임 버전을 찾으려면 런타임 정보를 참조하세요.

2026년 4월

이러한 기능과 Lakeflow Spark 선언적 파이프라인의 향상된 기능은 2026년 4월 5일부터 2026년 5월 6일 사이에 릴리스되었습니다.

이 릴리스에서 사용하는 Databricks의 런타임 버전

다음 버전은 2026년 5월 6일 현재입니다.

채널:

  • CURRENT(기본값): Databricks Runtime 17.3
  • 미리 보기: Databricks Runtime 18.1

새로운 기능 및 개선 사항

  • 독립 실행형 구체화된 뷰 및 스트리밍 테이블(이전에 Databricks SQL의 파이프라인이라고 함)은 이제 서버리스 컴퓨팅(베타)에서 사용할 수 있으므로 전용 파이프라인 클러스터를 프로비전하지 않고도 이러한 개체를 만들고 관리할 수 있습니다. 이렇게 하면 독립 실행형 선언적 개체에 대한 운영 오버헤드 및 비용이 줄어듭니다.
  • 파이프라인 및 독립 실행형 스트리밍 테이블은 이제 REPLACE WHERE 플로우(베타)를 지원합니다. REPLACE WHERE 흐름은 조인 및 집계의 증분 일괄 처리에 적합합니다. REPLACE WHERE 흐름을 사용한 Batch 처리를 참조하세요.
  • SCD 형식 2 처리는 이제 읽기 및 쓰기 작업 중에 버전 맵에서 null 항목을 생략하여 느린 변경 차원 워크로드에 대한 스토리지 효율성 및 쿼리 성능을 향상합니다.
  • 이제 Databricks SQL 편집기에서는 구체화된 뷰를 만들고 편집기에서 직접 안내된 지원 및 구문 도움말을 제공하는 전용 기술을 포함합니다. 이렇게 하면 구체화된 뷰를 정의하고 구성하는 워크플로가 간소화됩니다.
  • 이제 Databricks SQL 편집기에서 변경 데이터 캡처 파이프라인을 설정하는 데 도움이 되는 AUTO CDC 기술이 포함되어 있습니다. 이렇게 하면 CDC 워크플로를 구성하기 위한 학습 곡선이 줄어듭니다.

버그 수정

이 릴리스 기간에는 중요한 버그 수정이 포함되지 않았습니다. 모든 변경 내용은 새로운 기능과 향상된 기능이었습니다.

2026년 3월

이러한 기능 및 Lakeflow Spark 선언적 파이프라인의 개선 사항은 2026년 2월 26일부터 2026년 3월 31일 사이에 릴리스되었습니다.

이 릴리스에서 사용하는 Databricks의 런타임 버전

다음 버전은 2026년 3월 31일 현재입니다.

채널:

  • CURRENT(기본값): Databricks Runtime 17.3.8
  • 미리 보기: Databricks Runtime 18.1.0

새로운 기능 및 개선 사항

  • 서버리스 파이프라인은 이제 CPU 기반 수직 자동 크기 조정을 지원합니다. 이 기능은 워크로드 안정성을 개선하기 위해 실제 CPU 사용률에 따라 클러스터 리소스를 동적으로 조정합니다.
  • 이제 파이프라인을 삭제할 때 Unity 카탈로그 테이블을 유지하고 파이프라인 제거 후에도 데이터 자산을 유지할 수 있습니다. 이렇게 하면 데이터 손실의 위험 없이 파이프라인 수명 주기를 보다 유연하게 관리할 수 있습니다.
  • 이제 스트리밍 데이터 파이프라인을 정의하는 보다 직접적이고 선언적인 방법을 제공하는 새 흐름 구문을 사용하여 스트리밍 테이블을 만들 수 있습니다. 이렇게 하면 파이프라인 작성이 간소화되고 현재 데이터 엔지니어링 패턴과 일치합니다.
  • 이제 파이프라인 후크는 작업으로 트리거되는 파이프라인에서 사용할 수 있습니다. 이를 사용하여 Lakeflow 작업 내에서 파이프라인 업데이트 전후에 사용자 지정 논리를 실행합니다. 파이프라인 후크는 오케스트레이션된 데이터 처리를 위한 자동화 기능을 확장합니다.
  • 이제 파이프라인은 테이블 업데이트 중에 행 필터 및 열 마스크 구성을 유지하므로 Unity 카탈로그 보안 정책은 파이프라인 새로 고침에서 그대로 유지됩니다. 이렇게 하면 스키마가 진화하는 동안 실수로 보안 정책이 제거되지 않습니다.
  • CDC 적용 변경 내용이 이제 날짜/시간 재베이스 모드를 지원합니다. 이 기능은 레거시 및 최신 일정 시스템 간의 타임스탬프 변환을 올바르게 처리합니다. 이렇게 하면 변경 데이터 캡처 흐름을 통해 기록 날짜/시간 데이터를 처리할 때 데이터 불일치가 방지됩니다.
  • 이제 스트리밍 파이프라인의 작업 내에서 foreachBatch SQL 문을 사용하여 보다 유연한 마이크로 일괄 처리 논리를 사용할 수 있습니다. 이렇게 하면 사용자 지정 일괄 처리를 위해 Python 또는 Scala가 필요한 이전 제한 사항이 제거됩니다.
  • 파이프라인은 이제 싱크 등록에서 전방 참조를 지원합니다. 선언되기 전에 다운스트림 테이블을 참조하는 데이터 흐름을 정의할 수 있습니다. 이렇게 하면 복잡한 파이프라인 정의가 간소화되고 순서 지정 제약 조건이 제거됩니다.
  • 한 번만 추가하는 흐름은 이제 테스트 실행 동안 유효성을 검사하여 파이프라인 실행이 시작되기 전에 구성 오류를 발견합니다. 이렇게 하면 파이프라인 작성 워크플로의 앞부분에서 문제를 표시하여 개발 환경을 개선합니다.

버그 수정

이 릴리스 기간에는 중요한 버그 수정이 포함되지 않았습니다. 모든 변경 내용은 새로운 기능과 향상된 기능이었습니다.

2026년 2월

이러한 기능 및 Lakeflow Spark 선언적 파이프라인의 개선 사항은 2026년 1월 14일부터 2026년 2월 25일 사이에 릴리스되었습니다.

이 릴리스에서 사용하는 Databricks의 런타임 버전

다음 버전은 2026년 2월 25일 현재입니다.

채널:

  • CURRENT(기본값): Databricks Runtime 17.3
  • 미리 보기: Databricks Runtime 17.3

새로운 기능 및 개선 사항

  • 이제 파이프라인은 델타 테이블에 대한 유형 확장을 지원하므로 전체 파이프라인을 재설정하지 않고도 열 데이터 유형을 안전하게 확대할 수 있습니다(예: INT에서 LONG, FLOAT에서 DOUBLE로). 이렇게 하면 이전에 수동 개입이 필요했던 스키마 진화 워크플로를 사용할 수 있습니다.
  • 이제 SCD Type 1 구체화를 AUTO CDC사용하여 전체 변경 기록을 유지하지 않고 최신 값을 upsert하는 더 간단한 CDC 패턴을 제공할 수 있습니다. 이렇게 하면 전체 기록이 필요하지 않은 사용 사례에 대한 스토리지 오버헤드가 줄어듭니다.
  • 이제 파이프라인은 실패한 업데이트를 다시 시도할 때 기존 클러스터를 재사용하여 재시도 대기 시간을 줄이고 중복 클러스터 시작 시간을 제거하여 컴퓨팅 비용을 절감합니다.
  • 이제 예측 최적화 사용이 지난 달 내에 새로 고쳐진 경우 구체화된 뷰 및 스트리밍 테이블에 올바르게 표시됩니다.
  • 이제 파이프라인은 여러 흐름의 유효성을 함께 검사하여, 실행에 앞서 마무리 단계에서 흐름 간의 구성 충돌 및 종속성 문제를 찾아냅니다.
  • 이제 파이프라인 업데이트 시 변경 가능한 메타데이터가 유지되어 데이터 입력 스트리밍 테이블에서 'ALTER' 명령을 완전히 지원할 수 있습니다.
  • 파이프라인의 Python 오류는 이제 SQL 상태 코드를 전달하여 오류 진단을 개선하고 다운스트림 도구에서 더 나은 프로그래밍 방식 오류 처리를 가능하게 합니다.
  • 이제 파이프라인은 클래식 컴퓨팅을 위한 ARM 인스턴스를 지원합니다.

버그 수정

  • 이제 첫 번째 업데이트 실행 시 추가 전용 스트리밍 테이블의 ID 열 값이 올바르게 생성됩니다.

2026년 1월

이러한 기능 및 Lakeflow Spark 선언적 파이프라인의 개선 사항은 2025년 11월 14일부터 2026년 1월 13일 사이에 릴리스되었습니다.

이 릴리스에서 사용하는 Databricks의 런타임 버전

다음 버전은 2026년 1월 13일 현재입니다.

채널:

  • CURRENT(기본값): Databricks Runtime 17.3
  • 미리 보기: Databricks Runtime 17.3

새로운 기능 및 개선 사항

  • 이제 데이터 관리 프레임워크를 사용하여 데이터 품질 규칙을 중앙 집중화하여 Unity 카탈로그 테이블에 직접 데이터 품질 기대치를 저장하고 관리할 수 있습니다. 이렇게 하면 여러 파이프라인에서 공유할 수 있는 버전 제어 감사 가능한 품질 규칙을 사용할 수 있습니다.

  • 이제 7일 이상 실행되는 연속 파이프라인은 기본 컴퓨팅을 새로 고쳐야 할 때 갑자기 다시 시작하는 대신 가동 중지 시간을 최소화하고 명시적 업데이트 원인(INFRASTRUCTURE_MAINTENANCE)으로 정상적으로 다시 시작합니다.

  • 파이프라인은 이제 여러 업데이트 요청이 충돌로 실패하지 않고 자동으로 대기 큐에 들어가 순차적으로 실행되는 큐 대기 실행 모드를 지원합니다. 이렇게 하면 자주 업데이트 트리거가 있는 파이프라인에 대한 작업이 간소화되고 수동 재시도 조정이 필요하지 않습니다.

  • 이제 단일 변경 데이터 원본에서 여러 SCD 형식 2 보기를 구체화하여 동일한 데이터의 여러 기록 보기를 만들 때 효율성을 향상시킬 수 있습니다. 이렇게 하면 각 SCD 형식 2 출력에 대한 원본 데이터를 다시 처리할 필요가 없습니다.

  • 이제 Unity 카탈로그 테이블 속성에서 파이프라인 일정 및 구성을 저장하고 읽을 수 있으므로 데이터 거버넌스를 통해 중앙 집중식 설정 관리를 사용할 수 있습니다. 이렇게 하면 데이터 정의와 함께 파이프라인 동작을 관리할 수 있습니다.

  • MANAGE 이제 권한이 Unity 카탈로그의 구체화된 뷰 및 스트리밍 테이블에 자동으로 전파되어 파이프라인 출력에 대한 권한 관리가 간소화됩니다. 이렇게 하면 수동 권한 부여 없이 일관된 액세스 제어가 보장됩니다.

  • SCD 형식 2 작업은 이제 동일한 자연 키를 가진 중복 레코드를 자동으로 병합하여 데이터 일관성을 보장하고, 느리게 변하는 차원 테이블 내 중복 기록을 방지합니다.

  • 이제 파이프라인에는 파이프라인 정의에 더 이상 포함되지 않은 비활성 테이블을 자동으로 삭제하는 옵션이 있습니다. 이렇게 하면 깨끗한 데이터 웨어하우스를 유지하고 사용되지 않는 테이블의 스토리지 비용을 줄일 수 있습니다. 파이프라인에서 Unity 카탈로그 사용을 참조하세요.

  • 이제 파이프라인 정의, 패치 작업 및 실행 ID 변경 내용이 감사 로그에 포함되어 규정 준수 및 보안 모니터링을 위한 구성 변경 내용을 포괄적으로 추적할 수 있습니다. 파이프라인 이벤트 로그를 참조하세요.

버그 수정

이 릴리스 기간에는 중요한 버그 수정이 포함되지 않았습니다. 모든 변경 내용은 새로운 기능과 향상된 기능이었습니다.