Note
Lakebase 변경 데이터 피드 기능은 공개 미리 보기로 제공됩니다.
Postgres 테이블에서 CDF(Lakebase 변경 데이터 피드)를 설정한 다음 대상 델타 테이블에 행 수준 변경 내용이 표시되는지 확인합니다.
단계: ① 변경 캡처 사용 설정 → ② 피드 시작 → ③ 행이 레이크하우스로 들어가는 과정 추적 → ④ 행을 변경하고 그 흐름을 확인
Note
빠른 시작입니다. 전체 설명서는 Lakebase 변경 데이터 피드를 참조하세요.
시작하기 전 주의 사항:
-
Postgres 데이터베이스 가져오기를 완료했는지 확인합니다.
playing_with_lakebase샘플 테이블이 있는 Lakebase 프로젝트가 필요합니다. - 사용 권한이 있는 Unity Catalog 카탈로그 및 스키마
CREATE TABLE.
1단계: 변경 캡처 사용
Postgres는 CDF가 작동하려면 미리 쓰기 로그에 전체 행 데이터가 필요합니다. 복제본 ID를 전체로 설정하면 Postgres에서 모든 변경 내용에 대한 이전 행 상태와 새 행 상태를 모두 기록하도록 지시합니다.
Lakebase SQL 편집기에서 다음을 실행합니다.
ALTER TABLE playing_with_lakebase REPLICA IDENTITY FULL;
자세한 정보: 스키마의 모든 테이블에서 복제본 ID를 설정하고 새 테이블에 자동으로 적용
2단계: 피드 시작
Lakebase CDF는 스키마 수준에서 구성됩니다. 원본 스키마의 모든 현재 및 이후 테이블은 자동으로 포함되므로 개별 테이블을 선택하지 않습니다.
프로덕션 분기에서 데이터 피드 변경 탭을 열고 시작을 클릭합니다.
public를 원본 스키마로 선택한 다음, 대상 Unity Catalog 카탈로그와 스키마를 선택합니다. 초기 스냅샷은 즉시 시작되며, lb_playing_with_lakebase_history는 대상 위치에 Delta 테이블로 나타납니다.
자세한 정보: 변경 데이터 피드 시작
3단계: 행을 따라 레이크하우스로 이동
Lakebase에서 행을 선택합니다. 행 id=2을 살펴보세요.
SELECT * FROM playing_with_lakebase WHERE id = 2;
이제 델타 기록 테이블에서 동일한 행을 찾습니다. Databricks SQL 웨어하우스 또는 Notebook으로 전환하고 다음을 실행합니다.
SELECT * FROM <catalog>.<schema>.lb_playing_with_lakebase_history
WHERE id = 2;
<catalog> 및 <schema>을 2단계에서 선택한 대상으로 바꾸세요. Lakebase와 동일한 name 및 value에 추가 열이 있는 행 id=2이 표시됩니다. 초기 스냅샷은 기존의 모든 행을 해당 행이 의미하는 바대로 insert 이벤트로 Delta에 기록했습니다.
이러한 추가 열은 각 행이 나타내는 이벤트 종류(_pg_change_type), 발생한 경우(_timestamp) 및 Postgres 순서 정보(_pg_lsn, _pg_xid)를 설명합니다.
자세한 정보: 대상 테이블 스키마 | 데이터 형식 매핑
4단계: 행 변경, 행 흐름 확인
Lakebase SQL 편집기로 돌아가서 행 id=2을 업데이트합니다.
UPDATE playing_with_lakebase SET value = 55.5 WHERE id = 2;
변경 내용이 피드에 나타날 때까지 몇 초 정도 기다린 다음 기록 테이블을 다시 쿼리합니다.
SELECT id, value, _pg_change_type, _timestamp
FROM <catalog>.<schema>.lb_playing_with_lakebase_history
WHERE id = 2
ORDER BY _pg_lsn DESC;
이제 행 id=2 이 세 번 표시됩니다. 원래 insert행, update_preimage 이전 값이 있는 행 및 update_postimage 새 값이 있는 행입니다. 행에 대한 모든 변경 내용은 새 기록 행이 되므로 항상 완전한 감사 내역이 있습니다. 삭제도 동일한 방식으로 작동하며, _pg_change_type = 'delete'가 있는 행 하나를 추가합니다.
자세한 정보: 일반적인 변경 패턴 | 빌드 다운스트림 파이프라인
다음 단계
- 다운스트림 파이프라인 빌드: 기록 테이블을 구체화된 뷰, SDP 또는 구조적 스트리밍을 사용하여 라이브 집계로 전환합니다.
- 분석 실행:Databricks SQL을 사용하여 델타 기록 테이블을 쿼리합니다.
- 브론즈 계층 사용: 기록 테이블을 메달리온 아키텍처에 편입합니다.
- 프로덕션 제한 검토:제한 사항 및 문제 해결 및 스키마 변경 관리를 참조하세요.
- Lakebase 살펴보기:핵심 개념 | Lakebase