Important
이 기능은 공개 미리보기 단계에 있습니다.
Lakeflow Designer를 사용하면 시각적 끌어서 놓기 캔버스에서 데이터 변환 워크플로를 만들 수 있습니다. 이 페이지에서는 데이터 원본 및 연결 연산자를 추가하는 것부터 결과를 미리 보기 및 Unity 카탈로그에 쓰는 것까지 시각적 데이터 준비를 만드는 방법을 설명합니다.
시각적 데이터 준비를 빌드하려면 다음을 수행합니다.
- 요구 사항 확인
- 시각적 데이터 준비 만들기
- 데이터 소스 추가
- 연산자 추가 및 구성
- 연결 연산자
- 결과 미리 보기
- Unity 카탈로그에 결과 작성
- 프로덕션에서 예약 또는 실행
요구 사항
Lakeflow 디자이너를 사용하려면 다음이 있어야 합니다.
- Unity 카탈로그를 사용하도록 설정된 Azure Databricks 작업 영역
-
CAN USE하나 이상의 컴퓨팅 리소스에 대한 사용 권한(서버리스 또는 다목적). - Azure Databricks AI 보조 기능이
활성화되었습니다 . 해당 지역에서 모델을 사용할 수 없는 경우 지역 간 처리를 사용하도록 설정해야 할 수도 있습니다.
새 비주얼 데이터 준비 만들기
새로운 시각적 데이터 준비를 생성하려면, 을 클릭한 후 사이드바에서 새로 만들기를 선택하고 시각적 데이터 준비를 선택하세요.
데이터 원본을 추가하거나 샘플 시각적 데이터 준비를 탐색할 수 있는 시작 화면이 있는 디자이너가 열립니다.
데이터 원본 추가
모든 디자이너 워크플로는 하나 이상의 데이터 원본으로 시작합니다. 원본 연산자는 캔버스의 데이터 원본을 나타냅니다.
데이터 원본을 추가하려면 다음을 수행합니다.
- 원본 연산자를 추가합니다. 시작 화면에서 원본 연산자 선택을 클릭합니다. 캔버스에서 연산자 메뉴를 열고 원본을 선택합니다.
- 원본 구성 창에서 데이터를 가져오는 방법을 선택합니다. 기존 테이블을 찾아보거나, 로컬 CSV 또는 Excel 파일을 업로드하거나, 파일에서 테이블을 만들거나, Google 드라이브 또는 SharePoint 가져올 수 있습니다.
- 데이터 원본을 선택하거나 구성합니다. 원본 연산자가 캔버스에 나타납니다.
CSV 또는 Excel 파일을 캔버스에 직접 끌어서 놓아 소스 연산자를 빠르게 만들 수도 있습니다.
나중에 원본을 변경하려면 원본 연산자를 열고 새 데이터 원본 선택을 클릭합니다. 원본을 변경하면 모든 다운스트림 연산자의 출력 캐시가 무효화됩니다.
각 수집 옵션에 대한 자세한 내용은 Lakeflow Designer로 데이터 수집을 참조하세요.
연산자 추가 및 구성
연산자를 추가하려면 캔버스 왼쪽의 측면 패널에서 연산자 메뉴를 엽니다. 연산자를 클릭하여 캔버스에 추가하거나 메뉴에서 캔버스로 연산자를 끌어옵니다. 기존 연산자 옆에 있는 + 단추를 클릭하여 자동 연결이 있는 새 연산자를 추가할 수도 있습니다.
연산자를 구성하려면 연산자를 두 번 클릭하거나 포인터를 길게 누른 다음 (연산자 편집)을 클릭하여 구성 창을 엽니다. 해당 연산자 유형에 대한 옵션을 설정한 다음 적용을 클릭합니다.
사용 가능한 각 연산자에 대한 자세한 내용은 Lakeflow Designer의 기본 제공 연산자를 참조하세요.
연결 연산자
두 연산자를 연결하려면 출력 핸들(연산자의 오른쪽 가장자리에 있는 작은 원)을 클릭하고 입력 핸들(다음 연산자의 왼쪽 가장자리에 있는 작은 원)으로 끌어옵니다. 이렇게 하면 데이터가 첫 번째 연산자에서 두 번째 연산자로 흐릅니다. 데이터는 시각적 데이터 준비를 통해 왼쪽에서 오른쪽으로 흐릅니다.
조인 및 결합과 같은 일부 연산자는 여러 입력을 허용합니다.
지니 코드 사용
언제든지 Lakeflow Designer에서 편집하는 동안 Genie Code에 대한 프롬프트를 만들어 도움을 줄 수 있습니다.
Genie Code를 사용하는 경우 다음 단추는 추가 기능을 제공합니다.
-
: 프롬프트의 일부로 사용할 이미지를 업로드합니다.
-
: 테이블 또는 파일과 같은 개체를 언급하여 프롬프트의 일부로 사용할 수 있습니다.
-
: 새 에이전트 컨텍스트를 사용하여 새 채팅 스레드를 시작합니다.
-
: 대화 기록에 대한 사이드 패널과 에이전트가 수행하는 작업에 대한 자세한 보기를 엽니다.
결과 미리 보기
화면 아래쪽의 출력 창에서 결과를 보려면 연산자를 선택합니다. 대부분의 연산자 형식에서 입력 데이터는 왼쪽에 있고 출력 데이터는 오른쪽에 있습니다.
기본적으로 연산자는 최대 1,000개 행의 데이터 샘플에서 실행됩니다. 전체 데이터 세트로 실행하려면 출력 창에서 샘플 데이터 세트를 클릭하고 전체 데이터 세트로 전환합니다.
Warning
전체 데이터 세트를 사용하여 실행하면 모든 업스트림 연산자가 바인딩되지 않은 전체 데이터 세트로 다시 실행되며 시간이 오래 걸릴 수 있습니다.
데이터 프로파일링
출력 창에서 출력에 데이터의 세부 정보를 표시하도록 선택할 수 있습니다. 출력 창의 오른쪽 위 모서리에서 을 선택합니다. 사이드바 단추를 클릭하여 선택 세부 정보를 엽니다. 선택 항목에 대한 세부 정보를 보려면 데이터의 하위 집합을 선택합니다.
Unity 카탈로그에 결과 작성
출력 연산자를 추가하여 Unity 카탈로그의 테이블에 결과를 작성합니다.
- 연산자 메뉴를 열고 출력을 선택하거나 마지막 연산자 옆을 클릭하고 +출력을 선택합니다.
- 아직 연결되지 않은 경우 마지막 변환의 출력 핸들을 출력 연산자의 입력 핸들에 연결합니다.
- 출력 연산자를 두 번 클릭하여 해당 구성 창을 엽니다.
- 테이블 이름을 입력하고 출력 위치(카탈로그 및 스키마)를 선택합니다.
- 실행을 클릭합니다.
프로덕션에서 예약 또는 실행
워크플로를 작업으로 예약하여 자동화할 수 있습니다.
- 직접 예약: 위쪽 메뉴에서 일정 단추를 클릭하여 시각적 개체 데이터 준비에 대한 예약된 작업을 만듭니다.
- 작업에 추가: Azure Databricks 작업을 만들고 디자이너 시각적 데이터 준비를 작업으로 선택합니다. 이렇게 하면 해당 시각적 데이터 준비를 더 큰 파이프라인의 다른 작업과 결합할 수 있습니다.
캔버스에서 작업할 때 추가 팁
캔버스에서 시각적 데이터 준비를 편집하는 데 도움이 되는 다음 작업을 사용할 수 있습니다.
- 연산자 이름 바꾸기: 구성 창 맨 위에 있는 텍스트 필드를 클릭하여 연산자의 이름을 바꿉니다. 설명이 포함된 이름을 사용하면 시각적 데이터 준비를 한눈에 쉽게 이해할 수 있습니다. SQL 연산자 같은 일부 연산자는 이름으로 다른 연산자의 출력을 참조할 수 있습니다.
-
연산자 복사: 연산자 위에 포인터를 놓고
을 클릭합니다. 또는 연산자를 선택하고 Cmd/Ctrl+C 를 누른 다음 Cmd/Ctrl+V를 누릅니다.
-
자동 레이아웃:
을 클릭합니다. 왼쪽 아래 도구 모음에서 모든 연산자를 컴팩트 레이아웃으로 자동으로 정렬합니다.
-
보기 맞춤:
를 클릭합니다. 왼쪽 아래 도구 모음에서 현재 뷰포트의 모든 연산자를 표시합니다.
- 실행 취소 및 다시 실행: Cmd/Ctrl+Z 및 Cmd/Ctrl+Shift+Z를 누르거나 위쪽 도구 모음의 단추를 사용합니다.