Important
이 기능은 공개 미리보기 단계에 있습니다.
Lakeflow Designer에는 일반적인 데이터 준비 및 변환 작업을 위한 기본 제공 연산자가 포함되어 있습니다. 왼쪽의 측면 패널에서 연산자 메뉴를 열어 범주별로 연산자를 찾아보거나 패널 맨 위에 있는 연산자 검색 을 사용합니다. 캔버스에 연산자의 구성 창을 추가한 후 열려면 해당 창을 두 번 클릭하거나 포인터를 길게 누른 다음 을 클릭합니다. (연산자 편집).
원본 및 출력
Source
디자이너로 데이터를 가져옵니다. Source 연산자는 Unity 카탈로그 테이블 또는 지원되는 기타 원본에서 읽습니다. 다음 두 단계가 있습니다.
- 테이블 또는 파일 선택: 이름으로 테이블 또는 파일을 검색하거나 카탈로그 및 스키마로 검색합니다. 이 창에서 새 테이블을 만들 수도 있습니다.
- 테이블 요약: 테이블을 선택한 후 구성 창에 테이블의 이름, 소유자 및 마지막으로 업데이트된 시간이 표시됩니다. 새 데이터 원본 선택을 클릭하여 원본을 변경합니다. 원본을 변경하면 모든 다운스트림 연산자의 출력 캐시가 무효화됩니다.
데이터 수집 옵션의 전체 범위는 Lakeflow Designer로 데이터 수집을 참조하세요.
출력
Unity 카탈로그의 테이블에 결과를 작성하여 디자이너에서 데이터를 내보냅니다.
출력 구성 창에서 다음을 지정합니다.
- 테이블 이름: 만들 테이블의 이름입니다.
- 출력 위치: 테이블이 만들어지는 카탈로그 및 스키마입니다.
실행을 클릭하여 시각적 데이터 준비를 실행하고 결과를 작성합니다.
AI 함수
데이터에 대한 기본 제공 AI 작업을 실행합니다. 구성 창에서 함수 선택을 열고 아래 함수 중 하나를 선택합니다. 각 함수는 입력(예: 열, 프롬프트, 레이블 또는 언어) 및 출력에 대한 옵션을 창에 표시합니다.
| 기능 | Description |
|---|---|
ai_analyze_sentiment |
입력 텍스트에 대한 감정 분석을 수행합니다. |
ai_classify |
제공하는 레이블을 사용하여 텍스트 또는 구문 분석된 문서를 분류합니다. |
ai_extract |
정의한 필드를 사용하여 텍스트 또는 구문 분석된 문서에서 구조화된 데이터를 추출합니다. |
ai_fix_grammar |
텍스트의 문법 오류를 수정합니다. |
ai_gen |
입력에 대해 사용자가 제공한 프롬프트에 응답합니다. |
ai_mask |
텍스트에서 지정된 엔터티를 마스크합니다(예: 식별 해제). |
ai_similarity |
두 문자열을 비교하고 의미 체계 유사성 점수를 반환합니다. |
ai_summarize |
텍스트 요약을 생성합니다. |
ai_translate |
텍스트를 지정한 대상 언어로 번역합니다. |
Transformations
다음 연산자는 데이터에 대한 변환을 수행합니다.
Aggregate
데이터를 그룹화하고 집계 값을 계산하여 행을 요약합니다.
- 집계 기준: 열을 선택하고, 집계 함수를 선택하고, 출력 열의 이름을 제공합니다. 더 추가하려면 + 집계 추가 를 클릭합니다.
- 그룹화 기준: 그룹화할 열을 선택합니다. + 그룹화 추가를 클릭하여 더 추가합니다.
지원되는 집계 함수: AVG, COUNT, MAX, MEAN, MEDIAN, MIN, PERCENTILE, STDDEV, SUM, VARIANCE.
메모
Group by에서 사용되는 열은 출력에 자동으로 포함됩니다.
결합
일치하는 스키마를 사용하여 두 테이블의 데이터를 단일 출력으로 병합합니다.
- 작업 설정: 공용 구조체, 교차 또는 제외를 선택합니다.
- 병합 전략: 출력에서 중복 행을 제외하려면 [고유 ]를 선택하거나[ 모두 ]를 선택하여 중복 행을 포함한 모든 행을 유지합니다.
필터
그래픽 조건 작성기를 사용하여 하나 이상의 조건을 충족하는 행만 유지하여 일치하는 행을 선택합니다. 각 조건에 대해 조건부로 일치시킬 열, 조건 유형 및 값을 선택합니다.
지원되는 조건 유형:
- 같음/같지 않음
- 중 하나/ 중 하나가 아닌 경우
- 포함/포함하지 않음
- 시작/시작하지 않음
- 다음으로 끝나거나 종료되지 않음
- 보다 큼/보다 작음
- Null인 경우/ null이 아님
참여
일치하는 열 값을 기반으로 두 개의 입력 데이터 세트를 결합하여 키에 두 테이블을 연결합니다.
조인을 구성하려면 다음을 수행합니다.
- 조인할 두 개의 입력 테이블을 선택합니다.
- 두 테이블에서 일치하는 열을 선택하여 하나 이상의 조인 조건을 지정합니다. + 조인 식 추가를 클릭하여 조건을 더 추가합니다.
- 전체 조인, 내부 조인, 왼쪽 조인 또는 오른쪽 조인과 같은 조인 유형을 선택합니다.
- 선택 사항: 출력에 포함할 열을 선택합니다. 기본적으로 두 테이블의 모든 열이 포함됩니다. 중복 열 이름은 테이블 이름 접두사를 받습니다.
- 선택 사항: 조인된 결과에 따라 사용자 지정 식 열을 추가합니다.
Limit
지정한 최대 행 수까지만 전달하여 행 수를 제한합니다.
Pivot
테이블 형식 데이터를 두 방향으로 바꿉니다. 구성 창 맨 위에 있는 탭을 사용하여 모드를 선택합니다.
- 행 → 열 (피벗): 한 열의 고유 값을 새 열 머리글로 바꾸고 해당 열을 다른 열의 집계된 값으로 채웁니다.
- 열 → 행 (피벗 해제): 하나 이상의 열을 행으로 접습니다. 출력 키 및 값 열의 이름을 설정합니다.
행 → 열 모드:
- 피벗 열: 고유 값이 새 헤더가 되는 열을 선택합니다.
- 값 및 집계: 값이 피벗된 셀을 채우는 열을 선택하고 집계 함수(예: SUM, AVG, COUNT, MIN 또는 MAX)를 선택합니다. 창에서 사용할 수 있는 경우 누락된 값을 처리하는 방법(예: null 또는 0)을 구성합니다.
열 → 행 모드에서 피벗 해제할 열을 선택하고 출력 키 및 값 열 이름을 구성합니다.
열 포함: 표를 사용하여 피벗된 값 또는 피벗되지 않은 값과 함께 출력에 남아 있는 열을 선택하고 변환 전에 필요하지 않은 열을 삭제합니다. 디자이너는 피벗, 값 또는 피벗 해제 역할에 할당하지 않는 열에서 고정(그룹화) 열을 유추합니다.
정렬
하나 이상의 열에서 행을 정렬합니다. 각 열에 대해 ASC (오름차순) 또는 DESC (내림차순)를 선택합니다. + 정렬 식 추가를 클릭하여 추가 열을 기준으로 정렬합니다. 정렬은 표준 어휘 순서를 따릅니다.
SQL
다른 연산자가 다루지 않는 변환에 대한 사용자 지정 SQL 코드를 작성합니다.
편집기에서 SQL SELECT 문을 입력합니다. 입력 연산자의 출력을 참조하려면 해당 연산자의 이름을 쿼리의 테이블 이름으로 사용합니다. 다음은 그 예입니다.
SELECT COUNT(*)
FROM aggregate_2
WHERE 1 = 1
을 클릭합니다. 편집기에서 단추를 클릭하여 전체 SQL 코드 창을 열고 문이 전체 워크플로에 어떻게 맞는지 확인합니다.
변화시키다
입력 데이터에서 열을 선택, 생성 또는 변환합니다.
변환 구성 창에서 다음을 수행합니다.
- 열 포함 또는 제외: 확인란을 사용하여 출력으로 전달되는 열을 선택합니다. 머리글 확인란을 클릭하여 모든 열을 선택하거나 선택 취소합니다.
- 열 이름 바꾸기: 열 옆에 있는 이름 바꾸기 필드에 새 이름을 입력합니다.
- 열 순서 다시 지정: 행의 왼쪽에 있는 핸들을 끌어 열 순서를 변경합니다.
- 사용자 지정 열 추가: + 사용자 지정 열 추가 를 클릭하여 식 편집기를 엽니다. 아래를 참조하십시오.
사용자 지정 열
식 편집기를 사용하면 자연어 또는 코드를 사용하여 새 열을 정의할 수 있습니다. 편집기는 두 개의 입력 상자를 가지고 있으며 양방향입니다.
- 설명: 열을 수행할 내용에 대한 자연어 설명을 입력합니다. 디자이너는 Genie를 사용하여 아래의 해당 코드 식을 생성합니다.
- 식: 코드를 직접 작성하거나 편집하려면 식 편집 단추를 클릭합니다. 식을 편집하면 자연어 설명이 자동으로 생성됩니다.
사용자 지정 열을 제거하려면 해당 행 위에 포인터를 놓고 을 클릭합니다.
Python
입력 데이터에서 사용자 지정 Python(PySpark)를 실행합니다. 코드는 업스트림 데이터 세트를 Spark DataFrames로 수신하고 이 연산자의 출력이 되는 단일 DataFrame result을 할당해야 합니다. 구성 창을 사용하여 입력을 연결하고 편집기에서 제공하는 옵션을 검토합니다.
inputs["data"] 는 업스트림 순서로 입력 데이터 프레임 의 목록 입니다. 연산자 세부 정보 창에는 각 입력의 이름이 순서대로 표시됩니다.
Available inputs: inputs["data"][0] (customers), inputs["Data"][1] (sales)을 예로 들 수 있습니다.
최소 패턴은 있는 경우 첫 번째 입력을 사용하거나 비어 있는 DataFrame을 사용하는 것입니다. 그렇지 않으면 다음과 같습니다.
# inputs["data"] is a list of input DataFrames
result = inputs["data"][0] if inputs["data"] else spark.createDataFrame([], "col: string")
여기에서 할당이 종료되기 전에 DataFrame 작업(예: select, filter, withColumn또는 조인)result을 연결하거나 빌드된 inputs["data"]새 DataFrame으로 바꿀 result 수 있습니다.
조직
메모
나중에 시각적 데이터 준비를 여는 모든 사용자를 위해 워크플로 자체를 문서화할 수 있도록 캔버스에 메모를 추가합니다. 그 목적, 가정, 주의 사항 또는 핸드오프 컨텍스트입니다. 참고 콘텐츠는 Markdown을 지원하므로 일반 텍스트로 충분하지 않은 제목, 목록, 링크 및 강조를 사용할 수 있습니다. 참고 사항은 연산자를 통해 데이터가 흐르는 방식에 영향을 미치지 않습니다.
Group
시각적 개체는 데이터 준비의 크기가 커지거나 논리적 단계를 반영하려는 경우에 유용합니다. 이러한 연산자 간에 데이터가 흐르는 방식을 변경하지 않고 캔버스에서 연산자를 시각적으로 그룹화합니다.
그룹을 빌드하려면 다음을 수행합니다.
- 연산자를 그룹으로 끌어다 놓습니다. 하나 이상의 연산자를 그룹으로 끌어 그룹에 추가합니다.
- 선택 영역에서 그룹 만들기: 하나 이상의 연산자를 선택하고 상황에 맞는 메뉴를 열고(마우스 오른쪽 단추로 클릭) 새 그룹 만들기 를 선택하여 새 그룹에서 선택 영역을 래핑합니다.
연산자가 그룹에 있으면 그룹에 설명이 포함된 이름을 지정하고 최소화 하거나 확장 하여 캔버스에 해당 내용을 표시하거나 숨길 수 있습니다.