또는 지정된 열 또는 create 변환을 사용하여 만든 createOrReplacereplace출력 테이블을 분할합니다. 지정된 경우 테이블 데이터는 효율적인 읽기를 위해 이러한 값에 의해 저장됩니다.
예를 들어 테이블이 일별로 분할되면 다음과 같이 디렉터리 레이아웃에 저장될 수 있습니다.
table/day=2019-06-01/table/day=2019-06-02/
분할은 물리적 데이터 레이아웃을 최적화하기 위해 가장 널리 사용되는 기술 중 하나입니다. 분할된 열에 대한 조건자가 쿼리에 있을 때 불필요한 데이터 읽기를 건너뛰기 위한 거친 인덱스를 제공합니다. 분할이 제대로 작동하려면 각 열의 고유 값 수가 일반적으로 수만 개 미만이어야 합니다.
col 다음 cols 변환 함수만 지원합니다.
pyspark.sql.functions.yearspyspark.sql.functions.monthspyspark.sql.functions.dayspyspark.sql.functions.hourspyspark.sql.functions.bucket
문법
partitionedBy(col, *cols)
매개 변수
| 매개 변수 | 유형 | 설명 |
|---|---|---|
col |
열 또는 str | 첫 번째 분할 열 또는 변환입니다. |
*cols |
열 또는 str, 선택 사항 | 추가 분할 열 또는 변환 |
Returns
DataFrameWriterV2