partitionedBy

또는 지정된 열 또는 create 변환을 사용하여 만든 createOrReplacereplace출력 테이블을 분할합니다. 지정된 경우 테이블 데이터는 효율적인 읽기를 위해 이러한 값에 의해 저장됩니다.

예를 들어 테이블이 일별로 분할되면 다음과 같이 디렉터리 레이아웃에 저장될 수 있습니다.

table/day=2019-06-01/
table/day=2019-06-02/

분할은 물리적 데이터 레이아웃을 최적화하기 위해 가장 널리 사용되는 기술 중 하나입니다. 분할된 열에 대한 조건자가 쿼리에 있을 때 불필요한 데이터 읽기를 건너뛰기 위한 거친 인덱스를 제공합니다. 분할이 제대로 작동하려면 각 열의 고유 값 수가 일반적으로 수만 개 미만이어야 합니다.

col 다음 cols 변환 함수만 지원합니다.

pyspark.sql.functions.years
pyspark.sql.functions.months
pyspark.sql.functions.days
pyspark.sql.functions.hours
pyspark.sql.functions.bucket

문법

partitionedBy(col, *cols)

매개 변수

매개 변수	유형	설명
`col`	열 또는 str	첫 번째 분할 열 또는 변환입니다.
`*cols`	열 또는 str, 선택 사항	추가 분할 열 또는 변환

Returns

DataFrameWriterV2

피드백

이 페이지가 도움이 되었나요?

Last updated on 2026-06-04

partitionedBy

문법

매개 변수

Returns

피드백

추가 리소스