Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
Particiona a saída pelas colunas dadas no sistema de ficheiros. A saída está disposta de forma semelhante ao esquema de particionamento do Hive.
Sintaxe
partitionBy(*cols)
Parâmetros
| Parâmetro | Tipo | Descrição |
|---|---|---|
*cols |
str ou lista | Nomes das colunas a partir por elas. |
Devoluções
DataStreamWriter
Exemplos
df = spark.readStream.format("rate").load()
df.writeStream.partitionBy("value")
# <...streaming.readwriter.DataStreamWriter object ...>
Particione um fluxo fonte de taxa por carimbo temporal e escreva no Parquet:
import tempfile
import time
with tempfile.TemporaryDirectory(prefix="partitionBy1") as d:
with tempfile.TemporaryDirectory(prefix="partitionBy2") as cp:
df = spark.readStream.format("rate").option("rowsPerSecond", 10).load()
q = df.writeStream.partitionBy(
"timestamp").format("parquet").option("checkpointLocation", cp).start(d)
time.sleep(5)
q.stop()
spark.read.schema(df.schema).parquet(d).show()