tekst (DataFrameReader)

Hiermee worden tekstbestanden geladen en wordt een DataFrame schema geretourneerd met een tekenreekskolom met de naam value, gevolgd door gepartitioneerde kolommen, indien aanwezig. Tekstbestanden moeten worden gecodeerd als UTF-8. Standaard is elke regel in het tekstbestand een nieuwe rij in het resulterende DataFrame.

Syntaxis

text(paths, wholetext=False, lineSep=None, **options)

Parameterwaarden

Kenmerk Typ Beschrijving
paths str of list Een of meer invoerpaden.
wholetext bool, optioneel Als True, lees elk bestand als één rij. De standaardinstelling is False.
lineSep str, optioneel Het regelscheidingsteken dat moet worden gebruikt. De standaardwaarde is '\n', '\r'of '\r\n'.

Retouren

DataFrame

Examples

Schrijf een DataFrame naar een tekstbestand en lees het terug.

import tempfile
with tempfile.TemporaryDirectory(prefix="text") as d:
    df = spark.createDataFrame([("a",), ("b",), ("c",)], schema=["alphabets"])
    df.write.mode("overwrite").format("text").save(d)

    spark.read.schema(df.schema).text(d).sort("alphabets").show()
    # +---------+
    # |alphabets|
    # +---------+
    # |        a|
    # |        b|
    # |        c|
    # +---------+