drop (DataFrameNaFunctions)

Retourneert een nieuwe DataFrame weggelaten rijen met null- of NaN-waarden. DataFrame.dropna en DataFrameNaFunctions.drop zijn aliassen van elkaar.

Syntaxis

drop(how='any', thresh=None, subset=None)

Parameterwaarden

Kenmerk Typ Beschrijving
how str, optioneel Of u een rij wilt verwijderen als deze null-waarden bevat of alleen als alle waarden null zijn. Geaccepteerde waarden zijn 'any' (standaard) en 'all'. Als thresh dit is opgegeven, how wordt deze genegeerd.
thresh int, optioneel Als dit is opgegeven, zet u rijen neer met minder dan thresh niet-null-waarden. Overschrijft how.
subset str, tuple of list, optioneel Kolomnamen die u moet overwegen bij het controleren op null- of NaN-waarden.

Retouren

DataFrame

Examples

from pyspark.sql import Row
df = spark.createDataFrame([
    Row(age=10, height=80.0, name="Alice"),
    Row(age=5, height=float("nan"), name="Bob"),
    Row(age=None, height=None, name="Tom"),
    Row(age=None, height=float("nan"), name=None),
])

Zet de rij neer als deze een null- of NaN-waarde bevat.

df.na.drop().show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# | 10|  80.0|Alice|
# +---+------+-----+

Zet de rij alleen neer als alle waarden null of NaN zijn.

df.na.drop(how='all').show()
# +----+------+-----+
# | age|height| name|
# +----+------+-----+
# |  10|  80.0|Alice|
# |   5|   NaN|  Bob|
# |NULL|  NULL|  Tom|
# +----+------+-----+

Rijen verwijderen met minder dan thresh niet-null- en niet-NaN-waarden.

df.na.drop(thresh=2).show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# | 10|  80.0|Alice|
# |  5|   NaN|  Bob|
# +---+------+-----+

Rijen verwijderen met null- en NaN-waarden in de opgegeven kolommen.

df.na.drop(subset=['age', 'name']).show()
# +---+------+-----+
# |age|height| name|
# +---+------+-----+
# | 10|  80.0|Alice|
# |  5|   NaN|  Bob|
# +---+------+-----+