Alternativ för dataformat

Azure Databricks har inbyggda nyckelordsbindningar för alla dataformat som stöds internt av Apache Spark. Azure Databricks använder Delta Lake som standardprotokoll för att läsa och skriva data och tabeller, medan Apache Spark använder Parquet.

De här artiklarna ger en översikt över många av de alternativ och konfigurationer som är tillgängliga när du frågar efter data i Azure Databricks.

Följande dataformat har inbyggda nyckelordskonfigurationer i Apache Spark DataFrames och SQL:

Azure Databricks innehåller också ett anpassat nyckelord för inläsning av MLflow-experiment.

Dataformat med särskilda överväganden

Vissa dataformat kräver ytterligare konfiguration eller särskilda överväganden för användning:

  • Databricks rekommenderar att du importerar bilder som binary data.
  • De flesta format stöder skrivkomprimering via alternativet compression . Se komprimeringsavsnittet i varje formats dokumentation för konfigurationsinformation. Azure Databricks kan också direkt läsa förkomprimerade filer i många format och du kan packa upp komprimerade filer på Azure Databricks om det behövs.
    • Textbaserade (CSV, JSON, XML, text): none (standard), bzip2, gzip, lz4, snappy, deflate och zstd
    • Parquet: snappy (standardvärde), gzip, lzo, brotli, lz4 och zstd
    • ORC: snappy, zliboch lzo
    • Avro: snappy (förval), deflate, bzip2, xz, och zstandard

Mer information om Apache Spark-datakällor finns i Generic Load/Save Functions (Allmänna Läs in/Spara-funktioner) och Generic File Source Options (Allmänna alternativ för filkälla).