数据格式选项

Azure Databricks 为 Apache Spark 原生支持的所有数据格式提供内置关键字绑定。 Azure Databricks 使用 Delta Lake 作为读取和写入数据和表的默认协议,而 Apache Spark 使用 Parquet。

这些文章概述了在 Azure Databricks 上查询数据时可用的许多选项和配置。

以下数据格式在 Apache Spark 数据帧和 SQL 中有内置的关键字配置:

Azure Databricks 还提供用于加载 MLflow 试验的自定义关键字。

具有特殊注意事项的数据格式

使用某些数据格式需要额外的配置或特殊考虑:

  • Databricks 建议将映像加载为 binary 数据。
  • 大多数格式都支持通过 compression 选项进行写入压缩。 有关配置详细信息,请参阅每种格式文档中的压缩部分。 Azure Databricks还可以直接读取多种格式的预压缩文件,并在必要时解压缩Azure Databricks上的压缩文件
    • 基于文本 (CSV、JSON、XML、text): none (默认值)、 bzip2、、 gziplz4snappydeflatezstd
    • Parquetsnappy (默认值)、gzip、、lzobrotlilz4zstd
    • ORCsnappyzliblzo
    • Avrosnappy (默认)、 deflatebzip2xzzstandard

有关 Apache Spark 数据源的详细信息,请参阅通用加载/保存函数泛型文件源选项