数据格式选项

Azure Databricks 为 Apache Spark 原生支持的所有数据格式提供内置关键字绑定。 Azure Databricks 使用 Delta Lake 作为读取和写入数据和表的默认协议，而 Apache Spark 使用 Parquet。

这些文章概述了在 Azure Databricks 上查询数据时可用的许多选项和配置。

以下数据格式在 Apache Spark 数据帧和 SQL 中有内置的关键字配置：

Azure Databricks 还提供用于加载 MLflow 试验的自定义关键字。

具有特殊注意事项的数据格式

使用某些数据格式需要额外的配置或特殊考虑：

Databricks 建议将映像加载为 binary 数据。
大多数格式都支持通过 compression 选项进行写入压缩。有关配置详细信息，请参阅每种格式文档中的压缩部分。 Azure Databricks还可以直接读取多种格式的预压缩文件，并在必要时解压缩Azure Databricks上的压缩文件。
- 基于文本 （CSV、JSON、XML、text）： none （默认值）、 bzip2、、 gzip、 lz4、 snappy、 deflate和 zstd
- Parquet： snappy （默认值）、gzip、、lzobrotli、lz4和zstd
- ORC： snappy、 zlib和 lzo
- Avro： snappy （默认）、 deflate、 bzip2、 xz和 zstandard

有关 Apache Spark 数据源的详细信息，请参阅通用加载/保存函数和泛型文件源选项。

此页面是否有帮助？