用于机器学习的 Databricks Runtime 11.2(EoS)

注释

对此 Databricks Runtime 版本的支持已结束。 有关终止支持日期,请参阅 终止支持和生命周期结束历史记录。 有关所有受支持的 Databricks Runtime 版本,请参阅 Databricks Runtime 发行说明版本和兼容性

Databricks Runtime 11.2 for Machine Learning 基于 Databricks Runtime 11.2 (EoS),为机器学习和数据科学提供了一个开箱即用的环境。 Databricks Runtime ML 包含许多常用的机器学习库,包括 TensorFlow、PyTorch 和 XGBoost。 Databricks Runtime ML 包括 AutoML 工具,可用于自动训练机器学习管道。 Databricks Runtime ML 还支持使用 Horovod 进行分布式深度学习训练。

有关详细信息,包括有关如何创建 Databricks Runtime ML 群集的说明,请参阅 Databricks 上的 AI 和机器学习

新功能和改进

Databricks Runtime 11.2 ML 基于 Databricks Runtime 11.2 构建。 若要了解 Databricks Runtime 11.2 中的新增功能,包括 Apache Spark MLlib 和 SparkR,请参阅 Databricks Runtime 11.2 (EoS) 发行说明。

AutoML 的改进

AutoML 现在可以更好地支持用于分类问题的不平衡数据集。 有关详细信息,请参阅对分类问题的不平衡数据集支持

Databricks 功能存储增强功能

Databricks Feature Store进行了以下改进。

  • 对于在线商店,用户和密码字段已被弃用。 若要避免将来的不兼容,请将这些字段的所有用法更改为 write_secret_prefix
  • 现在,功能存储客户端的所有文档和输出引用客户端版本(例如 0.6.1),而不是 Databricks Runtime ML 版本(例如 11.2)。

系统环境

Databricks Runtime 11.2 ML 中的系统环境在以下方面不同于 Databricks Runtime 11.2:

图书馆

以下部分列出了 Databricks Runtime 11.2 ML 中包含的库,这些库不同于 Databricks Runtime 11.2 中包含的库。

本节内容:

顶层库

Databricks Runtime 11.2 ML 包含以下顶层

Python库

Databricks Runtime 11.2 ML 使用 Virtualenv 进行Python包管理,并包括许多常用的 ML 包。

除了在以下部分指定的包,Databricks Runtime 11.2 ML 还包含以下包:

  • hyperopt 0.2.7.db1
  • sparkdl 2.2.0_db6
  • feature_store 0.6.0
  • automl 1.12.3

Python 库在 CPU 集群上

若要在本地Python虚拟环境中重现 Databricks Runtime ML Python 环境,请下载 requirements-11.2.txt 文件并运行 pip install -r requirements-11.2.txt。 此命令安装 Databricks Runtime ML 使用的所有开源库,但不安装 Azure Databricks 开发的库,例如 databricks-automldatabricks-feature-store 或 Databricks 的 hyperopt 分支。

图书馆 版本 图书馆 版本 图书馆 版本
absl-py 1.0.0 Antergos Linux 2015.10 (ISO-Rolling) argon2-cffi 20.1.0
阿斯托尔 0.8.1 astunparse 1.6.3 异步生成器 1.10
属性 21.2.0 azure-core 1.22.1 azure-cosmos 4.2.0
backcall 0.2.0 backports.entry-points-selectable 1.1.1 bcrypt 3.2.2
黑色 22.3.0 漂白剂 4.0.0 布利斯 0.7.8
boto3 1.21.18 botocore 1.24.18 cachetools (缓存工具) 5.2.0
catalogue 2.0.8 certifi 2021.10.8 cffi 1.14.6
chardet 4.0.0 charset-normalizer (字符集正常化工具) 2.0.4 click 8.0.3
cloudpickle 2.0.0 cmdstanpy 0.9.68 configparser 5.2.0
convertdate 2.4.0 加密 3.4.8 骑行者 0.10.0
cymem 2.0.6 Cython 0.29.24 databricks-automl-runtime 0.2.10
databricks-cli 0.17.0 dbl-tempo 0.1.12 dbus-python 1.2.16
debugpy 1.4.1 修饰器 5.1.0 defusedxml 0.7.1
莳萝 0.3.4 磁盘缓存 5.4.0 distlib 0.3.5
distro-info 0.23ubuntu1 入口点 0.3 伊菲姆 4.1.3
各个方面概述 1.0.0 fasttext 0.9.2 文件锁 (filelock) 3.3.1
Flask 1.1.2 FlatBuffers 1.12 fsspec 2021年8月1日
未来 0.18.2 加斯特 0.4.0 gitdb (Git数据库) 4.0.9
GitPython 3.1.27 google-auth (谷歌身份验证) 2.6.0 google-auth-oauthlib 0.4.6
google-pasta 0.2.0 grpcio 1.44.0 gunicorn 20.1.0
gviz-api 1.10.0 h5py 3.3.0 hijri-converter 2.2.4
假期 0.14.2 霍罗沃德 0.25.0 htmlmin 0.1.12
huggingface-hub 0.8.1 idna 3.2 ImageHash 4.2.1
imbalanced-learn 0.8.1 importlib-metadata 4.8.1 ipykernel 6.12.1
ipython 7.32.0 ipython-genutils(IPython通用工具) 0.2.0 ipywidgets 7.7.0
isodate (ISO标准日期) 0.6.1 它很危险 2.0.1 jedi 0.18.0
Jinja2 2.11.3 jmespath 0.10.0 joblib 1.0.1
joblibspark 0.5.0 jsonschema 3.2.0 Jupyter客户端 6.1.12
jupyter-core 4.8.1 jupyterlab-pygments 0.1.2 jupyterlab-widgets 1.0.0
keras 2.9.0 Keras-Preprocessing 1.1.2 kiwisolver 1.3.1
韩国农历 0.2.1 语言代码 3.3.0 libclang 14.0.6
lightgbm 3.3.2 llvmlite 0.37.0 农历 0.0.9
Mako 1.2.0 Markdown 3.3.6 MarkupSafe 2.0.1
matplotlib 3.4.3 matplotlib-inline 0.1.2 缺失号 0.5.1
mistune(一个用于Markdown解析的Python库) 0.8.4 mleap 0.20.0 mlflow-skinny 1.28.0
多方法 1.8 murmurhash 1.0.8 mypy-extensions 0.4.3
nbclient 0.5.3 nbconvert 6.1.0 nbformat 5.1.3
nest-asyncio 1.5.1 NetworkX 2.6.3 nltk 3.6.5
笔记本 6.4.5 numba(用于Python的数值计算库) 0.54.1 numpy 1.20.3
oauthlib 3.2.0 opt-einsum 3.3.0 包装 21.0
熊猫 1.3.4 pandas-profiling 3.1.0 pandocfilters 1.4.3
paramiko 2.9.2 帕尔索 0.8.2 pathspec 0.9.0
pathy 0.6.2 替罪羊 0.5.2 petastorm 0.11.4
pexpect 4.8.0 phik 0.12.2 pickleshare 0.7.5
枕头 8.4.0 pip 21.2.4 platformdirs 2.5.2
plotly 5.9.0 pmdarima 1.8.5 preshed 3.0.7
prometheus-client 0.11.0 prompt-toolkit(提示工具包) 3.0.20 预言者 1.0.1
protobuf 3.19.4 psutil 5.8.0 psycopg2 2.9.3
ptyprocess 0.7.0 pyarrow 7.0.0 pyasn1 0.4.8
pyasn1-modules 0.2.8 pybind11 2.10.0 Python代码解析器 2.20
pydantic (Python 数据验证库) 1.9.2 Pygments 2.10.0 PyGObject 3.36.0
PyJWT 2.4.0 PyMeeus 0.5.11 PyNaCl 1.5.0
pyodbc 4.0.31 pyparsing Python解析库 3.0.4 pyrsistent(持久性,类似于 persistent 的 Python 包) 0.18.0
pystan 2.19.1.1 python-apt 2.0.0+ubuntu0.20.4.7 python-dateutil 2.8.2
Python代码编辑器 1.0.4 pytz 2021.3 PyWavelets 1.1.1
PyYAML 6.0 pyzmq 22.2.1 regex 2021.8.3
请求 2.26.0 requests-oauthlib 1.3.1 requests-unixsocket 0.2.0
RSA加密算法 4.9 s3transfer 0.5.2 scikit-learn(机器学习库) 0.24.2
scipy 1.7.1 seaborn 0.11.2 Send2Trash 1.8.0
setuptools 58.0.4 setuptools-git 1.2 沙普 0.41.0
simplejson 3.17.6 6 1.16.0 切片器 0.0.7
smart-open 5.2.1 smmap 5.0.0 spacy 3.4.0
spacy-legacy 3.0.9 spacy-loggers 1.0.3 spark-tensorflow-distributor 1.0.0
sqlparse 0.4.2 srsly 2.4.4 ssh-import-id 5.10
statsmodels 0.12.2 制表 0.8.9 tangled -up-in-unicode 0.1.0
毅力 8.0.1 tensorboard 2.9.1 TensorBoard数据服务器 0.6.1
tensorboard-plugin-profile 2.8.0 tensorboard-plugin-wit 1.8.1 tensorflow-中央处理器 2.9.1
tensorflow-estimator 2.9.0 tensorflow-io-gcs-filesystem 0.26.0 termcolor 1.1.0
terminado 0.9.4 测试路径 0.5.0 thinc 8.1.0
threadpoolctl 2.2.0 tokenize-rt 4.2.1 分词器 0.12.1
tomli 2.0.1 火炬 1.11.0+cpu torchvision 0.12.0+cpu
龙卷风 6.1 tqdm 4.62.3 traitlets 5.1.0
转换器 4.20.1 打字员 0.4.2 打字扩展 3.10.0.2
ujson 4.0.2 无需人工干预的升级 0.1 urllib3 1.26.7
virtualenv 20.8.0 愿景 0.7.4 山葵 0.10.1
wcwidth 0.2.5 Web编码 0.5.1 WebSocket客户端 1.3.1
Werkzeug 2.0.2 wheel 0.37.0 widgetsnbextension 3.6.0
封装 1.12.1 xgboost 1.5.2 齐普 3.6.0

Python GPU 集群上的库

图书馆 版本 图书馆 版本 图书馆 版本
absl-py 1.0.0 Antergos Linux 2015.10 (ISO-Rolling) argon2-cffi 20.1.0
阿斯托尔 0.8.1 astunparse 1.6.3 异步生成器 1.10
属性 21.2.0 azure-core 1.22.1 azure-cosmos 4.2.0
backcall 0.2.0 backports.entry-points-selectable 1.1.1 bcrypt 3.2.2
黑色 22.3.0 漂白剂 4.0.0 布利斯 0.7.8
boto3 1.21.18 botocore 1.24.18 cachetools (缓存工具) 5.2.0
catalogue 2.0.8 certifi 2021.10.8 cffi 1.14.6
chardet 4.0.0 charset-normalizer (字符集正常化工具) 2.0.4 click 8.0.3
cloudpickle 2.0.0 cmdstanpy 0.9.68 configparser 5.2.0
convertdate 2.4.0 加密 3.4.8 骑行者 0.10.0
cymem 2.0.6 Cython 0.29.24 databricks-automl-runtime 0.2.10
databricks-cli 0.17.0 dbl-tempo 0.1.12 dbus-python 1.2.16
debugpy 1.4.1 修饰器 5.1.0 defusedxml 0.7.1
莳萝 0.3.4 磁盘缓存 5.4.0 distlib 0.3.5
distro-info 0.23ubuntu1 入口点 0.3 伊菲姆 4.1.3
各个方面概述 1.0.0 fasttext 0.9.2 文件锁 (filelock) 3.3.1
Flask 1.1.2 FlatBuffers 1.12 fsspec 2021年8月1日
未来 0.18.2 加斯特 0.4.0 gitdb (Git数据库) 4.0.9
GitPython 3.1.27 google-auth (谷歌身份验证) 2.6.0 google-auth-oauthlib 0.4.6
google-pasta 0.2.0 grpcio 1.44.0 gunicorn 20.1.0
gviz-api 1.10.0 h5py 3.3.0 hijri-converter 2.2.4
假期 0.14.2 霍罗沃德 0.25.0 htmlmin 0.1.12
huggingface-hub 0.8.1 idna 3.2 ImageHash 4.2.1
imbalanced-learn 0.8.1 importlib-metadata 4.8.1 ipykernel 6.12.1
ipython 7.32.0 ipython-genutils(IPython通用工具) 0.2.0 ipywidgets 7.7.0
isodate (ISO标准日期) 0.6.1 它很危险 2.0.1 jedi 0.18.0
Jinja2 2.11.3 jmespath 0.10.0 joblib 1.0.1
joblibspark 0.5.0 jsonschema 3.2.0 Jupyter客户端 6.1.12
jupyter-core 4.8.1 jupyterlab-pygments 0.1.2 jupyterlab-widgets 1.0.0
keras 2.9.0 Keras-Preprocessing 1.1.2 kiwisolver 1.3.1
韩国农历 0.2.1 语言代码 3.3.0 libclang 14.0.6
lightgbm 3.3.2 llvmlite 0.37.0 农历 0.0.9
Mako 1.2.0 Markdown 3.3.6 MarkupSafe 2.0.1
matplotlib 3.4.3 matplotlib-inline 0.1.2 缺失号 0.5.1
mistune(一个用于Markdown解析的Python库) 0.8.4 mleap 0.20.0 mlflow-skinny 1.28.0
多方法 1.8 murmurhash 1.0.8 mypy-extensions 0.4.3
nbclient 0.5.3 nbconvert 6.1.0 nbformat 5.1.3
nest-asyncio 1.5.1 NetworkX 2.6.3 nltk 3.6.5
笔记本 6.4.5 numba(用于Python的数值计算库) 0.54.1 numpy 1.20.3
oauthlib 3.2.0 opt-einsum 3.3.0 包装 21.0
熊猫 1.3.4 pandas-profiling 3.1.0 pandocfilters 1.4.3
paramiko 2.9.2 帕尔索 0.8.2 pathspec 0.9.0
pathy 0.6.2 替罪羊 0.5.2 petastorm 0.11.4
pexpect 4.8.0 phik 0.12.2 pickleshare 0.7.5
枕头 8.4.0 pip 21.2.4 platformdirs 2.5.2
plotly 5.9.0 pmdarima 1.8.5 preshed 3.0.7
prompt-toolkit(提示工具包) 3.0.20 预言者 1.0.1 protobuf 3.19.4
psutil 5.8.0 psycopg2 2.9.3 ptyprocess 0.7.0
pyarrow 7.0.0 pyasn1 0.4.8 pyasn1-modules 0.2.8
pybind11 2.10.0 Python代码解析器 2.20 pydantic (Python 数据验证库) 1.9.2
Pygments 2.10.0 PyGObject 3.36.0 PyJWT 2.4.0
PyMeeus 0.5.11 PyNaCl 1.5.0 pyodbc 4.0.31
pyparsing Python解析库 3.0.4 pyrsistent(持久性,类似于 persistent 的 Python 包) 0.18.0 pystan 2.19.1.1
python-apt 2.0.0+ubuntu0.20.4.7 python-dateutil 2.8.2 Python代码编辑器 1.0.4
pytz 2021.3 PyWavelets 1.1.1 PyYAML 6.0
pyzmq 22.2.1 regex 2021.8.3 请求 2.26.0
requests-oauthlib 1.3.1 requests-unixsocket 0.2.0 RSA加密算法 4.9
s3transfer 0.5.2 scikit-learn(机器学习库) 0.24.2 scipy 1.7.1
seaborn 0.11.2 Send2Trash 1.8.0 setuptools 58.0.4
setuptools-git 1.2 沙普 0.41.0 simplejson 3.17.6
6 1.16.0 切片器 0.0.7 smart-open 5.2.1
smmap 5.0.0 spacy 3.4.0 spacy-legacy 3.0.9
spacy-loggers 1.0.3 spark-tensorflow-distributor 1.0.0 sqlparse 0.4.2
srsly 2.4.4 ssh-import-id 5.10 statsmodels 0.12.2
制表 0.8.9 tangled -up-in-unicode 0.1.0 毅力 8.0.1
tensorboard 2.9.1 TensorBoard数据服务器 0.6.1 tensorboard-plugin-profile 2.8.0
tensorboard-plugin-wit 1.8.1 tensorflow(TensorFlow 是一个开源机器学习框架) 2.9.1 tensorflow-estimator 2.9.0
tensorflow-io-gcs-filesystem 0.26.0 termcolor 1.1.0 terminado 0.9.4
测试路径 0.5.0 thinc 8.1.0 threadpoolctl 2.2.0
tokenize-rt 4.2.1 分词器 0.12.1 tomli 2.0.1
火炬 1.11.0+cu113 torchvision 0.12.0+cu113 龙卷风 6.1
tqdm 4.62.3 traitlets 5.1.0 转换器 4.20.1
打字员 0.4.2 打字扩展 3.10.0.2 ujson 4.0.2
无需人工干预的升级 0.1 urllib3 1.26.7 virtualenv 20.8.0
愿景 0.7.4 山葵 0.10.1 wcwidth 0.2.5
Web编码 0.5.1 WebSocket客户端 1.3.1 Werkzeug 2.0.2
wheel 0.37.0 widgetsnbextension 3.6.0 封装 1.12.1
xgboost 1.5.2 齐普 3.6.0

R 软件库

R 库与 Databricks Runtime 11.2 中的 R 库完全相同。

Java和 Scala 库(Scala 2.12 群集)

除了 Databricks Runtime 11.2 中的Java和 Scala 库,Databricks Runtime 11.2 ML 还包含以下 JAR:

CPU 群集

群组标识符 工件编号 版本
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 v0.20.0-db1
ml.dmlc xgboost4j-spark_2.12 1.5.2
ml.dmlc xgboost4j_2.12 1.5.2
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 1.28.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12(一个用于Spark与TensorFlow连接的软件包) 1.15.0

GPU 群集

群组标识符 工件编号 版本
com.typesafe.akka akka-actor_2.12 2.5.23
ml.combust.mleap mleap-databricks-runtime_2.12 v0.20.0-db1
ml.dmlc xgboost4j-gpu_2.12 1.5.2
ml.dmlc xgboost4j-spark-gpu_2.12 1.5.2
org.graphframes graphframes_2.12 0.8.2-db1-spark3.2
org.mlflow mlflow-client 1.28.0
org.scala-lang.modules scala-java8-compat_2.12 0.8.0
org.tensorflow spark-tensorflow-connector_2.12(一个用于Spark与TensorFlow连接的软件包) 1.15.0