이 섹션에는 많은 인기 있는 오픈 소스 라이브러리를 사용하여 Azure Databricks 기계 학습 모델을 학습시키는 방법을 보여 주는 예제가 포함되어 있습니다.
모델 학습을 위해 데이터 세트를 자동으로 준비하는 AutoML을 사용하고, scikit-learn 및 XGBoost와 같은 오픈 소스 라이브러리를 사용하여 평가판 집합을 수행하고, 각 평가판 실행에 대한 소스 코드가 포함된 Python Notebook을 만들어 코드를 검토, 재현 및 수정할 수 있습니다.
기계 학습 예제
| 패키지 | 노트북(들) | 기능 |
|---|---|---|
| scikit-learn | 기계 학습 자습서 | Unity 카탈로그, 분류 모델, MLflow, Hyperopt 및 MLflow를 사용한 자동화된 하이퍼 매개 변수 튜닝 |
| scikit-learn | 엔드투엔드 예제 | Unity 카탈로그, 분류 모델, MLflow, Hyperopt 및 MLflow를 사용한 자동화된 하이퍼 매개 변수 튜닝, XGBoost |
| MLlib | MLlib 예제 | 이진 분류, 의사 결정 트리, GBT 회귀, Structured Streaming, 사용자 지정 변환기 |
| xgboost | XGBoost 예제 | Python, PySpark 및 Scala, 단일 노드 워크로드 및 분산 학습 |
하이퍼 매개 변수 튜닝 예제
Azure Databricks 하이퍼 매개 변수 튜닝에 대한 일반적인 내용은 Hyperparameter 튜닝 참조하세요.
메모
Hyperopt의 오픈 소스 버전은 더 이상 유지 관리되지 않습니다.
Hyperopt는 16.4 LTS ML 이후 Machine Learning Databricks Runtime에 포함되지 않습니다. Azure Databricks는 단일 노드 최적화를 위해 Optuna를 사용하거나 사용되지 않는 Hyperopt의 분산 하이퍼 매개 변수 튜닝 기능과 유사한 경험을 위해 RayTune을 사용하는 것을 권장합니다. Azure Databricks RayTune 사용에 대해 자세히 알아봅니다.
| 패키지 | 노트 | 기능 |
|---|---|---|
| Optuna | Optuna를 시작하세요 | Optuna, 분산형 Optuna, scikit-learn, MLflow |
| Hyperopt | 분산 하이퍼옵트 | 분산된 Hyperopt, Scikit-learn, MLflow |
| Hyperopt | 모델 비교 | 분산 hyperopt를 사용하여 서로 다른 모델 형식에 대한 하이퍼 매개 변수 공간을 동시에 검색 |
| Hyperopt | 분산 학습 알고리즘 및 hyperopt | Hyperopt, MLlib |
| Hyperopt | Hyperopt 모범 사례 | 다양한 크기의 데이터 세트에 대한 모범 사례 |