Azure Databricks에서의 기계 학습

Azure Databricks 기계 학습 애플리케이션을 빌드, 배포 및 관리합니다. 통합 플랫폼은 데이터 준비에서 프로덕션 모니터링에 이르는 전체 ML 수명 주기를 통합합니다.

생성형 AI 및 AI 에이전트를 찾고 계신가요? Azure Databricks에서 AI 에이전트 구축을 참조하세요.

Get started

빠른 시작을 시도하거나, 데이터를 준비하거나, 낮은 코드 모델을 빌드합니다.

가이드 Description
시작: Databricks에서 첫 번째 기계 학습 모델 빌드 scikit-learn 엔드투엔드로 간단한 분류 모델을 빌드합니다.
AutoML 자동화된 기능 엔지니어링 및 하이퍼 매개 변수 튜닝을 사용하여 최소한의 코드로 고품질 모델을 자동으로 빌드합니다.
기계 학습 및 딥 러닝을 위한 데이터 로드 ML 및 딥 러닝 워크플로에 대한 데이터를 로드하고 준비합니다.
추천 모델 학습 2타워 또는 DLRM 아키텍처를 사용하여 추천 모델을 학습시킵니다.

클래식 기계 학습 모델 학습

자동화된 도구 및 공동 작업 개발 환경을 사용하여 기계 학습 모델을 만듭니다.

Feature Description
Databricks Runtime for ML scikit-learn, XGBoost, MLflow 및 기타 ML 라이브러리를 사용하여 미리 구성된 클러스터와 딥 러닝 프레임워크에 대한 지원.
MLflow 추적 실험을 추적하고, 모델 성능을 비교하고, 전체 모델 개발 수명 주기를 관리합니다.
기능 엔지니어링 자동화된 데이터 파이프라인 및 기능 검색을 사용하여 기능을 만들고, 관리하고, 제공합니다.
Databricks 노트북들 Python, R, Scala 및 SQL for ML 워크플로를 지원하는 공동 개발 환경입니다.

딥 러닝 모델 학습

관리형 컴퓨팅 및 기본 제공 프레임워크를 사용하여 딥 러닝 모델을 개발합니다.

Feature Description
분산 학습 Ray, TorchDistributor 및 DeepSpeed를 사용하는 분산 딥 러닝의 예입니다.
AI 런타임 사용자 지정 딥 러닝 학습 및 유추 워크로드에 대한 서버리스 GPU 컴퓨팅.
DL 모범 사례 프레임워크 선택, 데이터 로드, 분산 크기 조정 및 딥 러닝 모델 수명 주기 관리에 대한 지침입니다.
PyTorch PyTorch를 사용하는 단일 노드 및 분산 학습.

모델 배포 및 제공

확장 가능한 엔드포인트, 실시간 유추 및 엔터프라이즈급 모니터링을 사용하여 프로덕션 환경에 모델을 배포합니다.

Feature Description
모델 서빙 자동 크기 조정 및 GPU 지원을 사용하여 사용자 지정 모델 및 LLM을 확장 가능한 REST 엔드포인트로 배포합니다.
AI 게이트웨이 사용량 추적, 페이로드 로깅 및 보안 제어를 사용하여 Azure Databricks 제공되는 모델에 대한 액세스를 제어하고 모니터링합니다.
외부 모델 Databricks 외부에서 호스트되는 타사 모델을 통합된 거버넌스 및 모니터링과 통합합니다.
파운데이션 모델 API Databricks에서 호스트하는 최신 오픈 모델에 액세스하고 쿼리합니다.

ML 시스템 모니터링 및 관리

포괄적인 모니터링 및 거버넌스 도구를 사용하여 모델 품질, 데이터 무결성 및 규정 준수를 보장합니다.

Feature Description
Unity 카탈로그 통합 액세스 제어, 계보 추적 및 검색을 사용하여 데이터, 기능, 모델 및 함수를 제어합니다.
데이터 프로파일링 자동화된 경고 및 근본 원인 분석을 사용하여 데이터 품질, 모델 성능 및 예측 드리프트를 모니터링합니다.
이상 탐지 카탈로그 수준에서 데이터 새로 고침 및 완전성을 모니터링합니다.
모델용 MLflow 개발 수명 주기 동안 실험을 추적하고, Unity 카탈로그에서 모델을 관리하고, 기계 학습 모델을 배포하고 평가합니다.

ML 워크플로 프로덕션화

자동화된 워크플로, CI/CD 통합 및 프로덕션 준비 파이프라인을 사용하여 기계 학습 작업의 크기를 조정합니다.

Feature Description
Unity 카탈로그의 모델 중앙 집중식 거버넌스를 위해 Unity 카탈로그의 모델 레지스트리를 사용하고 배포를 포함하여 모델 수명 주기를 관리합니다.
Lakeflow 직무 ML 데이터 처리를 위한 자동화된 워크플로 및 프로덕션 준비 ETL 파이프라인을 빌드합니다.
Databricks의 Ray 대규모 모델 학습 및 유추를 위해 분산 컴퓨팅을 사용하여 ML 워크로드 크기를 조정합니다.
MLOps 워크플로우 자동화된 학습, 테스트 및 배포 파이프라인을 사용하여 엔드 투 엔드 MLOps를 구현합니다.