A
ACL(액세스 제어 목록)
작업 영역, 클러스터, 작업, 테이블 또는 실험에 연결된 사용 권한 목록입니다. ACL은 개체에 대한 액세스 권한이 부여된 사용자 또는 시스템 프로세스와 자산에 허용되는 작업을 지정합니다. 일반적인 ACL의 각 항목은 제목과 작업을 지정합니다. 액세스 제어 목록을 참조하세요.
액세스 모드
컴퓨팅 리소스를 사용할 수 있는 사용자와 컴퓨팅 리소스를 사용하는 동안 액세스할 수 있는 데이터를 결정하는 보안 기능입니다. Azure Databricks 모든 컴퓨팅 리소스에는 액세스 모드가 있습니다. 액세스 모드를 참조하세요.
ACID 트랜잭션
안정적으로 처리되는 데이터베이스 트랜잭션입니다. ACID는 원자성, 일관성, 격리, 내구성을 의미합니다. 안정성에 대한 모범 사례를 참조하세요.
에이전트 브릭스
Azure Databricks의 기능은 고품질 AI 솔루션을 빌드할 수 있도록 지원합니다.
AI(인공 지능)
지능형 인간의 동작을 모방하는 컴퓨터의 기능입니다. Databricks에서 AI 및 기계 학습을 참조하세요.
AI 에이전트
고유한 계획을 만들고 도구에 따라 작업을 실행할 수 있는 복잡한 추론 기능이 있는 애플리케이션입니다. 에이전트 시스템 디자인 패턴을 참조하세요.
AI 함수
Azure Databricks SQL에서 직접 데이터에 AI를 적용할 수 있는 기본 제공 SQL 함수입니다. AI Functions를 사용하여 데이터 보강을 참조하세요.
AI 게이트웨이
LLM 엔드포인트, 코딩 에이전트 및 엔드포인트를 제공하는 모델을 관리 및 모니터링하기 위한 Azure Databricks 솔루션입니다. AI 게이트웨이를 사용하여 사용량을 분석하고, 권한을 구성하고, 공급자 전체에서 용량을 관리합니다. Unity AI 게이트웨이를 참조하세요.
AI 플레이그라운드
사용자가 Azure Databricks 작업 영역에서 제공되는 생성 AI 모델과 상호 작용, 테스트 및 비교할 수 있는 Azure Databricks 기능입니다. AI Playground를 사용하여 LLM 및 프로토타입 생성 AI 앱과의 채팅을 참조하세요.
변칙 탐지
데이터 세트의 예상 동작을 따르지 않는 비정상적인 패턴을 식별하는 데 사용되는 기술 및 도구입니다. Azure Databricks 기계 학습 및 데이터 처리 기능을 통해 변칙 검색을 용이하게 합니다.
Apache Iceberg
스키마 진화, 시간 이동 및 숨겨진 분할을 지원하는 분석 워크로드에 대한 오픈 소스 테이블 형식입니다. Azure Databricks Unity 카탈로그 및 외국 카탈로그에서 관리하는 Iceberg 테이블을 지원합니다. Azure Databricks에서 Apache Iceberg란 무엇입니까?를 참조하세요.
Apache Spark
빅 데이터 워크로드에 사용되는 오픈 소스 분산 컴퓨팅 시스템입니다. Apache Spark 개요를 참조하세요.
ANN(인공 신경망)
인간 뇌의 뉴런 작동을 모방한 컴퓨팅 시스템.
asset
Azure Databricks 작업 영역의 엔터티(예: 개체 또는 파일)입니다.
감사 로그
보안, 규정 준수 및 운영 모니터링에 중요한 Azure Databricks 환경 내의 사용자 활동 및 작업에 대한 기록입니다. 진단 로그 참조를 참조하세요.
자동 로더
추가 설정 없이 클라우드 스토리지에 도착할 때 새 데이터 파일을 증분하고 효율적으로 처리하는 데이터 수집 기능입니다. 자동 로더란?을 참조하세요.
AutoML
최상의 알고리즘 및 하이퍼 매개 변수 구성을 자동으로 찾아 데이터 세트에 기계 학습을 적용하는 프로세스를 간소화하는 Azure Databricks 기능입니다. AutoML이란?을 참조하세요.
자동화된 데이터 계보
디버깅, 규정 준수 및 데이터 종속성 이해에 필수적인 다양한 변환을 통해 원본에서 최종 형식으로의 데이터 흐름을 자동으로 추적하고 시각화하는 프로세스입니다. Azure Databricks 데이터 계보 도구와의 통합을 통해 이를 용이하게 합니다.
자동 크기 조정, 가로
예약 대기 중인 작업 수에 따라 실행기를 추가하거나 제거합니다. 단일 업데이트 중에 동적으로 발생합니다.
자동 크기 조정, 세로
메모리 압력(또는 그 부족)에 따라 컴퓨터(드라이버 또는 실행기)의 크기를 늘리거나 줄입니다. 이 문제는 새 업데이트가 시작될 때만 발생합니다.
Azure Databricks
Microsoft Azure 클라우드 플랫폼에 최적화된 Databricks 버전입니다.
B
일괄 처리
고정된 양의 정적, 변경되지 않는 데이터를 단일 작업으로 처리하는 명시적 지침을 정의할 수 있는 데이터 처리 메서드입니다. Azure Databricks Spark SQL 또는 DataFrames를 사용합니다. Lakeflow Connect의 표준 커넥터를 참조하세요.
편향 탐지 및 완화
공정성과 정확성을 보장하기 위해 데이터 및 기계 학습 모델의 편견을 식별하고 해결하는 프로세스입니다. Databricks는 편견을 감지하고 완화하는 데 도움이 되는 도구와 통합을 제공합니다. 분류 모델에 대한 공정성 및 바이어스 모니터링을 참조하세요.
BI(비즈니스 인텔리전스)
기업에서 비즈니스 정보의 데이터 분석 및 관리에 사용하는 전략 및 기술입니다.
C
catalog(Unity 카탈로그)
Unity 카탈로그의 3개 수준 네임스페이스(catalog.schema.table 등)의 첫 번째 수준입니다. 카탈로그는 스키마용 컨테이너로, 테이블, 뷰, 볼륨, 모델 및 함수를 포함합니다. Azure Databricks 카탈로그는 무엇입니까? 참조하세요.
카탈로그 탐색기
데이터, 스키마(데이터베이스), 테이블, 모델, 함수 및 기타 AI 자산을 탐색하고 관리하는 UI를 제공하는 Azure Databricks 기능입니다. 이를 사용하여 데이터 개체 및 소유자를 찾고, 테이블 간의 데이터 관계를 이해하고, 사용 권한 및 공유를 관리할 수 있습니다. 카탈로그 탐색기란?을 참조하세요.
자식 인스턴스
자식 인스턴스는 원래 데이터베이스 인스턴스의 쓰기 복사 복제본입니다. 현재 시점 또는 보존 기간 내의 기록 지정 시간에서 만들 수 있습니다. 데이터 및 시간 이동 복원을 참조하세요.
CICD 또는 CI/CD
CI(연속 통합) 및 CD(지속적인 업데이트)의 결합된 사례입니다. Azure Databricks에서 CI/CD를 참조하세요.
데이터 정리
데이터 정리 프로세스를 거친 데이터는 레코드 집합, 테이블 또는 데이터베이스에서 손상되거나 부정확한 레코드를 검색 및 수정(또는 제거하는 프로세스)이며 데이터의 불완전하거나 부정확하거나 부정확하거나 관련이 없는 부분을 식별한 다음 더티 또는 거친 데이터를 대체, 수정 또는 삭제하는 것을 의미합니다.
클린룸
델타 공유 및 서버리스 컴퓨팅을 사용하여 여러 당사자가 중요한 엔터프라이즈 데이터를 공유하고 서로의 데이터에 직접 액세스하지 않고 공동 작업할 수 있는 안전하고 개인 정보 보호 환경을 제공하는 Azure Databricks 기능입니다. 클린 룸을 사용하면 다른 Databricks 계정의 사용자가 공동 작업하여 중요한 기본 데이터에 대한 액세스를 공유하지 않고 광고 캠페인, 투자 결정 또는 연구 개발과 같은 공유 프로젝트에 대한 인사이트를 생성할 수 있습니다. 참조하세요 Azure Databricks 클린 룸이란 무엇입니까?.
클라우드 플랫폼 공급자
클라우드 컴퓨팅 플랫폼을 제공하는 회사입니다. 예를 들어 Microsoft Azure, AWS(Amazon Web Services) 및 GCP(Google Cloud Platform)입니다.
cluster
Notebook, 작업 및 Lakeflow Spark 선언적 파이프라인에 사용되는 서버리스가 아닌 컴퓨팅 리소스입니다. compute 용어는 Azure Databricks UI 전체에서 클러스터 대체되었지만 클러스터 API 및 메타데이터에서 여전히 사용됩니다.
compute
하드웨어 또는 소프트웨어와 같은 인프라 요소인 컴퓨팅 리소스를 참조하여 데이터 수신, 분석 및 저장을 통해 문제 해결 및 솔루션을 만들 수 있습니다. Compute.
연속 파이프라인
새 데이터가 중지하지 않고 입력에 도착할 때 모든 테이블을 지속적으로 업데이트하는 파이프라인입니다. 트리거된 파이프라인 모드와 연속 파이프라인 모드를 참조하세요.
D
DAG(유향 비순환 그래프)
워크플로 또는 파이프라인의 작업 간 종속성을 나타내는 메서드입니다. DAG 처리 모델에서 태스크는 지시된 순환 그래프에서 노드로 표시됩니다. 여기서 에지는 태스크 간의 종속성을 나타냅니다.
데이터 카탈로그
데이터 원본을 관리하여 데이터의 구조, 위치 및 사용량에 대한 정보를 제공하는 메타데이터 관리 도구입니다. Azure Databricks 향상된 메타데이터 관리를 위해 외부 데이터 카탈로그와 통합됩니다.
데이터 거버넌스
데이터 품질 및 규정 준수를 보장하기 위한 정책, 절차 및 기술과 관련된 데이터의 가용성, 무결성, 보안 및 유용성을 관리하는 방법입니다.
데이터 수집
스토리지, 분석 및 처리를 위해 다양한 원본에서 Azure Databricks 데이터를 가져오고, 전송하고, 로드하고, 처리하는 프로세스입니다.
data lake
필요할 때까지 방대한 양의 원시 데이터를 네이티브 형식으로 보유하는 대규모 스토리지 리포지토리입니다.
Data Lakehouse
데이터 레이크와 데이터 웨어하우스의 이점을 결합한 데이터 관리 시스템입니다. 데이터 레이크하우스는 ML(기계 학습) 및 BI(비즈니스 인텔리전스)와 같은 다양한 워크로드를 처리하기 위해 격리된 시스템을 방지하려는 최신 조직에 확장 가능한 스토리지 및 처리 기능을 제공합니다. 데이터 레이크하우스는 단일 진실 소스를 설정하고 중복 비용을 제거하며 데이터 새로 고침을 보장하는 데 도움이 될 수 있습니다. 데이터 레이크하우스란?을 참조하세요.
데이터 프로파일링
계정의 모든 테이블에서 데이터의 통계 속성 및 품질을 모니터링합니다. 모델 입력 및 예측을 포함하는 유추 테이블을 모니터링하여 기계 학습 모델 및 모델 제공 엔드포인트의 성능을 추적하는 데 사용할 수도 있습니다. 데이터 프로파일링을 참조하세요.
데이터 파이프라인
데이터가 생성, 수집, 처리 및 대상으로 이동하는 일련의 단계입니다. Databricks를 사용하면 일괄 처리 및 실시간 데이터 처리를 위해 복잡한 데이터 파이프라인을 만들고 관리할 수 있습니다.
데이터 개인정보 보호
무단 액세스, 사용, 공개 또는 도난으로부터 개인 데이터를 보호하는 관행입니다. Azure Databricks 엔드 투 엔드 암호화, 역할 기반 액세스 제어 및 주요 데이터 보호 규정 준수를 비롯한 강력한 데이터 개인 정보 보호 및 보안 기능을 강조하여 중요한 정보를 보호하고 데이터 거버넌스를 보장합니다.
데이터 시각화
애플리케이션이 데이터 형식 지정 방법 또는 물리적 위치와 같은 데이터에 대한 기술적 세부 정보를 요구하지 않고도 데이터를 검색하고 조작할 수 있도록 하는 데이터 관리 접근 방식입니다. Azure Databricks 서로 다른 원본에서 데이터에 대한 원활한 액세스 및 분석을 제공하여 데이터 가상화 계층의 일부로 사용될 수 있습니다.
데이터 웨어하우징
비즈니스 인사이트 및 보고를 위해 신속하게 액세스할 수 있도록 여러 원본에서 데이터를 수집하고 저장하는 것을 말합니다. 레이크하우스 아키텍처 및 Databricks SQL은 클라우드 데이터 웨어하우징 기능을 데이터 레이크에 제공합니다. 데이터 웨어하우징 아키텍처를 참조하세요.
데이터베이스 카탈로그
Unity 카탈로그의 엔터티로 하나의 인스턴스에 있는 Postgres 데이터베이스를 나타냅니다. 개념적으로, 이는 Unity 카탈로그의 외래 카탈로그와 유사합니다. Unity 카탈로그에서 데이터베이스 등록을 참조하세요.
데이터베이스 인스턴스
데이터베이스 인스턴스는 스토리지 및 컴퓨팅 리소스를 관리하고 사용자가 연결하는 엔드포인트를 제공합니다. 데이터베이스 인스턴스란?을 참조하세요.
Databricks
엔터프라이즈급 데이터, 분석 및 AI 솔루션을 대규모로 빌드, 배포, 공유 및 유지 관리하기 위한 통합된 개방형 분석 플랫폼입니다. Databricks Data Intelligence 플랫폼은 클라우드 계정의 클라우드 스토리지 및 보안과 통합되고 사용자를 대신하여 클라우드 인프라를 관리하고 배포합니다. Azure Databricks란 무엇인지 참조하세요.
Databricks AI/BI
데이터의 의미 체계를 이해하고 셀프 서비스 데이터 분석을 가능하게 하는 비즈니스 인텔리전스 제품입니다. AI/BI는 ETL 파이프라인, 계보 및 기타 쿼리를 포함하여 Databricks 플랫폼에서 데이터의 전체 수명 주기에서 인사이트를 끌어들이는 복합 AI 시스템을 기반으로 합니다. Databricks AI/BI를 참조하세요.
Databricks Platform을 구동하는 데이터 인텔리전스 엔진입니다. AI 모델, 검색, 순위 및 개인 설정 시스템을 결합하여 조직의 데이터 및 사용 패턴의 의미 체계를 이해하는 복합 AI 시스템입니다. Databricks AI 보조 기능을 참조하세요.
Databricks 앱
개발자가 Python 또는 Node.js 프레임워크를 사용하여 Azure Databricks 플랫폼에서 직접 보안 데이터 및 AI 애플리케이션을 빌드하고 배포할 수 있는 Azure Databricks 기능입니다. 앱은 서버리스 컴퓨팅에서 실행되며 Unity 카탈로그, Databricks SQL 및 OAuth와 통합됩니다. Databricks 앱을 참조하세요.
선언적 자동화 번들
데이터 및 AI 프로젝트에 대한 소스 제어, 코드 검토, 테스트 및 CI/CD(지속적인 통합 및 전달)를 비롯한 소프트웨어 엔지니어링 모범 사례를 쉽게 채택할 수 있는 도구입니다. 번들을 사용하면 작업, 파이프라인 및 Notebook과 같은 Azure Databricks 리소스를 원본 파일로 설명할 수 있습니다. 선언적 자동화 번들이란 무엇인가?를 참조하세요.
Databricks CLI
사용자가 Databricks 작업 영역을 관리 및 자동화하고 작업, Notebook 및 라이브러리를 배포할 수 있는 Azure Databricks 대한 명령줄 인터페이스입니다. Databricks CLI를 참조하세요.
Databricks Connect
개발자가 즐겨 찾는 IDE, notebooks 및 기타 도구를 Azure Databricks 컴퓨팅 리소스에 연결하고 Spark 코드를 원격으로 실행할 수 있는 클라이언트 라이브러리입니다. Databricks Connect를 참조하세요.
Databricks Container Services
컴퓨팅을 만들 때 Docker 이미지를 지정할 수 있는 Azure Databricks 기능입니다. Databricks Container Service를 사용하여 컨테이너 사용자 지정을 참조하세요.
Databricks Marketplace
데이터 제품을 교환하기 위한 공개 포럼입니다. 공급자는 Azure Databricks 계정이 있어야 하지만 받는 사람은 누구나 될 수 있습니다. Marketplace 자산에는 데이터 세트, Azure Databricks Notebook, Azure Databricks 솔루션 가속기 및 AI(기계 학습) 모델이 포함됩니다. 데이터 세트는 일반적으로 테이블 형식 데이터의 카탈로그로 사용할 수 있지만 테이블 형식이 아닌 데이터도 Azure Databricks 볼륨 형식으로 지원됩니다. Databricks Marketplace란?을 참조하세요.
Databricks 런타임
빅 데이터 분석에 최적화된 런타임입니다. 또한 Databricks는 machine learning 워크로드에 최적화된 Machine Learning Databricks Runtime을 제공합니다. Databricks Runtime 릴리스 정보 버전 및 호환성을 참조하세요.
Databricks SQL(DBSQL)
기존 데이터 레이크에 데이터 웨어하우징 기능 및 성능을 제공하는 서비스 컬렉션입니다. Databricks SQL은 개방형 형식 및 표준 ANSI SQL을 지원합니다. 플랫폼 내 SQL 편집기 및 대시보드 도구를 사용하면 팀 구성원이 작업 영역에서 직접 다른 Azure Databricks 사용자와 공동 작업할 수 있습니다. Azure Databricks에서 데이터 웨어하우징을 참조하세요.
DBUs
DBU(Databricks Unit)는 측정 및 가격 책정 목적으로 사용되는 Databricks Lakehouse 플랫폼의 정규화된 처리 능력 단위입니다. 워크로드에서 사용하는 DPU 수는 사용된 컴퓨팅 리소스와 처리된 데이터의 양을 포함할 수 있는 메트릭 처리에 의해 좌우됩니다. Azure Databricks 구성 요소 참조하세요.
DBFS(Databricks 파일 시스템)
Azure Databricks 작업 영역에 탑재되고 Azure Databricks 컴퓨팅에서 사용할 수 있는 분산 파일 시스템입니다. Azure Databricks 테이블 형식이 아닌 데이터에 대한 액세스를 제어하기 위해 DBFS 대신 Unity 카탈로그 볼륨을 사용하는 것이 좋습니다. DBFS란?을 참조하세요.
DataFrame
스프레드시트와 마찬가지로 데이터를 행과 열의 2차원 테이블로 구성하는 데이터 구조입니다. 데이터 프레임은 유연하고 직관적인 데이터 저장 및 작업 방식이므로 최신 데이터 분석에 사용되는 가장 일반적인 데이터 구조 중 하나입니다. 자습서: Apache Spark DataFrames를 사용하여 데이터 로드 및 변환을 참조하세요.
dataset
분석 또는 처리를 위해 함께 구성되고 저장되는 구조적 데이터 컬렉션입니다. 데이터 세트의 데이터는 일반적으로 어떤 방식으로든 관련되어 있으며 단일 원본에서 가져온 것이거나 단일 프로젝트용입니다.
Delta Lake
데이터 레이크에 안정성을 제공하는 오픈 소스 스토리지 계층입니다. Delta Lake는 ACID 트랜잭션, 스케일링 가능한 메타데이터 처리를 제공하고 스트리밍 및 일괄 처리 데이터 처리를 통합합니다. Azure Databricks Delta Lake란? 참조하세요.
Pipelines
안정적이고 유지 관리 가능하며 테스트 가능한 데이터 처리 파이프라인을 빌드하기 위한 선언적 프레임워크입니다. 데이터에 대해 수행할 변환을 정의하고 Lakeflow Spark 선언적 파이프라인은 작업 오케스트레이션, 클러스터 관리, 모니터링, 데이터 품질 및 오류 처리를 관리합니다. Lakeflow Spark 선언적 파이프라인을 참조하세요.
파이프라인 데이터 세트
스트리밍 테이블, 구체화된 뷰, 그리고 뷰는 모두 선언적 쿼리의 결과로 유지됩니다.
델타 공유
Azure Databricks 데이터 및 AI 자산을 해당 사용자가 Azure Databricks 사용 여부에 관계없이 조직 외부의 사용자와 공유할 수 있습니다. 테이블 형식 데이터를 공유하기 위한 오픈 소스 프로젝트로도 사용할 수 있으며, Azure Databricks 사용하면 테이블 형식이 아닌 구조화되지 않은 데이터(볼륨), AI 모델, 뷰, 필터링된 데이터 및 Notebook을 공유하는 기능이 추가됩니다. 델타 공유란?을 참조하세요.
델타 테이블
Azure Databricks 기본 데이터 테이블 형식이며 Delta Lake 오픈 소스 데이터 프레임워크의 기능입니다. 델타 테이블은 일반적으로 스트리밍 또는 대규모 일괄 처리를 통해 데이터를 수집하는 데이터 레이크에 사용됩니다. Azure Databricks 테이블 참조하세요.
E
포함 (명사)
숫자의 벡터로 표현된 텍스트 또는 이미지와 같은 데이터의 의미 체계 콘텐츠에 대한 수학적 표현입니다. Azure Databricks에서 벡터 검색, 검색 기반 생성 및 기타 AI 애플리케이션에 임베딩이 사용됩니다. UI에 대시보드를 포함하는 것과 같이 "포함"이라는 용어와 다릅니다. 모자이크 AI 벡터 검색을 참조하세요.
ETL(추출, 변환, 로드)
원본에서 데이터를 추출하고 대상 시스템에 로드한 다음 대상 시스템 내에서 변환하는 데이터 통합에 대한 최신 접근 방식입니다. 자습서: Lakeflow Spark 선언적 파이프라인을 사용하여 ETL 파이프라인 빌드를 참조하세요.
외부 테이블
데이터가 외부 클라우드 스토리지 위치에 있는 Unity 카탈로그에 등록된 테이블입니다. Unity 카탈로그는 메타데이터 및 액세스 제어를 관리하지만 데이터 수명 주기는 Azure Databricks 외부에서 관리됩니다. 외부 테이블 작업을 참조하세요.
F
기능 저장소
기계 학습 모델의 기능을 저장, 관리 및 제공하기 위한 중앙 리포지토리입니다. Databricks 기능 저장소를 참조하세요.
미세 조정
미리 학습된 기계 학습 모델을 사용하고 더 작은 도메인별 데이터 세트에서 학습하여 특정 애플리케이션에 대한 성능을 최적화하는 프로세스입니다. AI 및 ML 모델 학습을 참조하세요.
flow
흐름은 데이터를 읽고, 변환하고, 대상에 쓰는 Lakeflow Spark 선언적 파이프라인의 프로세스입니다.
외부 테이블
AWS Glue 또는 Snowflake와 같은 Unity 카탈로그 외부의 카탈로그에서 데이터를 관리하는 Unity 카탈로그의 읽기 전용 테이블입니다. Azure Databricks Lakehouse Federation을 사용하여 메타데이터를 검색하고 개체 스토리지에서 테이블을 읽습니다. 외부 테이블 작업을 참조하세요.
기초 모델
대규모 ML 모델은 보다 구체적인 언어 이해 및 생성 작업을 위해 미세 조정되도록 미리 학습되었습니다. Databricks Foundation 모델 API를 참조하세요.
G
지니 코드
Azure Databricks 데이터 작업을 위해 특별히 설계된 자율 AI 파트너입니다. Genie Code는 Unity 카탈로그와 긴밀하게 통합되어 테이블, 열 및 계보에 대한 컨텍스트 인식을 제공하여 복잡한 다단계 데이터 작업을 가속화합니다. 지니 코드를 참조하세요.
지니 공간
비즈니스 팀이 자연어를 사용하여 데이터와 상호 작용할 수 있는 Azure Databricks AI/BI 기능입니다. 도메인 전문가는 Genie가 비즈니스 질문을 SQL 쿼리로 변환할 수 있도록 데이터 세트, 샘플 쿼리 및 지침을 사용하여 Genie Spaces를 구성합니다. 지니 공간이란?을 참조하세요.
Genie UI
비즈니스 사용자를 위해 설계된 간소화된 Azure Databricks 인터페이스로, 기술 작업 영역 개념을 탐색하지 않고도 AI/BI 대시보드, 지니 공간 및 Databricks 앱과 상호 작용할 수 있는 단일 진입점을 제공합니다. Genie UI를 참조하세요.
생성 AI
컴퓨터가 모델을 사용하여 이미지, 텍스트, 코드 및 합성 데이터와 같은 콘텐츠를 만드는 기능에 초점을 맞춘 인공 지능 유형입니다. 생성형 AI 애플리케이션은 LLM(대규모 언어 모델) 및 파운데이션 모델과 같은 생성 AI 모델을 기반으로 합니다. Databricks에서 AI 및 기계 학습을 참조하세요.
Git 폴더
노트북 및 파일에 대한 버전 제어, 공동 작업 및 CI/CD 기능을 제공하는 Azure Databricks 작업 영역에 통합된 시각적 Git 클라이언트입니다. 이전에는 Repos로 알려졌습니다. Azure Databricks Git 폴더 참조하세요.
I
유추
학습된 기계 학습 모델을 사용하여 새 입력 데이터에서 예측 또는 출력을 생성하는 프로세스입니다. Azure Databricks Mosaic AI 모델 서비스를 통해 실시간 및 일괄 처리 유추를 지원합니다. Mosaic AI 모델 서비스를 사용하여 모델 배포를 참조하세요.
init 스크립트
Azure Databricks 컴퓨팅 리소스를 시작하는 동안 실행되는 셸 스크립트입니다. Init 스크립트는 패키지를 설치하거나, 구성을 수정하거나, 환경 변수를 설정할 수 있습니다. init 스크립트란?을 참조하세요.
J
job
Azure Databricks 프로덕션 워크로드를 예약하고 오케스트레이션하기 위한 기본 단위입니다. 작업은 하나 이상의 태스크로 구성됩니다. Lakeflow 작업을 참조하세요.
L
Lakeflow Connect
엔터프라이즈 애플리케이션 및 데이터베이스에서 수집하기 위한 기본 제공 커넥터를 제공합니다. 결과 수집 파이프라인은 Unity 카탈로그에 의해 제어되며 서버리스 컴퓨팅 및 Lakeflow Spark 선언적 파이프라인에 의해 구동됩니다. Lakeflow Connect에서 관리되는 커넥터를 참조하세요.
레이크하우스 페더레이션
Azure Databricks 대한 쿼리 페더레이션 플랫폼입니다. 쿼리 페더레이션이라는 용어는 모든 데이터를 통합 시스템으로 마이그레이션할 필요 없이 사용자와 시스템이 여러 데이터 원본에 대해 쿼리를 실행할 수 있도록 하는 기능 컬렉션을 설명합니다. Azure Databricks Unity 카탈로그를 사용하여 쿼리 페더레이션을 관리합니다. 레이크하우스 페더레이션이란?을 참조하세요.
Lakebase
Azure Databricks Lakebase는 Lakehouse와 통합된 OLTP 데이터베이스입니다. OLTP(온라인 트랜잭션 처리) 데이터베이스는 대량의 실시간 트랜잭션 데이터를 효율적으로 처리하도록 설계된 특수한 유형의 데이터베이스 시스템입니다. Lakebase를 사용하면 Azure Databricks OLTP 데이터베이스를 만들고 OLTP 워크로드를 Lakehouse로 가져올 수 있습니다.
Lakebase를 참조하세요.
Lakebase 엔드포인트
Lakebase 엔드포인트는 Lakebase Postgres 데이터베이스의 기본 데이터베이스 액세스 지점입니다. 각 엔드포인트는 고유한 엔드포인트 ID로 식별되며 단일 클라우드 지역 내에서 작동합니다. 엔드포인트는 단일 컴퓨팅 인스턴스로 구성하거나 고가용성을 위해 기본 컴퓨팅 인스턴스를 하나 이상의 보조 컴퓨팅 인스턴스와 쌍으로 구성할 수 있습니다. 고가용성 구성에서는 자동 장애 조치(failover)를 통해 기본 인스턴스의 문제 발생 시 보조 인스턴스로 자동 전환됩니다. 엔드포인트의 연결 문자열을 통해 데이터베이스에 연결합니다.
LLM(큰 언어 모델)
개방형 질문, 채팅, 콘텐츠 요약, 거의 임의 명령 실행, 번역, 콘텐츠 및 코드 생성과 같은 작업을 위해 설계된 NLP(자연어 처리) 모델입니다. LLM은 고급 기계 학습 알고리즘을 사용하여 인간 언어의 패턴과 구조를 학습하는 대규모 데이터 집합에서 학습됩니다. Databricks에서 LLM(대규모 언어 모델)을 참조하세요.
library
클러스터에서 실행 중인 Notebook 또는 작업에 사용할 수 있는 코드 패키지입니다. Databricks Runtime은 많은 라이브러리를 포함하며 사용자가 직접 업로드할 수도 있습니다. 라이브러리 설치를 참조하세요.
액체 클러스터링
지정된 열을 기반으로 데이터를 증분 방식으로 클러스터링하여 쿼리 성능을 향상시키는 Delta 및 Iceberg 테이블에 대한 Azure Databricks 데이터 레이아웃 최적화 기능입니다. 기존 분할과 달리 액체 클러스터링이 변화하는 데이터 패턴에 맞게 조정됩니다. 테이블에 대한 액체 클러스터링 사용을 참조하세요.
M
관리되는 테이블
데이터 파일과 메타데이터가 모두 Unity 카탈로그에서 완전히 관리되는 테이블입니다. 관리되는 테이블은 항상 Delta 또는 Iceberg 형식으로 저장되며 예측 최적화를 통해 자동화된 유지 관리의 이점을 누릴 수 있습니다. Azure Databricks에서 유니티 카탈로그로 관리하는 Delta Lake 및 Apache Iceberg 테이블을 참조하세요.
구체화된 뷰
대기 시간이 짧거나 중복 계산 없이 반복적으로 쿼리할 수 있도록 미리 계산되고 저장된 뷰입니다. 구체화된 뷰를 참조하세요.
메달리온 아키텍처
데이터가 아키텍처의 각 계층(Bronze ⇒ Silver ⇒ Gold 계층 테이블)을 통해 흐르면서 구조와 품질을 점진적이고 순차적으로 개선하는 것을 목표로, 레이크하우스 내에서 데이터를 논리적으로 구성하는 데 사용되는 데이터 디자인 패턴입니다. 메달리온 레이크하우스 건축이란?
metastore
열 및 열 형식 정보, 데이터를 읽고 쓰는 데 필요한 직렬 변환기 및 역직렬 변환기, 데이터가 저장된 해당 파일을 포함하여 데이터 웨어하우스에 있는 다양한 테이블 및 파티션의 모든 구조 정보를 저장하는 구성 요소입니다. 메타스토어를 참조하세요.
메트릭 뷰
재사용 가능한 비즈니스 메트릭을 정의하고 관리하는 중앙 집중식 방법을 제공하는 Unity 카탈로그 개체입니다. 메트릭 뷰는 측정값 정의를 차원 그룹화와 분리하여 메트릭을 한 번 정의하고 모든 차원에서 유연하게 쿼리할 수 있습니다. Unity 카탈로그 메트릭 뷰를 참조하세요.
MLflow
에이전트, LLM 및 ML 모델을 위한 가장 큰 오픈 소스 AI 엔지니어링 플랫폼입니다. MLflow를 사용하면 모든 규모의 팀이 비용을 제어하고 모델 및 데이터에 대한 액세스를 관리하면서 AI 애플리케이션을 디버그, 평가, 모니터링 및 최적화할 수 있습니다. Azure Databricks MLflow는 엔터프라이즈 고객을 위한 추가 기능을 갖춘 완전 관리형 서비스로, MLflow의 확장 가능하고 안전한 관리형 배포를 제공합니다. Databricks의 MLflow를 참조하세요.
MLflow 추적 기록
AI 에이전트 또는 애플리케이션이 수행하는 모든 단계를 로깅하여 엔드투엔드 관찰 가능성을 제공하는 GenAI용 MLflow의 기능입니다. MLflow 추적을 사용하여 개발 및 프로덕션에서 에이전트 동작을 디버그, 모니터링 및 감사합니다. MLflow 추적 - GenAI 관찰 가능성을 참조하세요.
MCP(모델 컨텍스트 프로토콜)
표준화된 인터페이스를 통해 AI 에이전트를 도구, 리소스, 프롬프트 및 기타 컨텍스트 정보에 연결하는 오픈 소스 표준입니다. Azure Databricks 관리형, 외부 및 사용자 지정 MCP 서버를 제공합니다. Databricks에서 MCP(모델 컨텍스트 프로토콜)를 참조하세요.
모델 학습
많은 인기 있는 오픈 소스 라이브러리를 사용하여 Azure Databricks 기계 학습 및 딥 러닝 모델을 학습하는 프로세스입니다. AI 및 ML 모델 학습을 참조하세요.
모자이크 AI
예측 ML 모델 빌드에서 최신 생성 AI 앱에 이르기까지 AI 및 ML 솔루션을 빌드, 배포, 평가 및 제어하는 통합 도구를 제공하는 기능입니다. Databricks에서 AI 및 기계 학습을 참조하세요.
모자이크 AI 모델 서비스
실시간 및 일괄 처리 유추를 위해 AI 모델을 배포, 관리 및 쿼리하는 통합 인터페이스입니다. Mosaic AI 모델 서비스를 사용하여 모델 배포를 참조하세요.
모자이크 AI 모델 학습
이 기능을 사용하면 데이터를 사용하여 기본 모델을 사용자 지정하여 특정 애플리케이션에 대한 성능을 최적화할 수 있습니다. 기본 모델의 전체 매개 변수 미세 조정 또는 지속적인 학습을 수행하면 모델을 처음부터 학습하는 것보다 훨씬 적은 데이터, 시간 및 컴퓨팅 리소스를 사용하여 고유한 모델을 학습할 수 있습니다. 파운데이션 모델 미세 조정을 참조하세요.
모자이크 AI 벡터 검색
Databricks Data Intelligence 플랫폼에 기본 제공되고 거버넌스 및 생산성 도구와 통합된 벡터 검색 인덱스입니다. 모자이크 AI 벡터 검색을 참조하세요.
N
notebook
데이터 과학자와 엔지니어가 동일한 문서에서 여러 언어(예: Python, Scala, SQL)로 코드를 작성하고 실행하는 데 사용하는 대화형 웹 인터페이스입니다. Databricks Notebook을 참조하세요.
O
OAuth
OAuth는 액세스 위임을 위한 개방형 표준으로, 일반적으로 인터넷 사용자가 웹 사이트 또는 애플리케이션에 다른 웹 사이트의 정보에 대한 액세스 권한을 부여하지만 암호를 제공하지 않는 방법으로 사용됩니다. Azure Databricks 리소스에 대한 액세스 권한 부여 참조하세요.
P
파트너 연결
대부분의 엔터프라이즈 데이터 시스템에 연결하기 위해 독립 소프트웨어 공급업체가 유지 관리하는 통합을 제공하는 Databricks 프로그램입니다. Databricks 파트너 연결이란?을 참조하세요.
PAT(개인용 액세스 토큰)
암호 대신 컴퓨터 시스템에 액세스할 때 사용자를 인증하는 데 사용되는 문자 문자열입니다. Azure Databricks 리소스에 대한 액세스 권한 부여 참조하세요.
Photon
SQL 워크로드 및 DataFrame API 호출을 더 빠르게 실행하는 고성능 Databricks 네이티브 벡터화된 쿼리 엔진은 워크로드당 총 비용을 절감합니다. Photon은 Apache Spark API와 호환되므로 기존 코드와 함께 사용할 수 있습니다. Photon이란?을 참조하세요.
예측 최적화
Unity 카탈로그 관리 테이블에서 유지 관리 작업을 자동으로 식별하고 실행하여 쿼리 성능을 향상시키고 스토리지 비용을 절감하는 Azure Databricks 기능입니다. Unity 카탈로그 관리 테이블에 대한 예측 최적화를 참조하세요.
pipeline
시스템에 의해 결정되는 종속성 순서로 지연 업데이트되는 테이블, 뷰, 구체화된 뷰, 흐름 및 싱크의 DAG입니다.
R
검색 증강 생성(RAG)
LLM(대규모 언어 모델)이 외부 정보 원본에서 검색된 지원 데이터를 사용하여 사용자의 프롬프트를 보강하여 보강된 응답을 생성할 수 있도록 하는 기술입니다. 검색된 정보를 통합함으로써, RAG는 LLM이 추가적인 컨텍스트 없이 프롬프트를 사용할 때보다, 보다 정확하고 높은 품질의 응답을 생성하도록 돕습니다. Azure Databricks에서 RAG(검색 증강 생성)를 참조하세요.
S
스키마(유니티 카탈로그)
Unity 카탈로그에서 테이블, 뷰, 볼륨, 모델 및 함수를 포함할 수 있는 자식 항목입니다. 스키마는 Unity 카탈로그의 세 수준 네임스페이스(catalog.schema.table-etc)의 두 번째 수준입니다. Unity 카탈로그란?을 참조하세요.
서버리스 컴퓨팅
Azure Databricks 관리되는 컴퓨팅을 통해 관리 오버헤드를 줄이고 즉각적인 컴퓨팅을 제공하여 사용자 생산성을 향상시킵니다. 서버리스 컴퓨팅에 연결하기를 참조하십시오.
서비스 프린시플
자동화된 도구, 실행 중인 작업 및 애플리케이션에서 사용하기 위해 만든 ID입니다. Azure Databricks 사용자와 동일한 방식으로 권한을 사용하여 서비스 주체의 리소스 액세스를 제한할 수 있습니다. Azure Databricks 사용자와 달리 서비스 주체는 API 전용 ID이며 Azure Databricks UI 또는 Databricks CLI에 직접 액세스할 수 없습니다. 서비스 주체를 참조하세요.
싱크(파이프라인)
싱크는 외부 시스템에 데이터를 쓰는 흐름의 목적지입니다(예: Kafka, Kinesis, Delta).
SQL 웨어하우스
Azure Databricks 데이터를 쿼리하고 탐색할 수 있는 컴퓨팅 리소스입니다. SQL 웨어하우스에 대한 연결을 참조하세요.
스트림 처리
지속적으로 증가하는 무제한 데이터 세트에 대해 쿼리를 정의한 다음 작은 증분 일괄 처리로 데이터를 처리할 수 있는 데이터 처리 방법입니다. Azure Databricks 스트림 처리는 구조적 스트리밍을 사용합니다. 구조적 스트리밍 개념을 참조하세요.
streaming
스트리밍은 인터넷을 통해 컴퓨터 및 모바일 디바이스에 전달되고 실시간으로 재생되는 모든 미디어 콘텐츠(라이브 또는 기록된 데이터 스트림)를 가리킵니다. 구조적 스트리밍 개념을 참조하세요.
스트리밍 분석
다른 원본에서 지속적으로 생성되는 데이터를 분석하는 프로세스입니다. Azure Databricks 구조적 스트리밍을 통한 스트리밍 분석을 지원하므로 실시간 인사이트를 위해 라이브 데이터를 처리하고 분석할 수 있습니다.
구조적 스트리밍
Spark SQL 엔진을 기반으로 구축된 확장 가능하고 내결함성 있는 스트림 처리 엔진으로, 복잡한 계산을 스트리밍 쿼리로 사용할 수 있습니다. 구조적 스트리밍 개념을 참조하세요.
스트리밍 테이블
관리되는 테이블로, 여기에 스트림이 쓰기 작업을 수행합니다. 스트리밍 테이블을 참조하세요.
시스템 테이블
감사 로그, 청구 가능한 사용량 및 계보와 같은 계정 운영 데이터의 Azure Databricks 호스팅 분석 데이터 저장소입니다. 시스템 테이블은 Unity 카탈로그의 system 카탈로그에서 사용할 수 있습니다.
시스템 테이블 참조를 참조하세요.
동기화된 테이블
동기화된 테이블은 Unity 카탈로그 테이블에서 데이터베이스 인스턴스로 데이터를 자동으로 동기화하는 Unity 카탈로그 읽기 전용 Postgres 테이블입니다. 동기화된 테이블(Lakebase 프로비저닝됨)을 사용하여 Lakehouse 데이터 제공을 참조하세요.
T
table
테이블은 스키마에 상주하며 데이터 행을 포함합니다. Databricks에서 만든 모든 테이블은 기본적으로 Delta Lake를 사용합니다. Delta Lake에서 지원되는 테이블을 델타 테이블이라고도 합니다. Azure Databricks 테이블 참조하세요.
트리거된 파이프라인
각 테이블에 대한 업데이트 시작 시 사용 가능한 모든 데이터를 수집하여 종속성 순서로 실행한 다음 종료하는 파이프라인입니다. 트리거된 파이프라인 모드와 연속 파이프라인 모드를 참조하세요.
U
UDF(사용자 정의 함수)
SQL 또는 프로그래밍 언어의 기본 제공 기능을 확장하기 위해 사용자가 만든 사용자 지정 함수입니다. Azure Databricks 거버넌스를 위해 Unity 카탈로그에 UDF를 등록하고 작업 영역에서 다시 사용할 수 있습니다. 사용자 정의 함수(UDF)란 무엇인가요?을 참조하세요.
Unity 카탈로그
Azure Databricks 작업 영역에서 중앙 집중식 액세스 제어, 감사, 계보 및 데이터 검색 기능을 제공하는 Azure Databricks 기능입니다. Unity 카탈로그란?을 참조하세요.
V
vector 데이터베이스
임베딩을 저장하고 검색하도록 최적화된 데이터베이스입니다. 포함은 데이터의 의미 체계 콘텐츠(일반적으로 텍스트 또는 이미지 데이터)의 수학적 표현입니다. Databricks는 델타 테이블에서 벡터 데이터베이스 기능을 사용할 수 있는 벡터 검색 인덱스를 제공합니다. 모자이크 AI 벡터 검색을 참조하세요.
view
SQL 쿼리로 정의된 가상 테이블입니다. 데이터 자체는 저장하지 않지만 하나 이상의 테이블에서 특정 형식 또는 추상화로 데이터를 표시하는 방법을 제공합니다. 보기란 무엇인가?를 참조하세요.
볼륨들(유니티 카탈로그)
테이블 형식이 아닌 데이터 세트에 대한 거버넌스를 사용하도록 설정하는 Unity 카탈로그 개체입니다. 볼륨은 클라우드 개체 스토리지 위치에 있는 스토리지의 논리적 볼륨을 나타냅니다. 볼륨은 파일 액세스, 저장, 관리 및 구성 기능을 제공합니다. Unity 카탈로그 볼륨이란?을 참조하세요.
W
Lakeflow 직무
Azure Databricks 데이터 처리 작업을 예약하고 오케스트레이션할 수 있는 도구 집합입니다. Lakeflow 작업을 참조하세요.
workload
작업 또는 작업 그룹을 수행하는 데 필요한 처리 기능의 양입니다. Azure Databricks 데이터 엔지니어링(작업) 및 데이터 분석(다목적)의 두 가지 유형의 워크로드를 식별합니다. Azure Databricks 구성 요소 참조하세요.
workspace
Databricks 사용자가 Notebook, 실험, 쿼리 및 대시보드와 같은 개체를 개발, 찾아보기 및 공유할 수 있는 조직 환경입니다. 작업 영역 UI를 참조하세요.