다음을 통해 공유


AI Functions를 사용하여 데이터 보강

중요합니다

이 기능은 공개 미리 보기 상태입니다.

AI 함수는 데이터 변환 및 보강을 위해 Azure Databricks 저장된 데이터에 LLM 또는 최신 연구 기술을 적용하는 데 사용할 수 있는 기본 제공 함수입니다. Databricks SQL, Notebook, Lakeflow Spark 선언적 파이프라인 및 워크플로를 포함하여 Databricks의 어디에서나 실행할 수 있습니다.

AI 함수는 사용하기 쉽고 빠르며 확장 가능합니다. 분석가는 이를 사용하여 독점 데이터에 데이터 인텔리전스를 적용할 수 있으며, 데이터 엔지니어, 데이터 과학자 및 기계 학습 엔지니어는 이를 사용하여 프로덕션 등급 일괄 처리 파이프라인을 빌드할 수 있습니다.

작업별 및 범용用途

AI Functions에는 작업별 및 범용 함수가 있습니다.

  • 작업별 AI 함수 - 문서 구문 분석, 엔터티 추출, 분류 및 감정 분석과 같은 특정 작업에 최적화된 용도로 작성된 함수입니다. 이러한 함수는 Azure Databricks 관리되는 리서치 백 시스템에 의해 구동됩니다. 일부 함수에는 UI 환경이 포함됩니다. 지원되는 함수 및 모델에 대한 작업별 AI 함수 참조하세요.
  • ai_query - 작업 및 모델 유연성을 위한 범용 함수입니다. 프롬프트를 제공하고 지원되는 모든 Foundation Model API를 선택합니다. 사용 ai_query을 참조하세요.

작업별 AI 함수 및 ai_query 대한 의사 결정 트리

작업별 AI 함수

작업별 함수는 엔터티 추출, 변환 및 분류와 같은 일상적인 변환을 자동화할 수 있도록 특정 작업에 대해 범위가 지정됩니다. Databricks는 시작할 때, Databricks가 유지 관리하는 첨단 연구 기술을 사용하는 이러한 함수를 추천하며, 사용자 지정이 필요하지 않습니다.

예제는 AI Functions 사용하여 고객 리뷰 분석을 참조하세요.

다음 표에서는 지원되는 함수와 해당 함수가 수행하는 작업을 나열합니다.

기능 설명
ai_parse_document 최신 연구 기법을 사용하여 구조화된 콘텐츠(텍스트, 표, 그림 설명) 및 구조화되지 않은 문서의 레이아웃을 구문 분석합니다.
ai_extract 정의한 스키마를 사용하여 문서 또는 텍스트에서 구조화된 필드를 추출합니다.
ai_classify 최신 연구 기법을 사용하여 제공하는 레이블에 따라 입력 텍스트를 분류합니다.
AI 감성 분석 최신 생성 AI 모델을 사용하여 입력 텍스트에 대한 감정 분석을 수행합니다.
ai_문법_수정 최신 생성 AI 모델을 사용하여 텍스트의 문법 오류를 수정합니다.
ai_gen 최신 생성 AI 모델을 사용하여 사용자가 제공한 프롬프트에 응답합니다.
ai_mask 최첨단 생성 AI 모델을 사용하여 텍스트에서 지정된 엔터티를 마스크합니다.
ai_parse_document 최신 생성 AI 모델을 사용하여 구조화되지 않은 문서에서 구조화된 콘텐츠를 추출합니다.
ai_prep_search 구문 분석된 문서 출력을 벡터 검색 및 RAG 파이프라인에 최적화된 검색 준비 청크로 변환합니다.
ai_query 작업별 함수가 제공하는 것 이상으로 작동하는 작업에 대한 범용 AI 함수입니다. 사용자 지정 프롬프트를 제공하고 지원되는 모든 Foundation Model API 모델을 선택합니다.
ai_similarity 두 문자열을 비교하고 최첨단 생성 AI 모델을 사용하여 의미 체계 유사성 점수를 계산합니다.
ai_summarize SQL 및 최신 생성 AI 모델을 사용하여 텍스트 요약을 생성합니다.
ai_translate 최첨단 생성 AI 모델을 사용하여 텍스트를 지정된 대상 언어로 번역합니다.
ai_forecast 지정된 수평선까지 데이터를 예측합니다. 이 테이블 반환 함수는 시계열 데이터를 미래로 추정하도록 설계되었습니다.
vector_search 최신 생성 AI 모델을 사용하여 Mosaic AI Vector Search 인덱스를 검색하고 쿼리를 수행합니다.

프로덕션 워크플로에서 AI Functions 사용

대규모 일괄 처리 유추의 경우 작업별 AI Functions 또는 범용 함수 ai_query 를 Lakeflow Spark 선언적 파이프라인, Databricks 워크플로 및 구조적 스트리밍과 같은 프로덕션 워크플로에 통합할 수 있습니다. 이를 통해 프로덕션 등급 처리를 대규모로 수행할 수 있습니다.

프로덕션 환경에서 AI 함수에 대한 모범 사례:

AI Functions에서 워크로드를 대규모로 처리할 수 있도록 합니다 . AI Functions는 병렬 처리, 재시도 및 크기 조정을 자동으로 관리합니다. 전체 데이터 세트를 작은 일괄 처리로 수동으로 분할하는 대신 단일 쿼리로 제출하는 것이 좋습니다. 성능은 매우 작은 워크로드에서 대규모 워크로드로 선형적으로 확장되지 않을 수 있습니다.

Databricks 호스팅 기본 모델을 사용합니다 . ai_query AI 함수를 사용하는 경우 프로비전된 처리량이 아닌 Databricks 호스팅 기본 모델(databricks-접두사)을 사용합니다. 이러한 프로비저닝 없는 엔드포인트는 완전히 관리되며 일괄 처리에 가장 적합합니다.

예제 및 세부 정보는 일괄 처리 유추 파이프라인 배포 를 참조하세요.

AI 함수 진행률 모니터링

완료 또는 실패한 유추 수를 파악하고 성능 문제를 해결하려면 쿼리 프로필 기능을 사용하여 AI Functions의 진행률을 모니터링할 수 있습니다.

Databricks Runtime 16.1 ML 이상의 작업 영역의 SQL 편집기 쿼리 창에서 다음을 수행합니다.

  1. 원시 결과 창 아래쪽에서 실행--- 링크를 선택합니다. 성능 창이 오른쪽에 나타납니다.
  2. 쿼리 프로필을 클릭하여 성능 세부 정보를 확인합니다.
  3. AI 쿼리 클릭하여 완료 및 실패한 유추 수와 요청이 완료되는 데 걸린 총 시간을 포함하여 특정 쿼리에 대한 메트릭을 확인합니다.

AI 함수 워크로드에 대한 비용 보기

AI 함수 비용은 MODEL_SERVING 제공 유형에서 BATCH_INFERENCE 제품의 일부로 기록됩니다. 배치 추론 워크로드의 비용 보기에 대한 예제 쿼리를 참조하세요.

비고

ai_parse_document, ai_extract, 및 ai_classify의 비용은 AI_FUNCTIONS 제품의 일부로 기록됩니다. 예제 쿼리 의 실행에 대한 ai_parse_document 비용 보기를 참조하세요.

일괄 처리 유추 워크로드에 대한 비용 보기

다음 예제에서는 작업, 컴퓨팅, SQL 웨어하우스 및 Lakeflow Spark 선언적 파이프라인을 기반으로 일괄 처리 유추 워크로드를 필터링하는 방법을 보여 줍니다.

AI Functions를 사용하는 일괄 추론 워크로드의 비용을 확인하는 방법에 대한 일반적인 예시는 모델 서비스 비용 모니터링을 참조하세요.

Jobs

다음 쿼리는 시스템 테이블을 사용하여 system.workflow.jobs 일괄 처리 유추에 사용되는 작업을 보여줍니다. 시스템 테이블을 사용하여 작업 비용 및 성능 모니터링을 참조하세요.


SELECT *
FROM system.billing.usage u
  JOIN system.workflow.jobs x
    ON u.workspace_id = x.workspace_id
    AND u.usage_metadata.job_id = x.job_id
  WHERE u.usage_metadata.workspace_id = <workspace_id>
    AND u.billing_origin_product = "MODEL_SERVING"
    AND u.product_features.model_serving.offering_type = "BATCH_INFERENCE";

Compute

다음은 시스템 테이블을 사용하여 일괄 처리 유추에 사용되는 클러스터를 system.compute.clusters 보여 줍니다.

SELECT *
FROM system.billing.usage u
  JOIN system.compute.clusters x
    ON u.workspace_id = x.workspace_id
    AND u.usage_metadata.cluster_id = x.cluster_id
  WHERE u.usage_metadata.workspace_id = <workspace_id>
    AND u.billing_origin_product = "MODEL_SERVING"
    AND u.product_features.model_serving.offering_type = "BATCH_INFERENCE";

Lakeflow Spark 선언적 파이프라인

다음은 system.lakeflow.pipelines 시스템 테이블을 사용하여 일괄 추론에 사용되는 Lakeflow Spark 선언적 파이프라인을 보여 줍니다.

SELECT *
FROM system.billing.usage u
  JOIN system.lakeflow.pipelines x
    ON u.workspace_id = x.workspace_id
    AND u.usage_metadata.dlt_pipeline_id = x.pipeline_id
  WHERE u.usage_metadata.workspace_id = <workspace_id>
    AND u.billing_origin_product = "MODEL_SERVING"
    AND u.product_features.model_serving.offering_type = "BATCH_INFERENCE";

SQL 웨어하우스

다음은 시스템 테이블을 사용하여 일괄 처리 추론에 사용되는 SQL 웨어하우스를 보여 줍니다 system.compute.warehouses.

SELECT *
FROM system.billing.usage u
  JOIN system.compute.clusters x
    ON u.workspace_id = x.workspace_id
    AND u.usage_metadata.cluster_id = x.cluster_id
  WHERE u.workspace_id = <workspace_id>
    AND u.billing_origin_product = "MODEL_SERVING"
    AND u.product_features.model_serving.offering_type = "BATCH_INFERENCE";

실행 비용 보기 ai_parse_document

다음 예제에서는 청구 시스템 테이블을 쿼리하여 ai_parse_document 작업 비용을 보는 방법을 보여 줍니다.


SELECT *
FROM system.billing.usage u
WHERE u.workspace_id = <workspace_id>
  AND u.billing_origin_product = "AI_FUNCTIONS"
  AND u.product_features.ai_functions.ai_function = "AI_PARSE_DOCUMENT";