생성 AI 모델 유지 관리 정책

이 페이지에서는 파운데이션 모델 API 토큰당 종량제, 프로비전된 처리량 기반 모델 API, Batch 유추 ai_query파운데이션 모델 미세 조정 제품에 대한 모델 유지 관리 정책을 설명합니다.

Databricks는 최신 모델을 계속 지원하기 위해 업데이트에서 사용 중단, 최종 사용 중지까지 진행되는 수명 주기를 통해 모델을 관리합니다.

  • 업데이트: Databricks는 최적화를 제공하기 위해 모델에 증분 업데이트를 적용합니다. 모델 업데이트를 참조하세요.
  • 사용되지 않음: 더 이상 사용되지 않는 모델은 새 워크로드에 권장되지 않지만 기존 모델 사용이 있는 작업 영역에서 계속 사용할 수 있습니다. 사용 중단 시 모델을 사용하지 않는 작업 영역에는 더 이상 액세스할 수 없습니다.
  • 사용 중지됨: 사용 중지된 모델에 더 이상 액세스할 수 없으며 모델에 대한 지원이 완전히 중단되었습니다. 모델을 사용하는 모든 워크로드의 작동이 중지됩니다.

모델 사용 중단 정책

Databricks가 모델을 더 이상 사용하지 않는 경우 해당 모델은 더 이상 권장되지 않으며 사용 중지할 계획입니다. Databricks는 다음 섹션에 요약된 알림 타임라인을 사용하여 사용되지 않는 모델에 대한 사용 중지 날짜를 발표합니다. 사용 중지 날짜는 사용 중단 시 또는 나중에 발표될 수 있습니다. 사용 중지 날짜 이후에는 모델에 더 이상 액세스할 수 없으며 모델을 사용하는 모든 워크로드의 작동이 중지됩니다.

더 이상 사용되지 않는 모델과 사용 중지된 모델 및 발표된 사용 중지 날짜는 사용되지 않는 모델과 사용 중지된 모델을 참조하세요. 파트너 모델의 경우 파트너 모델 사용 중지 정책을 참조하세요.

중요하다

파운데이션 모델 API 토큰당 지불 및 파운데이션 모델 미세 조정 제품에 적용되는 사용 중단 정책은 지원되는 채팅 및 완성 모델에만 영향을 줍니다.

파운데이션 모델 API.

다음 표에서는 토큰당 종량제, 프로비전된 Foundation Model API 프로비전된 처리량 및 제품을 사용한 Batch 유 ai_query 추에 대한 파운데이션 모델 API의 사용 중단 정책을 요약합니다.

사용 중단 알림 은퇴로 전환 은퇴 날짜
Databricks는 모델 사용 중단에 대해 고객에게 알리기 위해 다음 단계를 수행합니다.
  • Databricks UI에서 경고 메시지는 모델이 더 이상 사용되지 않음을 나타냅니다.
  • 적용 가능한 설명서에는 모델이 더 이상 사용되지 않음을 나타내는 알림과 발표된 경우 사용 중지 날짜가 포함되어 있습니다.
모델을 더 이상 사용하지 않는 Databricks는 향후 3개월 이상 사용 중지 날짜를 발표합니다. 이 전환 기간 동안:
  • 모델은 공지된 사용 중지 날짜까지 기존 워크로드를 사용하는 작업 영역에만 사용할 수 있습니다.
  • 사용되지 않는 모델은 사용 중단 시 적극적으로 사용하지 않는 작업 영역에서 액세스할 수 없습니다.
  • 기존 워크로드가 있는 고객은 권장되는 교체 모델 또는 중단 영향을 받는 워크로드로 마이그레이션해야 합니다.
모델은 더 이상 사용할 수 없으며 제품에서 제거됩니다. 모델을 사용하는 모든 기존 워크로드의 작동이 중지됩니다. 해당 설명서는 모델을 더 이상 사용할 수 없음을 나타내고 대체 모델을 추천하도록 업데이트됩니다.

파트너 모델 사용 중지 정책

파트너 모델은 타사 파트너(특히 OpenAI, Anthropic 및 Google)가 파운데이션 모델 API를 통해 제공하는 모델입니다. 이러한 파트너 모델의 경우 Databricks는 일반적으로 위에서 설명한 것과 동일한 사용 중단 타임라인 및 정책을 따릅니다.

그러나 파트너는 Databricks가 게시하는 3개월 전환 기간보다 짧은 사용 중지 날짜를 제공할 수 있습니다. 이러한 경우 Databricks는 모델을 유사한 버전으로 일시적으로 리디렉션하여 격차를 해소하려고 시도하므로 고객은 전체 전환 시간을 받습니다.

예를 들어 파트너 모델 사용 중지가 3개가 아닌 1개월의 리드 타임으로 발표되는 경우 Databricks는 즉시 중단을 방지하고 마이그레이션 시간을 허용하기 위해 모델을 2개월 더 리디렉션합니다. 전체 3개월 기간이 끝나면 쿼리가 실패합니다.

Note

이 리디렉션은 교체 모델이 동일한 가격을 가지며 이전 버전과 호환되는 경우에만 발생할 수 있습니다. 대체 모델은 일반적으로 3.0과 3.1과 같은 증분 모델 버전입니다.

파운데이션 모델 미세 조정

다음 표에서는 파운데이션 모델 미세 조정에 대한 사용 중단 정책을 요약합니다.

사용 중단 알림 은퇴로 전환 은퇴 날짜
Databricks는 모델 사용 중단에 대해 고객에게 알리기 위해 다음 단계를 수행합니다.
  • 실험 탭의 파운데이션 모델 미세 조정에 대한 드롭다운 메뉴에 모델이 더 이상 사용되지 않음을 나타내는 경고 메시지가 나타납니다.
  • 적용 가능한 설명서에는 모델이 더 이상 사용되지 않음을 나타내는 알림과 발표된 경우 사용 중지 날짜가 포함되어 있습니다.
모델을 더 이상 사용하지 않는 Databricks는 향후 3개월 이상 사용 중지 날짜를 발표합니다. 이 전환 기간 동안 고객은 워크로드를 권장 대체 모델로 마이그레이션하거나 영향을 받는 엔드포인트를 삭제해야 합니다. 모델은 더 이상 사용할 수 없으며 제품에서 제거됩니다. 적용 가능한 문서는 대체 모델 사용을 권장하도록 업데이트되었습니다.

모델 업데이트

Databricks는 최적화를 제공하기 위해 증분 모델 업데이트를 제공할 수 있습니다. Databricks가 모델을 업데이트할 때 엔드포인트 URL은 동일하게 유지되지만 응답 개체의 모델 ID는 업데이트 날짜를 반영하도록 변경됩니다. 예를 들어 Databricks가 2024년 3월 4일에 업데이트를 meta-llama/Meta-Llama-3.3-70B 발송하는 경우 응답 개체의 모델 이름이 업데이트됩니다 meta-llama/Meta-Llama-3.3-70B-030424. Databricks는 업데이트의 버전 기록을 유지 관리합니다. 자세한 내용은 Databricks 계정 팀에 문의하세요.

사용되지 않는 모델 및 사용 중지된 모델

다음 섹션에서는 사용되지 않거나(새 워크로드에 더 이상 권장되지 않음) 사용 중지된 모델(수명이 종료되고 더 이상 사용할 수 없음)을 나열합니다. 사용되지 않는 모델의 사용 중지 날짜는 최소 3개월 전에 발표됩니다.

Foundation Model API 사용 중지

다음 표에서는 모델 사용 중지, 사용 중지 날짜 및 토큰당 종량제 및 프로비전된 처리량 서비스 워크로드에 사용할 권장 대체 모델을 보여 줍니다. Databricks는 지정된 사용 중지 날짜 이전에 대체 모델을 사용하도록 애플리케이션을 마이그레이션하는 것이 좋습니다.

Note

OpenAI 및 Google Gemini 모델은 Databricks에서 제공하는 ADI 서비스를 통해서만 사용할 수 있습니다.

파트너 모델 은퇴 날짜 권장되는 대체 모델
OpenAI GPT-5.1 Codex Max 토큰당 종량제: 2026년 7월 16일 OpenAI GPT-5.5
OpenAI GPT-5.1 Codex Mini 토큰당 종량제: 2026년 7월 16일 OpenAI GPT-5.4 Codex Mini
OpenAI GPT-5.2 Codex 토큰당 종량제: 2026년 7월 16일 OpenAI GPT-5.5
앤트로픽 클로드 3.7 소네트 토큰당 종량제: 2026년 4월 12일 최신 Claude Sonnet 모델 사용
Gemini 3 Pro 프로비전된 처리량: 2026년 3월 26일 쌍둥이 자리 3.1 프로. 마이그레이션에 더 많은 시간을 허용하기 위해 2026년 3월 26일부터 2026년 6월 7일까지 Gemini 3 Pro에 대한 API 호출이 Gemini 3.1 Pro로 일시적으로 리디렉션됩니다. 두 모델의 가격 책정은 동일합니다.
모델 열기 은퇴 날짜 권장되는 대체 모델
메타 라마 3.1 405B 토큰당 종량제: 2026년 2월 15일
프로비전된 처리량: 2026년 5월 15일
OpenAI GPT OSS 120B
DBRX/DBRX 지시 토큰당 종량제: 2025년 4월 30일
프로비전된 처리량: 2025년 12월 19일
토큰당 종량제: 메타 라마-4-매버릭
프로비전된 처리량: 유사한 크기의 Llama 3.2, 3.3 또는 4 모델과 같은 동일한 제품에 대한 비교 가능한 모델입니다.
Mixtral 8x7B / Mixtral-8x7B 지시 토큰당 종량제: 2025년 4월 30일
프로비전된 처리량: 2026년 2월 27일
토큰당 종량제: 메타 라마-4-매버릭
프로비전된 처리량: 유사한 크기의 Llama 3.2, 3.3 또는 4 모델과 같은 동일한 제품에 대한 비교 가능한 모델입니다.
메타 라마 3(70B) 토큰당 종량제: 2024년 7월 23일(Meta-Llama-3-70B-Instruct); 2024년 12월 11일(Meta-Llama-3.1-70B-Instruct)
프로비전된 처리량: 2026년 2월 27일
토큰당 종량제: 메타 라마-4-매버릭
프로비전된 처리량: 유사한 크기의 Llama 3.2, 3.3 또는 4 모델과 같은 동일한 제품에 대한 비교 가능한 모델입니다.
메타 라마 3 8B 프로비전된 처리량: 2026년 2월 27일 유사한 크기의 Llama 3.2, 3.3 또는 4 모델과 같은 동일한 제품에 대한 비교 가능한 모델입니다.
Meta Llama 2 70B / Meta-Llama-2-70B-Chat 토큰당 종량제: 2024년 10월 30일
프로비전된 처리량: 2026년 2월 27일
토큰당 종량제: 메타 라마-4-매버릭
프로비전된 처리량: 유사한 크기의 Llama 3.2, 3.3 또는 4 모델과 같은 동일한 제품에 대한 비교 가능한 모델입니다.
메타 라마 2 13B 프로비전된 처리량: 2026년 2월 27일 유사한 크기의 Llama 3.2, 3.3 또는 4 모델과 같은 동일한 제품에 대한 비교 가능한 모델입니다.
메타 라마 2 7B 프로비전된 처리량: 2026년 2월 27일 유사한 크기의 Llama 3.2, 3.3 또는 4 모델과 같은 동일한 제품에 대한 비교 가능한 모델입니다.
Mistral 7B 프로비전된 처리량: 2026년 2월 27일 유사한 크기의 Llama 3.2, 3.3 또는 4 모델과 같은 동일한 제품에 대한 비교 가능한 모델입니다.
MPT 30B/MPT 30B 지시 토큰당 종량제: 2024년 8월 30일
프로비전된 처리량: 2025년 12월 19일
토큰당 종량제: 메타 라마-4-매버릭
프로비전된 처리량: 유사한 크기의 Llama 3.2, 3.3 또는 4 모델과 같은 동일한 제품에 대한 비교 가능한 모델입니다.
MPT 7B/MPT 7B 지시 토큰당 종량제: 2024년 8월 30일
프로비전된 처리량: 2025년 12월 19일
토큰당 종량제: 메타 라마-4-매버릭
프로비전된 처리량: 유사한 크기의 Llama 3.2, 3.3 또는 4 모델과 같은 동일한 제품에 대한 비교 가능한 모델입니다.

특정 모델 버전에 대한 장기 지원이 필요한 경우, Databricks는 고객의 서비스 워크로드에 적합한 프로비전된 처리량 을 통해 Foundation Model API을 사용할 것을 권장합니다.

파운데이션 모델 미세 조정 사용 중지

다음 표에서는 사용 중지된 모델 패밀리, 사용 중지 날짜 및 파운데이션 모델 미세 조정 워크로드에 사용할 권장 교체 모델 패밀리를 보여 줍니다. Databricks는 지정된 사용 중지 날짜 이전에 대체 모델을 사용하도록 애플리케이션을 마이그레이션하는 것이 좋습니다.

모델 패밀리 은퇴 날짜 권장되는 대체 모델 패밀리
DBRX 2025년 4월 30일 Llama-3.1-70B
Mixtral 2025년 4월 30일 Llama-3.1-70B
미스트랄 2025년 4월 30일 라마-3.1-8B
Meta-Llama-3.1-405B 2025년 1월 30일 Llama-3.1-70B
Meta-Llama-3 2025년 1월 7일 Meta-Llama-3.1
Meta-Llama-2 2025년 1월 7일 Meta-Llama-3.1
코드 라마 2025년 1월 7일 Meta-Llama-3.1

사용 중지된 모델을 사용하는 워크로드 찾기

다음 쿼리를 사용하여 사용되지 않는 모델을 사용하는 워크로드를 찾고 소유자를 식별합니다.

SELECT
   eu.requester,
   se.endpoint_name,
   se.entity_name,
   COUNT(*) AS request_count,
   SUM(eu.input_token_count) AS total_input_tokens,
   SUM(eu.output_token_count) AS total_output_tokens,
   MIN(eu.request_time) AS first_request,
   MAX(eu.request_time) AS last_request
 FROM system.serving.endpoint_usage eu
 JOIN system.serving.served_entities se
   ON eu.served_entity_id = se.served_entity_id
 WHERE LOWER(se.entity_name) LIKE '%<retired-model-name>%'
 GROUP BY eu.requester, se.endpoint_name, se.entity_name
 ORDER BY request_count DESC