Concetti principali

Lakebase si basa su un set di funzionalità che consentono di sviluppare, testare e ridimensionare le applicazioni di database in modo efficiente. Questa sezione presenta i concetti di base che differenziano Lakebase dai sistemi di database tradizionali.

Progetti

Un progetto Lakebase è il contenitore di primo livello per tutte le risorse del database. Ogni progetto appartiene a un'area di lavoro di Databricks e contiene uno o più rami, ognuno con i propri database e calcolo.

Project
└── Branch (e.g., production)
    ├── Compute (read-write)
    └── Database (e.g., databricks_postgres)

Altre informazioni: Gestire progetti |

Autoscaling

Lakebase regola automaticamente le risorse di calcolo in base alle esigenze del carico di lavoro. Man mano che il traffico dell'applicazione aumenta o diminuisce, le risorse di calcolo aumentano o diminuiscono all'interno dell'intervallo configurato senza interventi manuali o tempi di inattività.

Vantaggi principali:

  • Regolazione automatica: Ridimensionamento delle risorse in base alla domanda effettiva.
  • Nessun tempo di inattività: Il ridimensionamento all'interno dell'intervallo configurato avviene senza interrompere le connessioni. Tuttavia, la modifica della configurazione minima o massima del cu può causare una breve interruzione.
  • Ottimizzazione dei costi: Pagare solo le risorse effettivamente usate.
  • Coerenza delle prestazioni: Mantenere le prestazioni reattive durante i picchi di traffico.

Altre informazioni:Configurare la | scalabilitàautomatica

Scala a zero

Quando il database è inattivo, Lakebase può ridimensionare automaticamente le risorse di calcolo fino a zero, eliminando i costi per la capacità inutilizzata. Quando l'attività riprende, le risorse di calcolo si ridimensionano automaticamente in pochi secondi.

Vantaggi principali:

  • Nessun costo inattivo: Nessun costo di elaborazione computazionale quando il database è inattivo.
  • Ripresa immediata: I database si riattivano automaticamente quando si accede.
  • Adatto allo sviluppo: Ideale per ambienti di sviluppo e staging con utilizzo intermittente.
  • Gestione automatica: Non è necessario alcun intervento manuale.

Altre informazioni: Ridimensionare fino a zero | Configurare la scalabilità a zero

Rami di database

I rami di database in Lakebase funzionano in modo analogo ai rami Git per il codice. È possibile creare rami istantanei, isolati per lo sviluppo, il test o la sperimentazione senza duplicare i dati o influire sull'ambiente di produzione.

Vantaggi principali:

  • Creazione immediata: I rami vengono creati in secondi usando la tecnologia copy-on-write.
  • Conveniente: Solo i dati modificati vengono archiviati separatamente, riducendo al minimo i costi di archiviazione.
  • Ambienti isolati: Testare le modifiche in modo sicuro senza influire sul database primario.
  • Facile collaborazione: I membri del team possono lavorare contemporaneamente su rami separati.

Per saperne di più: Rami del database | Gestisci rami

Risorse di calcolo ed endpoint

Un endpoint Lakebase è il punto di connessione stabile usato dall'applicazione per raggiungere un database. Dietro ogni endpoint, una o più istanze di calcolo gestiscono l'elaborazione delle query. Il stringa di connessione rimane invariato anche quando si ridimensionano le risorse di calcolo o si aggiunge una disponibilità elevata.

Un branch ha in genere un endpoint di lettura/scrittura (l'istanza di calcolo primaria) e, facoltativamente, uno o più endpoint di sola lettura (repliche di lettura).

Scopri di più: Risorse di calcolo ed endpoint | Gestire le risorse di calcolo

Disponibilità elevata

La disponibilità elevata associa un calcolo primario di lettura/scrittura con una o più istanze di calcolo secondarie distribuite tra zone di disponibilità. Quando il database primario diventa non disponibile, viene alzato di livello automaticamente un database secondario e l'applicazione continua dall'ultima transazione di cui è stato eseguito il commit. La stringa di connessione rimane invariata per tutta la durata.

Vantaggi principali:

  • Failover automatico: Un'istanza di calcolo secondaria viene promossa senza intervento manuale.
  • Nessuna perdita di dati: Il failover mantiene tutte le transazioni di cui è stato eseguito il commit.
  • Stringhe di connessione stabili: L'applicazione non deve modificare la configurazione della connessione dopo un failover.

Altre informazioni:Disponibilità elevata Gestire la disponibilità elevata |

Repliche in lettura

Le repliche di lettura sono calcoli di sola lettura indipendenti che eseguono operazioni di lettura sugli stessi dati del calcolo di lettura/scrittura primario. A differenza delle repliche tradizionali, le repliche in lettura di Lakebase non duplicano i dati, ma leggono dallo stesso livello di archiviazione, consentendo la creazione immediata ed eliminando costi di archiviazione aggiuntivi.

Vantaggi principali:

  • Ridimensionamento orizzontale: Distribuire le richieste di lettura tra più repliche.
  • Nessuna duplicazione dei dati: Tutte le repliche leggono dalla stessa risorsa di archiviazione.
  • Creazione immediata: Disponibile in secondi senza copia dei dati.
  • Economico: Senza costi di archiviazione aggiuntivi, oltre al supporto di scalabilità automatizzata e scalabilità fino a zero.

Altre informazioni: Repliche di lettura | Gestire le repliche di lettura

Come interagiscono

Questi concetti di base interagiscono per creare una piattaforma di database potente e flessibile:

  1. I progetti organizzano tutte le risorse del database e appartengono a un'area di lavoro di Databricks.
  2. La scalabilità automatica garantisce che ogni ramo abbia la giusta quantità di calcolo in base alla richiesta.
  3. La scalabilità a zero riduce i costi dei rami inattive sospendendo il calcolo quando non è in uso.
  4. I rami di database consentono di creare ambienti isolati per lo sviluppo e il test senza duplicare i dati.
  5. Le risorse di calcolo e gli endpoint forniscono punti di connessione stabili quando si espande o si riconfigura l'infrastruttura.
  6. Alta disponibilità consente il failover automatico tra le zone di disponibilità per i carichi di lavoro di produzione.
  7. Le repliche di lettura distribuiscono il traffico di lettura tra istanze di calcolo aggiuntive.

Questa architettura consente di creare e ridimensionare applicazioni di database con maggiore flessibilità, costi inferiori e un sovraccarico operativo inferiore rispetto ai sistemi di database tradizionali.