Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Annotazioni
I connettori gestiti in Lakeflow Connect si trovano in vari stati di versione.
Questa pagina offre una panoramica dei connettori gestiti in Databricks Lakeflow Connect per l'inserimento di dati da applicazioni e database SaaS. La pipeline di inserimento risultante è governata da Unity Catalog ed è basata su risorse computazionali serverless e sulle pipeline dichiarative di Lakeflow Spark. I connettori gestiti sfruttano letture incrementali e scritture efficienti per rendere l'inserimento dei dati più veloce, scalabile e più conveniente, mentre i dati rimangono aggiornati per l'utilizzo downstream.
Tipi di connettore
| Tipo di connettore | Descrizione |
|---|---|
| Connettori SaaS | Inserire dati da applicazioni SaaS aziendali, tra cui Salesforce, HubSpot, Jira, Workday e altro ancora. |
| Connettori di database (CDC) | Inserire dati da database relazionali, tra cui MySQL, PostgreSQL e SQL Server usando Change Data Capture. |
Architettura
Ogni tipo di connettore ha un set distinto di componenti. I connettori SaaS usano una connessione, una pipeline di inserimento e tabelle di destinazione. I connettori di database prevedono anche un gateway di inserimento e un'archiviazione temporanea per supportare l'acquisizione continua delle modifiche. Per informazioni dettagliate, vedere Connettori SaaS in Lakeflow Connect e Connettori di database in Lakeflow Connect.
Componenti del connettore basati su query
Un connettore basato su query esegue una query sul database di origine direttamente secondo una pianificazione, senza un gateway o un'area di staging. Per una panoramica del funzionamento dei connettori basati su query, vedere Connettori basati su query.
| Componente | Descrizione |
|---|---|
| Connessione | Oggetto a protezione diretta di Unity Catalog che archivia i dettagli di autenticazione per il database di origine. Una connessione diretta al catalogo Unity (per l'inserimento di connessioni esterne) o un catalogo esterno del catalogo Unity (per l'inserimento di cataloghi stranieri tramite Lakehouse Federation). |
| Pipeline di inserimento | Una pipeline che esegue direttamente una query sul database di origine e scrive i risultati nelle tabelle di streaming. La pipeline viene eseguita su un'infrastruttura serverless per impostazione predefinita. |
| Tabelle di destinazione | Le tabelle di streaming in cui la pipeline di inserimento scrive i dati. |
Orchestrazione
È possibile eseguire la pipeline di acquisizione secondo una o più pianificazioni personalizzate. Per ogni pianificazione aggiunta a una pipeline, Lakeflow Connect crea automaticamente un attività. La pipeline di inserimento è un'attività all'interno del processo. Facoltativamente, è possibile aggiungere altre attività al processo.
Per i connettori di database, il gateway di inserimento opera nel proprio lavoro come attività continua.
Inserimento incrementale
Lakeflow Connect usa l'inserimento incrementale per migliorare l'efficienza della pipeline. Nella prima esecuzione della pipeline inserisce tutti i dati selezionati dall'origine. In parallelo, tiene traccia delle modifiche apportate ai dati di origine. In ogni esecuzione successiva della pipeline, usa il rilevamento delle modifiche per inserire solo i dati modificati dall'esecuzione precedente, quando possibile.
L'approccio esatto dipende da ciò che è disponibile nell'origine dati. Ad esempio, è possibile usare sia il rilevamento delle modifiche che change data capture (CDC) con SQL Server. Al contrario, il connettore Salesforce seleziona una colonna di cursore da un elenco di opzioni impostato.
Alcune origini o tabelle specifiche non supportano attualmente l'inserimento incrementale. Databricks prevede di espandere la copertura per il supporto incrementale.
Rete
Sono disponibili diverse opzioni per la connessione a un'applicazione o a un database SaaS.
- I connettori per le applicazioni SaaS raggiungono le API di origine. Sono anche automaticamente compatibili con i controlli in uscita serverless.
- I connettori per i database cloud possono connettersi all'origine tramite collegamento privato. In alternativa, se l'area di lavoro ha un Rete virtuale (VNet) o un Virtual Private Cloud (VPC) che effettua il peering con la rete virtuale o il VPC che ospita il database, è possibile distribuire il gateway all'interno di esso.
- I connettori per i database locali possono connettersi usando servizi come AWS Direct Connect e Azure ExpressRoute.
Distribuzione
È possibile distribuire pipeline di inserimento usando bundle di automazione dichiarativa, che consentono procedure consigliate come il controllo del codice sorgente, la revisione del codice, il test e l'integrazione e il recapito continui (CI/CD). I bundle vengono gestiti tramite l'interfaccia della riga di comando di Databricks e possono essere eseguiti in aree di lavoro di destinazione diverse, ad esempio sviluppo, gestione temporanea e produzione.
Ripristino da errore
Come servizio completamente gestito, Lakeflow Connect mira a ripristinare automaticamente i problemi quando possibile. Ad esempio, quando un connettore ha esito negativo, viene eseguito automaticamente un nuovo tentativo con backoff esponenziale.
Tuttavia, è possibile che un errore richieda l'intervento dell'utente, ad esempio quando le credenziali scadono. In questi casi, il connettore tenta di evitare dati mancanti archiviando l'ultima posizione del cursore. Può quindi riprendere da quella posizione alla prossima esecuzione della pipeline, quando possibile.
Monitoraggio
Lakeflow Connect offre avvisi e monitoraggio affidabili per gestire le pipeline. Sono inclusi i log eventi, i log del cluster, le metriche di integrità della pipeline e le metriche di qualità dei dati. È anche possibile usare la system.billing.usage tabella per tenere traccia dei costi e monitorare l'utilizzo della pipeline. Vedere Monitorare il costo della pipeline di inserimento gestito.
Per i connettori di database, è possibile monitorare lo stato del gateway in tempo reale usando i log eventi. Consulta Monitorare lo stato del gateway di inserimento con i log degli eventi.
Dipendenza da servizi esterni
Databricks SaaS, database e altri connettori completamente gestiti dipendono dall'accessibilità, dalla compatibilità e dalla stabilità dell'applicazione, del database o del servizio esterno a cui si connettono. Databricks non controlla questi servizi esterni e, pertanto, ha un'influenza limitata (se disponibile) sulle modifiche, sugli aggiornamenti e sulla manutenzione.
Se le modifiche, le interruzioni o le circostanze correlate a un servizio esterno impediscono o rendono poco pratico il funzionamento di un connettore, Databricks può interrompere o interrompere la manutenzione di tale connettore. Databricks farà sforzi ragionevoli per notificare ai clienti la sospensione o la cessazione della manutenzione, inclusi gli aggiornamenti alla documentazione applicabile.