Condividi tramite


Tabelle Lakehouse e Delta Lake

Microsoft Fabric Lakehouse usa Delta Lake come formato di tabella predefinito per dati affidabili e ad alte prestazioni storage ed elaborazione. Anche se sono supportati altri formati, Delta Lake offre la migliore integrazione tra i servizi di Fabric.

Che cosa sono le tabelle Delta Lake?

Quando si archiviano dati in un Microsoft Fabric Lakehouse, i dati vengono archiviati come Delta Lake per impostazione predefinita. Delta Lake aggiunge funzionalità che migliorano sia le prestazioni che l'affidabilità:

  • Prestazioni migliori: query ed elaborazione dei dati più veloci.
  • Affidabilità dei dati: controlli di coerenza e integrità transazionali.
  • Flessibilità: funziona con dati strutturati (ad esempio tabelle) e dati semistrutturati (ad esempio JSON).

Perché è importante?

Delta Lake è il formato di tabella standard per tutti i dati in Fabric Lakehouse. Ciò significa:

  • Coerenza: tutti i dati usano lo stesso formato di tabella.
  • Compatibility: i dati funzionano tra strumenti di Fabric come Power BI, notebook e pipeline.
  • Nessuna configurazione aggiuntiva: quando si caricano dati in tabelle o si usano altri metodi di caricamento dei dati, il formato Delta viene applicato automaticamente.

Fabric gestisce la formattazione Delta dietro le quinte, in modo da potersi concentrare sulla modellazione e l'analisi.

Formati di dati e motore Apache Spark

Fabric Lakehouse è basato su Apache Spark Runtime, che condivide le basi con Azure Synapse Analytics Runtime per Apache Spark. Fabric applica anche impostazioni predefinite e ottimizzazioni diverse per migliori prestazioni complessive nei carichi di lavoro su Fabric.

Formati di dati supportati:

  • Delta Lake: formato preferito con ottimizzazione automatica.
  • CSV: dati di testo delimitati.
  • JSON: applicazione semistrutturata e dati Web.
  • Parquet: file a struttura colonnare compressi.
  • Altri formati: AVRO e formati di tabella Hive legacy.

Vantaggi principali delle impostazioni predefinite di Fabric Spark:

  • Ottimizzato per impostazione predefinita: le funzionalità delle prestazioni vengono abilitate automaticamente per una migliore velocità
  • Formati multipli supportati: è possibile leggere da file esistenti in vari formati
  • Conversione automatica: quando si caricano dati in tabelle, viene ottimizzato automaticamente usando il formato Delta Lake

Annotazioni

Sebbene sia possibile usare formati di file diversi, le tabelle visualizzate in Lakehouse Explorer sono tabelle Delta Lake ottimizzate per ottenere prestazioni e affidabilità ottimali.

Differenze rispetto a Azure Synapse Analytics

Se si esegue la migrazione da Azure Synapse Analytics, ecco le principali differenze di configurazione nel runtime di Apache Spark di Fabric:

Per un confronto più ampio tra pool di Spark, configurazioni, librerie, notebook e definizioni di processi Spark, vedere Compare Fabric Data Engineering e Azure Synapse Spark.

Configurazione di Apache Spark valore Microsoft Fabric valore di Azure Synapse Analytics Note
spark.sql.sources.default delta parquet Formato tabella predefinito
spark.sql.parquet.vorder.default vero N/D Scrittore di V-Order
spark.sql.parquet.vorder.dictionaryPageSize 2GB N/D Limite delle dimensioni della pagina del dizionario per V-Order
spark.databricks.delta.optimizeWrite.enabled vero non impostato (false) Ottimizzare la Scrittura

Queste ottimizzazioni sono progettate per offrire prestazioni migliori pronte all'uso in Fabric. Gli utenti avanzati possono modificare queste configurazioni, se necessario per scenari specifici.

Come Fabric trova automaticamente le tabelle

Quando si apre Lakehouse, Fabric analizza automaticamente i dati e visualizza tutte le tabelle trovate nella sezione Tabelle dello strumento di esplorazione. Ciò significa:

  • Nessuna configurazione manuale necessaria - Fabric individua automaticamente le tabelle esistenti
  • Visualizzazione organizzata - Le tabelle vengono visualizzate in una struttura ad albero per semplificare la navigazione
  • Funziona con i tasti di scelta rapida : anche le tabelle collegate da altre posizioni vengono individuate automaticamente

Questa individuazione automatica semplifica la visualizzazione immediata di tutti i dati disponibili.

Usare scorciatoie con tabelle e file

I collegamenti a OneLake possono puntare a tabelle Delta o percorsi di file e cartelle, in modo da poter fare riferimento a dati esterni senza spostarli. La tabella seguente riepiloga i modelli consigliati in base al tipo di dati di destinazione.

Tipo di dati nella destinazione del collegamento Dove creare il collegamento Procedura consigliata
Tabella Delta Lake Sezione Tables Se nella destinazione esistono più tabelle, creare un collegamento per tabella.
Cartelle con file Sezione Files Usare Apache Spark con percorsi relativi per leggere direttamente dalla destinazione del collegamento. Carica nelle tabelle Delta native di Lakehouse per ottenere la massima performance.
Tabelle legacy di Apache Hive Sezione Files Usare Apache Spark con percorsi relativi o creare un riferimento al catalogo dei metadati usando CREATE EXTERNAL TABLE. Carica nelle tabelle Delta native di Lakehouse per ottenere la massima performance.

Carica nelle tabelle

Microsoft Fabric Lakehouse offre un'esperienza visiva per caricare i formati di file comuni nelle tabelle Delta. Per ulteriori informazioni, consultare Caricamento delle tabelle Delta Lake.

Assicurare che le tabelle siano rapide ed efficienti

Fabric ottimizza automaticamente le tabelle Delta Lake per ottenere prestazioni migliori, ma a volte può essere necessario un controllo aggiuntivo:

Operazioni automatiche di Fabric:

  • Combina file di piccole dimensioni in file più grandi ed efficienti
  • Ottimizza il layout dei dati per query più veloci
  • Gestisce storage per ridurre i costi

Quando potrebbe essere necessaria l'ottimizzazione manuale:

  • Set di dati molto grandi con requisiti di prestazioni specifici
  • Esigenze dell'organizzazione dei dati personalizzati
  • Scenari di analisi avanzata

Per indicazioni dettagliate sull'ottimizzazione delle tabelle, vedere Ottimizzazione tabella Delta Lake e V-Order.