Wat is Delta Lake in Azure Databricks?

Delta Lake is de geoptimaliseerde opslaglaag die de basis vormt voor tabellen in een lakehouse op Databricks. Delta Lake is opensource-software die Parquet-gegevensbestanden uitbreidt met een transactielogboek op basis van bestanden voor ACID-transacties en schaalbare verwerking van metagegevens. Delta Lake is volledig compatibel met Apache Spark-API's en is ontwikkeld voor een nauwe integratie met Structured Streaming, zodat u eenvoudig één kopie van gegevens kunt gebruiken voor zowel batch- als streamingbewerkingen en incrementele verwerking op schaal biedt.

Delta Lake is de standaardindeling voor alle bewerkingen in Azure Databricks. Tenzij anders opgegeven, zijn alle tabellen op Azure Databricks Delta Lake-tabellen. Databricks heeft oorspronkelijk het Delta Lake-protocol ontwikkeld en blijft actief bijdragen aan het opensource-project. Veel van de optimalisaties en producten in het Databricks-platform bouwen voort op de garanties van Apache Spark en Delta Lake. Zie De aanbevelingen voor optimalisatie in Azure Databricks voor meer informatie over optimalisaties in Azure Databricks.

Zie Delta Lake-instructies voor naslaginformatie over Delta Lake SQL-opdrachten.

Het Delta Lake-transactielogboek heeft een goed gedefinieerd open protocol dat door elk systeem kan worden gebruikt om het logboek te lezen. Zie Delta Transaction Log Protocol.

Aan de slag met Delta Lake

Alle tabellen op Azure Databricks zijn standaard Delta Lake-tabellen. Of u nu Apache Spark DataFrames of SQL gebruikt, u krijgt alle voordelen van Delta Lake door uw gegevens op te slaan in lakehouse met standaardinstellingen.

Zie Zelfstudie: Delta Lake-tabellen maken en beheren voor voorbeelden van eenvoudige Delta Lake-bewerkingen, zoals het maken van tabellen, het lezen, schrijven en bijwerken van gegevens.

Zie Best practices: Delta Lake voor aanbevelingen en best practices voor Databricks over het gebruik van Delta Lake.

Gegevens converteren en opnemen naar Delta Lake

Azure Databricks heeft veel functies om het laden van gegevens naar uw lakehouse te versnellen en te vereenvoudigen.

Method	Description
Zelfstudie: Een ETL-pijplijn bouwen met Lakeflow Spark-declaratieve pijplijnen	Bouw een end-to-end ETL-pijplijn met behulp van Lakeflow Spark-declaratieve pijplijnen.
Incrementele opname vanuit Azure Data Lake Storage instellen	Stel incrementele gegevensinname vanuit cloudopslag in met Auto Loader en Lakeflow Spark Declarative Pipelines.
Streamingtabellen	Gebruik streamingtabellen voor append-only-gegevensinname en streaming met lage latentie in Lakeflow Spark Declarative Pipelines.
Aan de slag met COPY INTO om gegevens te laden	Gegevens incrementeel en idempotent laden vanuit cloudopslag met behulp van SQL.
Wat is Auto Loader?	Bestanden uit cloudopslag incrementeel opnemen wanneer ze binnenkomen.
een tabel maken of wijzigen met behulp van het uploaden van bestanden	Bestanden uploaden en tabellen maken vanuit de gebruikersinterface van Azure Databricks.
Parquet- en Apache Iceberg-tabellen incrementeel naar Delta Lake klonen	Kloon Parquet- of Apache Iceberg-tabellen incrementeel naar Delta Lake.
Converteren naar Delta Lake	Eenmalige conversie van Parquet- of Apache Iceberg-tabellen naar Delta Lake.
Technologiepartners	Verbind externe partners en hulpprogramma's met uw Azure Databricks lakehouse.

Raadpleeg Standaardconnectoren in Lakeflow Connect voor de volledige lijst met opties voor gegevensinvoer.

Delta Lake-tabellen bijwerken en wijzigen

Met Atomische transacties met Delta Lake kunt u veel opties gebruiken voor het bijwerken van gegevens en metagegevens. Om te voorkomen dat uw tabellen beschadigd raken, raadt Databricks u aan om te voorkomen dat u rechtstreeks communiceert met gegevens- en transactielogboekbestanden in Delta Lake-bestandsmappen.

Operation	Description
Upsert in een Delta Lake-tabel met merge	Voeg gegevens in een Delta Lake-tabel in of werk ze bij met behulp van de mergebewerking.
Gegevens selectief overschrijven met Delta Lake	Overschrijf subsets van gegevens op basis van filters en partities.
Tabelschema's bijwerken met schemaontwikkeling	Uw tabelschema handmatig of automatisch bijwerken zonder gegevens te herschrijven.
Kolommen hernoemen en verwijderen met Delta Lake-kolomtoewijzing	De naam van kolommen wijzigen of verwijderen zonder gegevens te herschrijven.

Incrementele en streaming workloads op Delta Lake

Delta Lake is geoptimaliseerd voor gestructureerd streamen in Azure Databricks. Declaratieve pijplijnen van Lakeflow Spark breidt ingebouwde mogelijkheden uit met vereenvoudigde infrastructuurimplementatie, verbeterde schaalaanpassing en afhankelijkheden van beheerde gegevens.

Feature	Description
Lees- en schrijfbewerkingen voor Delta Lake-tabellen	Delta Lake-tabellen gebruiken als bronnen en sinks voor Structured Streaming met `readStream` en `writeStream`.
Wijzigingenfeed gebruiken voor Azure Databricks	Wijzigingen op rijniveau bijhouden tussen versies van een Delta Lake of Apache Iceberg v3-tabel.

Query's uitvoeren op eerdere versies van een tabel

Elke schrijfbewerking naar een Delta Lake-tabel maakt een nieuwe tabelversie. U kunt het transactielogboek gebruiken om wijzigingen in uw tabel te controleren en eerdere tabelversies op te vragen. Zie Werken met tabelgeschiedenis.

Verbeteringen in Delta Lake-schema

Delta Lake valideert het schema voor schrijven, zodat alle gegevens die naar een tabel zijn geschreven, overeenkomen met de vereisten die u hebt ingesteld.

Feature	Description
schema afdwingen	Valideer de gegevenskwaliteit door het schema af te dwingen bij schrijven.
Beperkingen voor Azure Databricks	Pas afgedwongen integriteitsbeperkingen en informatieve beperkingen voor primaire sleutels, vreemde sleutels en uniciteit toe.
door Delta Lake gegenereerde kolommen	Automatisch kolomwaarden genereren met behulp van door de gebruiker opgegeven functies.
Tabellen verrijken met aangepaste metagegevens	Voeg opmerkingen en aangepaste metagegevens toe aan tabellen en kolommen om gegevensdetectie te verrijken.

Bestanden beheren en gegevens indexeren met Delta Lake

Azure Databricks stelt veel standaardparameters in voor Delta Lake die van invloed zijn op de grootte van gegevensbestanden en het aantal tabelversies dat in de geschiedenis wordt bewaard. Delta Lake maakt gebruik van een combinatie van metagegevensparsering en fysieke gegevensindeling om het aantal gescande bestanden te verminderen om te voldoen aan een query.

Feature	Description
Liquid clustering gebruiken voor tabellen	Vereenvoudig de gegevensindeling en optimaliseer queryprestaties zonder partitionering met behulp van liquide clustering.
Gegevens overslaan	Sla irrelevante bestanden tijdens querytijd over met kolomstatistieken, Z-volgorde en geoptimaliseerde gegevensindeling.
Indeling van gegevensbestand optimaliseren	Compacte kleine gegevensbestanden om de queryprestaties te verbeteren.
ongebruikte gegevensbestanden verwijderen met vacuüm	Verouderde gegevensbestanden verwijderen om de opslagkosten te verlagen.
Automatisch verwijderen van rijen met automatische time-to-live	Rijen automatisch verwijderen uit beheerde tabellen na een configureerbare periode.
Grootte van gegevensbestand beheren	Beheer de grootte van het doelbestand handmatig of schakel het automatisch afstemmen van de bestandsgrootte in.

Delta Lake-instellingen configureren en controleren

Azure Databricks slaat alle gegevens en metagegevens voor Delta Lake-tabellen op in de opslag van cloudobjecten. Veel configuraties kunnen worden ingesteld op tabelniveau of in de Spark-sessie. U kunt de details van de Delta Lake-tabel bekijken om te ontdekken welke opties zijn geconfigureerd.

Feature	Description
Tabeldetails bekijken met een beschrijving	Tabelconfiguraties en metagegevens weergeven met behulp van de `DESCRIBE DETAIL` opdracht.
Naslaginformatie over tabeleigenschappen	Referentielijst met tabeleigenschappen die beschikbaar zijn voor Delta Lake-tabellen.

Gegevenspijplijnen met Delta Lake en Lakeflow Spark declaratieve pijplijnen

Azure Databricks moedigt gebruikers aan om gebruik te maken van een medaillestructuur om gegevens te verwerken via een reeks tabellen wanneer gegevens worden opgeschoond en verrijkt. Lakeflow Spark-declaratieve pijplijnen vereenvoudigt ETL-workloads door geoptimaliseerde uitvoering en geautomatiseerde infrastructuurimplementatie en -schaalaanpassing.

Compatibiliteit van Delta Lake-functies

Niet alle Delta Lake-functies bevinden zich in alle versies van Databricks Runtime. Zie de compatibiliteit en protocollen van Delta Lake-functies voor meer informatie over Delta Lake-versiebeheer.

Documentatie voor Delta Lake API

Voor de meeste lees- en schrijfbewerkingen in Delta Lake-tabellen kunt u Spark SQL - of Apache Spark DataFrame-API's gebruiken.

Zie Delta Lake-instructies voor Delta Lake-specifieke SQL-instructies.

Azure Databricks zorgt voor binaire compatibiliteit met Delta Lake-API's in Databricks Runtime. Als u de Delta Lake API-versie wilt bekijken die in elke Databricks Runtime-versie is verpakt, raadpleegt u de sectie Systeemomgeving in het relevante artikel in de releaseopmerkingen van Databricks Runtime. Zie de OSS Delta Lake-documentatie voor documentatie over Delta Lake-API's voor Python, Scala en Java.

Feedback

Is deze pagina nuttig?

Last updated on 2026-06-24