Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Delta Lake is de geoptimaliseerde opslaglaag die de basis vormt voor tabellen in een lakehouse op Databricks. Delta Lake is opensource-software die Parquet-gegevensbestanden uitbreidt met een transactielogboek op basis van bestanden voor ACID-transacties en schaalbare verwerking van metagegevens. Delta Lake is volledig compatibel met Apache Spark-API's en is ontwikkeld voor een nauwe integratie met Structured Streaming, zodat u eenvoudig één kopie van gegevens kunt gebruiken voor zowel batch- als streamingbewerkingen en incrementele verwerking op schaal biedt.
Delta Lake is de standaardindeling voor alle bewerkingen in Azure Databricks. Tenzij anders opgegeven, zijn alle tabellen op Azure Databricks Delta Lake-tabellen. Databricks heeft oorspronkelijk het Delta Lake-protocol ontwikkeld en blijft actief bijdragen aan het opensource-project. Veel van de optimalisaties en producten in het Databricks-platform bouwen voort op de garanties van Apache Spark en Delta Lake. Zie De aanbevelingen voor optimalisatie in Azure Databricks voor meer informatie over optimalisaties in Azure Databricks.
Zie Delta Lake-instructies voor naslaginformatie over Delta Lake SQL-opdrachten.
Het Delta Lake-transactielogboek heeft een goed gedefinieerd open protocol dat door elk systeem kan worden gebruikt om het logboek te lezen. Zie Delta Transaction Log Protocol.
Aan de slag met Delta Lake
Alle tabellen op Azure Databricks zijn standaard Delta Lake-tabellen. Of u nu Apache Spark DataFrames of SQL gebruikt, u krijgt alle voordelen van Delta Lake door uw gegevens op te slaan in lakehouse met standaardinstellingen.
Zie Zelfstudie: Delta Lake-tabellen maken en beheren voor voorbeelden van eenvoudige Delta Lake-bewerkingen, zoals het maken van tabellen, het lezen, schrijven en bijwerken van gegevens.
Zie Best practices: Delta Lake voor aanbevelingen en best practices voor Databricks over het gebruik van Delta Lake.
Gegevens converteren en opnemen naar Delta Lake
Azure Databricks heeft veel functies om het laden van gegevens naar uw lakehouse te versnellen en te vereenvoudigen.
| Method | Description |
|---|---|
| Zelfstudie: Een ETL-pijplijn bouwen met Lakeflow Spark-declaratieve pijplijnen | Bouw een end-to-end ETL-pijplijn met behulp van Lakeflow Spark-declaratieve pijplijnen. |
| Incrementele opname vanuit Azure Data Lake Storage instellen | Stel incrementele gegevensinname vanuit cloudopslag in met Auto Loader en Lakeflow Spark Declarative Pipelines. |
| Streamingtabellen | Gebruik streamingtabellen voor append-only-gegevensinname en streaming met lage latentie in Lakeflow Spark Declarative Pipelines. |
| Aan de slag met COPY INTO om gegevens te laden | Gegevens incrementeel en idempotent laden vanuit cloudopslag met behulp van SQL. |
| Wat is Auto Loader? | Bestanden uit cloudopslag incrementeel opnemen wanneer ze binnenkomen. |
| een tabel maken of wijzigen met behulp van het uploaden van bestanden | Bestanden uploaden en tabellen maken vanuit de gebruikersinterface van Azure Databricks. |
| Parquet- en Apache Iceberg-tabellen incrementeel naar Delta Lake klonen | Kloon Parquet- of Apache Iceberg-tabellen incrementeel naar Delta Lake. |
| Converteren naar Delta Lake | Eenmalige conversie van Parquet- of Apache Iceberg-tabellen naar Delta Lake. |
| Technologiepartners | Verbind externe partners en hulpprogramma's met uw Azure Databricks lakehouse. |
Raadpleeg Standaardconnectoren in Lakeflow Connect voor de volledige lijst met opties voor gegevensinvoer.
Delta Lake-tabellen bijwerken en wijzigen
Met Atomische transacties met Delta Lake kunt u veel opties gebruiken voor het bijwerken van gegevens en metagegevens. Om te voorkomen dat uw tabellen beschadigd raken, raadt Databricks u aan om te voorkomen dat u rechtstreeks communiceert met gegevens- en transactielogboekbestanden in Delta Lake-bestandsmappen.
| Operation | Description |
|---|---|
| Upsert in een Delta Lake-tabel met merge | Voeg gegevens in een Delta Lake-tabel in of werk ze bij met behulp van de mergebewerking. |
| Gegevens selectief overschrijven met Delta Lake | Overschrijf subsets van gegevens op basis van filters en partities. |
| Tabelschema's bijwerken met schemaontwikkeling | Uw tabelschema handmatig of automatisch bijwerken zonder gegevens te herschrijven. |
| Kolommen hernoemen en verwijderen met Delta Lake-kolomtoewijzing | De naam van kolommen wijzigen of verwijderen zonder gegevens te herschrijven. |
Incrementele en streaming workloads op Delta Lake
Delta Lake is geoptimaliseerd voor gestructureerd streamen in Azure Databricks. Declaratieve pijplijnen van Lakeflow Spark breidt ingebouwde mogelijkheden uit met vereenvoudigde infrastructuurimplementatie, verbeterde schaalaanpassing en afhankelijkheden van beheerde gegevens.
| Feature | Description |
|---|---|
| Lees- en schrijfbewerkingen voor Delta Lake-tabellen | Delta Lake-tabellen gebruiken als bronnen en sinks voor Structured Streaming met readStream en writeStream. |
| Wijzigingenfeed gebruiken voor Azure Databricks | Wijzigingen op rijniveau bijhouden tussen versies van een Delta Lake of Apache Iceberg v3-tabel. |
Query's uitvoeren op eerdere versies van een tabel
Elke schrijfbewerking naar een Delta Lake-tabel maakt een nieuwe tabelversie. U kunt het transactielogboek gebruiken om wijzigingen in uw tabel te controleren en eerdere tabelversies op te vragen. Zie Werken met tabelgeschiedenis.
Verbeteringen in Delta Lake-schema
Delta Lake valideert het schema voor schrijven, zodat alle gegevens die naar een tabel zijn geschreven, overeenkomen met de vereisten die u hebt ingesteld.
| Feature | Description |
|---|---|
| schema afdwingen | Valideer de gegevenskwaliteit door het schema af te dwingen bij schrijven. |
| Beperkingen voor Azure Databricks | Pas afgedwongen integriteitsbeperkingen en informatieve beperkingen voor primaire sleutels, vreemde sleutels en uniciteit toe. |
| door Delta Lake gegenereerde kolommen | Automatisch kolomwaarden genereren met behulp van door de gebruiker opgegeven functies. |
| Tabellen verrijken met aangepaste metagegevens | Voeg opmerkingen en aangepaste metagegevens toe aan tabellen en kolommen om gegevensdetectie te verrijken. |
Bestanden beheren en gegevens indexeren met Delta Lake
Azure Databricks stelt veel standaardparameters in voor Delta Lake die van invloed zijn op de grootte van gegevensbestanden en het aantal tabelversies dat in de geschiedenis wordt bewaard. Delta Lake maakt gebruik van een combinatie van metagegevensparsering en fysieke gegevensindeling om het aantal gescande bestanden te verminderen om te voldoen aan een query.
| Feature | Description |
|---|---|
| Liquid clustering gebruiken voor tabellen | Vereenvoudig de gegevensindeling en optimaliseer queryprestaties zonder partitionering met behulp van liquide clustering. |
| Gegevens overslaan | Sla irrelevante bestanden tijdens querytijd over met kolomstatistieken, Z-volgorde en geoptimaliseerde gegevensindeling. |
| Indeling van gegevensbestand optimaliseren | Compacte kleine gegevensbestanden om de queryprestaties te verbeteren. |
| ongebruikte gegevensbestanden verwijderen met vacuüm | Verouderde gegevensbestanden verwijderen om de opslagkosten te verlagen. |
| Automatisch verwijderen van rijen met automatische time-to-live | Rijen automatisch verwijderen uit beheerde tabellen na een configureerbare periode. |
| Grootte van gegevensbestand beheren | Beheer de grootte van het doelbestand handmatig of schakel het automatisch afstemmen van de bestandsgrootte in. |
Delta Lake-instellingen configureren en controleren
Azure Databricks slaat alle gegevens en metagegevens voor Delta Lake-tabellen op in de opslag van cloudobjecten. Veel configuraties kunnen worden ingesteld op tabelniveau of in de Spark-sessie. U kunt de details van de Delta Lake-tabel bekijken om te ontdekken welke opties zijn geconfigureerd.
| Feature | Description |
|---|---|
| Tabeldetails bekijken met een beschrijving | Tabelconfiguraties en metagegevens weergeven met behulp van de DESCRIBE DETAIL opdracht. |
| Naslaginformatie over tabeleigenschappen | Referentielijst met tabeleigenschappen die beschikbaar zijn voor Delta Lake-tabellen. |
Gegevenspijplijnen met Delta Lake en Lakeflow Spark declaratieve pijplijnen
Azure Databricks moedigt gebruikers aan om gebruik te maken van een medaillestructuur om gegevens te verwerken via een reeks tabellen wanneer gegevens worden opgeschoond en verrijkt. Lakeflow Spark-declaratieve pijplijnen vereenvoudigt ETL-workloads door geoptimaliseerde uitvoering en geautomatiseerde infrastructuurimplementatie en -schaalaanpassing.
Compatibiliteit van Delta Lake-functies
Niet alle Delta Lake-functies bevinden zich in alle versies van Databricks Runtime. Zie de compatibiliteit en protocollen van Delta Lake-functies voor meer informatie over Delta Lake-versiebeheer.
Documentatie voor Delta Lake API
Voor de meeste lees- en schrijfbewerkingen in Delta Lake-tabellen kunt u Spark SQL - of Apache Spark DataFrame-API's gebruiken.
Zie Delta Lake-instructies voor Delta Lake-specifieke SQL-instructies.
Azure Databricks zorgt voor binaire compatibiliteit met Delta Lake-API's in Databricks Runtime. Als u de Delta Lake API-versie wilt bekijken die in elke Databricks Runtime-versie is verpakt, raadpleegt u de sectie Systeemomgeving in het relevante artikel in de releaseopmerkingen van Databricks Runtime. Zie de OSS Delta Lake-documentatie voor documentatie over Delta Lake-API's voor Python, Scala en Java.