Incrementeel laden van gegevens van een brongegevensarchief naar een doelgegevensarchief

VAN TOEPASSING OP: Azure Data Factory Azure Synapse Analytics

Tip

Op zoek naar een eenvoudige manier om gegevens te verplaatsen? Een kopieertaak in Microsoft Fabric biedt een eenvoudige, schaalbare manier om gegevens te laden zonder een pijplijn te bouwen. Leer hoe u er een maakt.

In een oplossing voor gegevensintegratie is incrementeel (of delta) laden van gegevens na een eerste volledige laadhandeling een veelgebruikt scenario. De zelfstudies in deze sectie tonen u de verschillende manieren van het incrementeel laden van gegevens met behulp van Azure Data Factory.

Delta-gegevens laden uit de database met behulp van een watermerk

In dit geval definieert u een watermerk in de brondatabase. Een watermerk is een kolom die het laatst bijgewerkte tijdstempel of een ophogende sleutel heeft. De delta-laadoplossing laadt de gewijzigde gegevens tussen een oud watermerk en een nieuw watermerk. De werkstroom voor deze benadering wordt verduidelijkt in het volgende diagram:

Werkstroom voor het gebruik van een watermerk

Zie de volgende handleidingen voor stapsgewijze instructies:

Zie voor sjablonen het volgende:

Delta-gegevens laden uit SQL DB met behulp van de Change Tracking-technologie

Technologie voor het bijhouden van wijzigingen is een lichtgewicht oplossing in SQL Server en Azure SQL Database waarmee een efficiënt mechanisme wordt geboden voor het bijhouden van wijzigingen in toepassingen. Hiermee kan een toepassing eenvoudig gegevens herkennen die zijn toegevoegd, bijgewerkt of verwijderd.

De werkstroom voor deze benadering wordt verduidelijkt in het volgende diagram:

Werkstroom voor het gebruik van Wijzigingen bijhouden

Zie de volgende zelfstudie voor stapsgewijze instructies:

Alleen nieuwe en gewijzigde bestanden laden met behulp van LastModifiedDate

U kunt de nieuwe en gewijzigde bestanden alleen kopiëren met behulp van LastModifiedDate naar het doelarchief. ADF scant alle bestanden in de bronopslag, past het bestandsfilter toe op hun LastModifiedDate en kopieert alleen de nieuwe en bijgewerkte bestanden sinds de laatste keer naar de doelopslag. Als u ADF enorme hoeveelheden bestanden laat scannen, maar u slechts een paar bestanden naar de bestemming kopieert, duurt dit nog steeds lang vanwege het scanproces van bestanden.

Zie de volgende zelfstudie voor stapsgewijze instructies:

Zie voor sjablonen het volgende:

Nieuwe bestanden alleen laden met behulp van tijdpartitioneerde map of bestandsnaam

U kunt alleen nieuwe bestanden kopiëren als bestanden of mappen al op basis van tijd zijn gepartitioneerd met tijdsdeelinformatie die onderdeel is van de bestands- of mapnaam (bijvoorbeeld /yyyy/mm/dd/file.csv). Dit is de meest krachtige benadering voor het incrementeel laden van nieuwe bestanden.

Zie de volgende zelfstudie voor stapsgewijze instructies:

Ga verder met de volgende tutorial: