Gegevensprofilering

In dit artikel wordt gegevensprofilering beschreven. Het geeft een overzicht van de onderdelen en het gebruik van gegevensprofilering.

Gegevensprofilering biedt samenvattingsstatistieken voor een tabel en berekent profileringsstatistieken in de loop van de tijd, zodat u eenvoudig historische trends kunt bekijken. Het is handig voor uitgebreide bewaking van alle belangrijke metrische gegevens voor bepaalde tabellen. U kunt het ook gebruiken om de prestaties van machine learning-modellen en modelverdienende eindpunten bij te houden door deductietabellen te profileren die modelinvoer en voorspellingen bevatten. In het diagram ziet u de gegevensstroom via gegevens- en ML-pijplijnen in Databricks en hoe u profilering kunt gebruiken om continu gegevenskwaliteit en modelprestaties bij te houden.

Overzicht van gegevensprofilering

Waarom gegevensprofilering gebruiken?

Kwantitatieve metrische gegevens helpen u bij het bijhouden en bevestigen van de kwaliteit en consistentie van uw gegevens in de loop van de tijd. Wanneer u wijzigingen in de gegevensdistributie van uw tabel of de prestaties van het bijbehorende model detecteert, kunnen de tabellen die zijn gemaakt door gegevensprofilering, u vastleggen en waarschuwen voor de wijziging en kunt u de oorzaak identificeren.

Met gegevensprofilering kunt u vragen als volgt beantwoorden:

Hoe ziet gegevensintegriteit eruit en hoe verandert deze in de loop van de tijd? Wat is bijvoorbeeld het deel van null- of nulwaarden in de huidige gegevens en is deze toegenomen?
Hoe ziet de statistische verdeling van de gegevens eruit en hoe verandert deze in de loop van de tijd? Wat is bijvoorbeeld het 90e percentiel van een numerieke kolom? Of, wat is de verdeling van waarden in een categorische kolom en hoe verschilt deze van gisteren?
Is er sprake van afwijking tussen de huidige gegevens en een bekende basislijn, of tussen opeenvolgende tijdvensters van de gegevens?
Hoe ziet de statistische verdeling of afwijking van een subset of segment van de gegevens eruit?
Hoe veranderen de invoer en voorspellingen van ML-modellen in de loop van de tijd?
Hoe ontwikkelen de modelprestaties zich met de tijd? Presteert modelversie A beter dan versie B?

Daarnaast kunt u met gegevensprofilering de tijdgranulariteit van waarnemingen beheren en aangepaste metrische gegevens instellen.

Requirements

Uw werkruimte moet zijn ingeschakeld voor Unity Catalog en u moet toegang hebben tot Databricks SQL.
Als u gegevensprofilering wilt inschakelen, moet u over de volgende bevoegdheden beschikken:
- USE CATALOG in de catalogus en USE SCHEMA in het schema met de tabel.
- SELECT op de tafel.
- MANAGE in de catalogus, het schema of de tabel.

Opmerking

Gegevensprofilering maakt gebruik van serverloze berekeningen voor taken, maar vereist niet dat uw account is ingeschakeld voor serverloze berekening. Voor informatie over het bijhouden van uitgaven, zie Bekijk uitgaven voor gegevenskwaliteitsbewaking.

Hoe gegevensprofilering werkt

Als u een tabel wilt profileeren, maakt u een profiel dat is gekoppeld aan de tabel. Als u de prestaties van een machine learning-model wilt profileeren, koppelt u het profiel aan een deductietabel die de invoer en bijbehorende voorspellingen van het model bevat.

Gegevensprofilering biedt de volgende typen analyse: tijdreeks, deductie en momentopname.

Profieltype	Beschrijving
Tijdreeks	Gebruiken voor tabellen die een tijdreeksgegevensset bevatten op basis van een tijdstempelkolom. Profilering berekent metrische gegevenskwaliteit in tijdvensters van de tijdreeks.
Conclusie	Gebruiken voor tabellen die het aanvraaglogboek voor een model bevatten. Elke rij is een verzoek, met kolommen voor de tijdstempel, de modelinvoer, de bijbehorende voorspelling en (optioneel) grondwaarheidslabel. Profilering vergelijkt metrische gegevens over modelprestaties en gegevenskwaliteit in tijdgebaseerde vensters van het aanvraaglogboek.
Momentopname	Gebruiken voor alle andere typen tabellen. Profilering berekent metrische gegevenskwaliteit voor alle gegevens in de tabel. De volledige tabel wordt bij elke vernieuwing verwerkt. De maximale tabelgrootte voor een momentopnameprofiel is 4 TB. Gebruik in plaats daarvan tijdreeksprofielen voor grotere tabellen.

In deze sectie worden kort de invoertabellen beschreven die worden gebruikt door gegevensprofilering en de metrische tabellen die worden geproduceerd. Het diagram toont de relatie tussen de invoertabellen, de metrische tabellen, het profiel en het dashboard.

Diagram voor gegevensprofilering

primaire tabel en basislijntabel

Naast de tabel die moet worden geprofileerd, de 'primaire tabel' genoemd, kunt u desgewenst een basislijntabel opgeven die moet worden gebruikt als verwijzing voor het meten van afwijkingen of de wijziging in waarden in de loop van de tijd. Een basislijntabel is handig wanneer u een voorbeeld hebt van hoe uw gegevens eruit moeten zien. Het idee is dat drift vervolgens wordt berekend ten opzichte van verwachte gegevenswaarden en distributies.

De basislijntabel moet een gegevensset bevatten die de verwachte kwaliteit van de invoergegevens weerspiegelt, wat betreft statistische distributies, afzonderlijke kolomdistributies, ontbrekende waarden en andere kenmerken. Deze moet overeenkomen met het schema van de geprofileerde tabel. De uitzondering is de tijdstempelkolom voor tabellen die worden gebruikt met tijdreeks- of deductieprofielen. Als er kolommen ontbreken in de primaire tabel of de basislijntabel, gebruikt profilering heuristiek voor best effort om de metrische uitvoergegevens te berekenen.

Voor profielen die een momentopnameprofiel gebruiken, moet de basislijntabel een momentopname bevatten van de gegevens waarin de distributie een acceptabele kwaliteitsstandaard vertegenwoordigt. Bij cijferdistributiegegevens kan bijvoorbeeld de basislijn worden ingesteld op een eerdere klasse waarin cijfers gelijkmatig zijn verdeeld.

Voor profielen die een tijdreeksprofiel gebruiken, moet de basislijntabel gegevens bevatten die tijdvensters vertegenwoordigen waarin gegevensdistributies een acceptabele kwaliteitsstandaard vertegenwoordigen. Bij weergegevens kunt u bijvoorbeeld de basislijn instellen op een week, maand of jaar waar de temperatuur bijna normaal was.

Voor profielen die gebruikmaken van een deductieprofiel, is een goede keuze voor een basislijn de gegevens die zijn gebruikt voor het trainen of valideren van het model dat wordt geprofileerd. Op deze manier kunnen gebruikers worden gewaarschuwd wanneer de gegevens zijn afgelopen ten opzichte van waarop het model is getraind en gevalideerd. Deze tabel moet dezelfde functiekolommen bevatten als de primaire tabel en moet bovendien hetzelfde model_id_col hebben dat is opgegeven voor de deductielogboek van de primaire tabel, zodat de gegevens consistent worden samengevoegd. In het ideale geval moet de test- of validatieset die wordt gebruikt om het model te evalueren, worden gebruikt om vergelijkbare metrische gegevens over de kwaliteit van modellen te garanderen.

Metrische tabellen en dashboard

Profilering maakt twee metrische tabellen en een dashboard. Metrische waarden worden berekend voor de hele tabel en voor de tijdvensters en gegevenssubsets (of segmenten) die u opgeeft wanneer u het profiel maakt. Daarnaast worden voor deductieanalyse metrische gegevens berekend voor elke model-id. Zie Gegevensprofilering metrische tabellen voor meer details over de metrische tabellen.

De tabel met metrische profielgegevens bevat samenvattingsstatistieken. Zie het tabelschema voor metrische gegevens van profiel.
De tabel met driftstatistieken bevat statistieken met betrekking tot de drift van de gegevens in de loop van de tijd. Als er een basislijntabel wordt opgegeven, wordt drift ook geprofileerd ten opzichte van de basislijnwaarden. Zie het schema van de driftemetrietabel .

De metrische tabellen zijn Delta-tabellen en worden opgeslagen in een Unity Catalog-schema dat u opgeeft. U kunt deze tabellen weergeven met behulp van de Databricks-gebruikersinterface, ze opvragen met Behulp van Databricks SQL en dashboards en waarschuwingen maken op basis van deze tabellen.

Voor elk profiel maakt Databricks automatisch een dashboard om u te helpen bij het visualiseren en presenteren van de profielresultaten. Het dashboard kan volledig worden aangepast. Zie Dashboards.

Beperkingen

Alleen Delta-tabellen worden ondersteund voor profilering en de tabel moet een van de volgende tabeltypen zijn: beheerde tabellen, externe tabellen, weergaven, gerealiseerde weergaven of streamingtabellen.
Profielen die zijn gemaakt via materialized views ondersteunen geen incrementele verwerking.
Niet alle regio's worden ondersteund. Voor regionale ondersteuning zie de kolom gegevensprofilering in de tabel Beschikbaarheid van AI- en Machine Learning-functies.
Profielen die zijn gemaakt met behulp van de tijdreeks- of deductieanalysemodi, berekenen alleen metrische gegevens in de afgelopen 30 dagen. Neem contact op met uw Databricks-accountteam als u dit wilt aanpassen.
De maximale tabelgrootte voor een momentopnameprofiel is 4 TB. Gebruik in plaats daarvan tijdreeksprofielen voor grotere tabellen.