Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
In dit artikel ziet u hoe u een gegevensprofiel maakt met behulp van de Databricks-gebruikersinterface. U kunt ook de API gebruiken.
Ga als volgt te werk om toegang te krijgen tot de Databricks-gebruikersinterface:
Klik in de zijbalk aan de linkerkant van de werkruimte op
U opent Catalog Explorer.
Navigeer naar de tabel die u wilt profilen.
Klik op het tabblad Kwaliteit .
Als anomaliedetectie niet is ingeschakeld voor dit schema, klikt u op Inschakelen.
Als anomaliedetectie is ingeschakeld voor dit schema, klikt u op Configureren.
Klik in het dialoogvenster Bewaking van gegevenskwaliteit in het veld Gegevensprofilering op Configureren.
Selecteer in het dialoogvenster het profieltype. In de volgende secties worden de opties voor het profieltype en de aanvullende selecties voor elk type beschreven.
Profileringsproces
Selecteer in de vervolgkeuzelijst Profieltype het type profiel dat u wilt maken. De profieltypen worden weergegeven in de tabel.
| Profieltype | Beschrijving |
|---|---|
| Tijdreeksprofiel | Een tabel met waarden die in de loop van de tijd worden gemeten. Deze tabel bevat een tijdstempelkolom. |
| Profiel van momentopname | Elke door Delta beheerde tabel, externe tabel, weergave, materiaalweergave of streaming-tabel. De maximale tabelgrootte voor een momentopnameprofiel is 4 TB. Gebruik in plaats daarvan tijdreeksprofielen voor grotere tabellen. |
| Inferentieprofiel | Een tabel met voorspelde waarden die worden uitgevoerd door een machine learning-classificatie of regressiemodel. Deze tabel bevat een tijdstempel, een model-id, modelinvoer (functies), een kolom met modelvoorspellingen en optionele kolommen met unieke observatie-id's en grondwaarlabels. Het kan ook metagegevens bevatten, zoals demografische informatie, die niet wordt gebruikt als invoer voor het model, maar kan nuttig zijn voor eerlijkheids- en vooroordelenonderzoeken of andere taken. |
Als u selecteert TimeSeries of Inference, zijn aanvullende parameters vereist en worden deze beschreven in de volgende secties.
Opmerking
- Wanneer u voor het eerst een tijdreeks- of deductieprofiel maakt, analyseert het profiel alleen gegevens van de 30 dagen voorafgaand aan het maken ervan. Nadat het profiel is gemaakt, worden alle nieuwe gegevens verwerkt.
- Monitors die zijn gedefinieerd op gerealiseerde weergaven bieden geen ondersteuning voor incrementele verwerking.
Aanbeveling
Voor TimeSeries en Inference profielen is het een best practice om change data feed (CDF) in te schakelen in uw tabel. Wanneer CDF is ingeschakeld, worden alleen nieuw toegevoegde gegevens verwerkt, in plaats van dat de hele tabel elke vernieuwing opnieuw wordt verwerkt. Dit maakt de uitvoering efficiënter en verlaagt de kosten tijdens het schalen van profilering in veel tabellen.
TimeSeries profiel
Voor een TimeSeries profiel moet u de volgende selecties maken:
- Geef de granulaties van metrische gegevens op die bepalen hoe de gegevens in vensters in de tijd moeten worden gepartitioneert.
- Geef de kolom Timestamp op, de kolom in de tabel die de tijdstempel bevat. Het gegevenstype van de tijdstempelkolom moet ofwel
TIMESTAMPeen type zijn dat kan worden geconverteerd naar tijdstempels met behulp van deto_timestampfunctie PySpark.
Inference profiel
Voor een Inference profiel moet u naast de granulariteiten en de tijdstempel de volgende selecties maken:
- Selecteer het probleemtype, classificatie of regressie.
- Geef de kolom Voorspelling op, de kolom met de voorspelde waarden van het model.
- Geef desgewenst de kolom Label op, de kolom met de grondwaar voor modelvoorspellingen.
- Geef de kolom Model-id op, de kolom met de id van het model dat wordt gebruikt voor voorspelling.
Geavanceerde opties
In de sectie Geavanceerde opties kunt u de planning instellen, e-mailmeldingen toevoegen, aangepaste metrische gegevens en segmentexpressies toevoegen en de standaardprofielconfiguratie wijzigen.
Schema
Als u een profiel wilt instellen dat op geplande basis moet worden uitgevoerd, selecteert u Vernieuwen volgens schema en selecteert u de frequentie en tijd waarop het profiel moet worden uitgevoerd. Als u niet wilt dat het profiel automatisch wordt uitgevoerd, selecteert u Handmatig vernieuwen. Als u Handmatig vernieuwen selecteert, kunt u de metrische gegevens later vernieuwen op het tabblad Kwaliteit .
Meldingen
Als u e-mailmeldingen voor een profiel wilt instellen, voert u de e-mail in die moet worden gewaarschuwd en selecteert u de meldingen die u wilt inschakelen. Maximaal 5 e-mailberichten worden ondersteund per gebeurtenistype voor meldingen.
Metrics
In de sectie Metrische gegevens kunt u ervoor kiezen om de volgende standaardinstellingen te wijzigen:
Schemanaam voor metrische tabellen: het Unity Catalog-schema waarin de metrische tabellen die door het profiel zijn gemaakt, worden opgeslagen. Deze locatie moet de indeling {catalog} hebben. {schema}. Dit is standaard ingesteld op dezelfde schemalocatie als de geprofileerde tabel. U kunt een andere locatie opgeven.
Assets-directory: het absolute pad naar een bestaande map voor het opslaan van assets voor gegevensprofilering. Assets worden standaard opgeslagen in de standaardmap: "/Users/{user_name}/databricks_lakehouse_monitoring/{table_name}". Als u een andere locatie in dit veld invoert, worden assets gemaakt onder '/{table_name}' in de map die u opgeeft. Deze directory kan zich overal in de werkruimte bevinden. Voor profielen die zijn bedoeld om te worden gedeeld binnen een organisatie, kunt u een pad in de map /Gedeeld/gebruiken.
Dit veld kan niet leeg blijven.
U kunt ook de volgende instellingen opgeven:
- Naam van unity-catalogusbasislijntabel: naam van een tabel of weergave die basislijngegevens bevat voor vergelijking.
-
Expressies voor metrische segmentering: met expressies voor segmentering kunt u subsets van de tabel definiëren om naast de tabel als geheel te profileren. Als u een segmenteringsexpressie wilt maken, klikt u op Expressie toevoegen en voert u de definitie van de expressie in. Met de expressie
"col_2 > 10"worden bijvoorbeeld twee segmenten gegenereerd: één voorcol_2 > 10en één voorcol_2 <= 10. In een ander voorbeeld genereert de expressie"col_1"één segment voor elke unieke waarde incol_1. De gegevens worden afzonderlijk gegroepeerd op elke expressie, wat resulteert in een afzonderlijk segment voor elk predicaat en de bijbehorende aanvullingen. -
Aangepaste metrische gegevens: aangepaste metrische gegevens worden weergegeven in de metrische tabellen, zoals ingebouwde metrische gegevens.
Als u een aangepaste metrische waarde wilt configureren, klikt u op Aangepaste metrische gegevens toevoegen.
- Voer een naam in voor de aangepaste metrische gegevens.
- Selecteer de aangepaste metriek Type. Kies uit:
Aggregate,DerivedofDrift. - Selecteer in de vervolgkeuzelijst in invoerkolommen de kolommen waar u de metrische waarde op wilt toepassen.
- Selecteer in het veld Uitvoertype het Spark-gegevenstype van de metrische waarde.
- Voer in het veld Definitie SQL-code in waarmee de aangepaste metrische gegevens worden gedefinieerd.
Profielinstellingen bewerken in de gebruikersinterface
Nadat u een profiel hebt gemaakt, kunt u wijzigingen aanbrengen in de instellingen van het profiel door te klikken op Configureren op het tabblad Kwaliteit .
Klik in de sectie Gegevensprofilering van het dialoogvenster op Configureren.
Profielresultaten vernieuwen en weergeven in de gebruikersinterface
Als u het profiel handmatig wilt uitvoeren, klikt u op Vernieuwingsgeschiedenis weergeven. Er wordt een dialoogvenster geopend met alle vorige profielen. Klik op Metrische gegevens vernieuwen om een profielupdate te activeren.
Als u de vernieuwingsgeschiedenis wilt bekijken, moet u de Databricks-werkruimte gebruiken waaruit gegevensprofilering is ingeschakeld.
Zie Metrische tabellen bewaken voor informatie over de statistieken die zijn opgeslagen in metrische profieltabellen. Metrische tabellen zijn Unity Catalog-tabellen. U kunt query's uitvoeren in notitieblokken of in de SQL-queryverkenner en deze weergeven in Catalog Explorer.
Toegang tot profieluitvoer beheren
De metrische tabellen en het dashboard die door een profiel zijn gemaakt, zijn eigendom van de gebruiker die het profiel heeft gemaakt. U kunt Unity Catalog-bevoegdheden gebruiken om de toegang tot metrische tabellen te beheren. Als u dashboards in een werkruimte wilt delen, klikt u op de knop Delen in de rechterbovenhoek van het dashboard.
Een profiel verwijderen uit de gebruikersinterface
Als u een profiel uit de gebruikersinterface wilt verwijderen, volgt u de instructies in Profielinstellingen bewerken in de gebruikersinterface om het dialoogvenster Profiel bijwerken te openen. Selecteer Verwijderen in het vervolgkeuzemenu Bijwerken.