Dela via


Skapa en profil med databricks-användargränssnittet

Den här artikeln visar hur du skapar en dataprofil med hjälp av Databricks-användargränssnittet. Du kan också använda API:et.

Gör följande för att få åtkomst till Databricks-användargränssnittet:

  1. Öppna Data icon.Data icon.Katalogutforskaren genom att klicka på i arbetsytans vänstra sidofält.

  2. Navigera till den tabell som du vill profilera.

  3. Klicka på fliken Kvalitet .

  4. Om avvikelseidentifiering inte är aktiverat för det här schemat klickar du på Aktivera.

    Kvalitetsflik för dataprofilering, inte aktiverat ännu.

    Om avvikelseidentifiering är aktiverat för det här schemat klickar du på Konfigurera.

    Fliken Dataprofileringskvalitet har redan aktiverats.

  5. I dialogrutan Datakvalitetsövervakning i fältet Dataprofilering klickar du på Konfigurera.

    Dialogrutan för övervakning av datakvalitet.

  6. I dialogrutan väljer du profiltyp. I följande avsnitt beskrivs alternativen för profiltyp och de ytterligare valen för varje typ.

Profiling

I listrutan Profiltyp väljer du den typ av profil som du vill skapa. Profiltyperna visas i tabellen.

Profiltyp Beskrivning
Tidsserieprofil En tabell som innehåller värden som mäts över tid. Den här tabellen innehåller en tidsstämpelkolumn.
Profil för snapshot Alla Delta-hanterade tabeller, externa tabeller, vyer, materialiserade vyer eller strömmande tabeller. Den maximala tabellstorleken för en ögonblicksbildsprofil är 4 TB. För större tabeller använder du tidsserieprofiler i stället.
Slutsatsdragningsprofil En tabell som innehåller förutsagda värden som utdata från en maskininlärningsklassificering eller regressionsmodell. Den här tabellen innehåller en tidsstämpel, ett modell-ID, modellindata (funktioner), en kolumn som innehåller modellförutsägelser och valfria kolumner som innehåller unika observations-ID:er och mark sanningsetiketter. Den kan också innehålla metadata, till exempel demografisk information, som inte används som indata till modellen, men som kan vara användbara för rättvise- och biasundersökningar eller andra uppgifter.

Om du väljer TimeSeries eller Inferencekrävs ytterligare parametrar och beskrivs i följande avsnitt.

Anmärkning

  • När du först skapar en tidsserie- eller slutsatsdragningsprofil analyserar profilen endast data från de 30 dagarna innan den skapas. När profilen har skapats bearbetas alla nya data.
  • Övervakare som definierats för materialiserade vyer stöder inte inkrementell bearbetning.

Tips/Råd

För TimeSeries och Inference profiler är det bästa praxis att aktivera ändringsdataflöde (CDF) i tabellen. När CDF är aktiverat bearbetas endast nyligen tillagda data i stället för att bearbeta hela tabellen igen varje uppdatering. Detta gör körningen mer effektiv och minskar kostnaderna när du skalar profilering över många tabeller.

TimeSeries profil

För en TimeSeries profil måste du göra följande val:

  • Ange måttkornigheter som avgör hur data ska partitioneras i fönster över tid.
  • Ange kolumnen Tidsstämpel, kolumnen i tabellen som innehåller tidsstämpeln. Datatypen för tidsstämpelkolumnen måste vara antingen TIMESTAMP eller en typ som kan konverteras till tidsstämplar med funktionen to_timestampPySpark.

Inference profil

För en Inference profil, förutom kornigheterna och tidsstämpeln, måste du göra följande val:

  • Välj problemtyp, antingen klassificering eller regression.
  • Ange kolumnen Förutsägelse, kolumnen som innehåller modellens förutsagda värden.
  • Du kan också ange Etikettkolumnen, kolumnen som innehåller grundsanningen för modellens förutsägelser.
  • Ange kolumnen Modell-ID, den kolumn som innehåller ID:t för modellen som används för förutsägelse.

Avancerade alternativ

I avsnittet Avancerade alternativ kan du ange schemat, lägga till e-postmeddelanden, lägga till anpassade mått och segmenteringsuttryck och ändra standardprofilkonfigurationen.

Schema

Om du vill konfigurera en profil som ska köras enligt schema väljer du Uppdatera enligt schema och väljer frekvens och tid för profilen att köras. Om du inte vill att profilen ska köras automatiskt väljer du Uppdatera manuellt. Om du väljer Uppdatera manuellt kan du senare uppdatera måtten från fliken Kvalitet .

Aviseringar

Om du vill konfigurera e-postaviseringar för en profil anger du e-postmeddelandet som ska meddelas och väljer de meddelanden som ska aktiveras. Upp till 5 e-postmeddelanden stöds per typ av meddelandehändelse.

Metrics

I avsnittet Mått kan du välja att ändra följande standardinställningar:

  • Schemanamn för måtttabeller: Unity Catalog-schemat där de måtttabeller som skapats av profilen lagras. Den här platsen måste ha formatet {catalog}. {schema}. Som standard är detta inställt på samma schemaplats som den profilerade tabellen. Du kan ange en annan plats.

  • Resurskatalog: Den absoluta sökvägen till en befintlig katalog för att lagra dataprofileringresurser. Som standard lagras tillgångar i standardkatalogen: "/Users/{user_name}/databricks_lakehouse_monitoring/{table_name}". Om du anger en annan plats i det här fältet skapas tillgångar under "/{table_name}" i den katalog som du anger. Den här katalogen kan finnas var som helst på arbetsytan. För profiler som är avsedda att delas inom en organisation kan du använda en sökväg i katalogen "/Shared/".

    Det går inte att lämna fältet tomt.

Du kan också ange följande inställningar:

  • Baslinjetabellnamn för Unity Catalog: Namnet på en tabell eller vy som innehåller baslinjedata för jämförelse.
  • Måttsnittsuttryck: Med segmenteringsuttryck kan du definiera delmängder i tabellen som ska profileras utöver tabellen som helhet. Om du vill skapa ett segmenteringsuttryck klickar du på Lägg till uttryck och anger uttrycksdefinitionen. Uttrycket "col_2 > 10" genererar till exempel två sektorer: en för col_2 > 10 och en för col_2 <= 10. Som ett annat exempel genererar uttrycket "col_1" en del för varje unikt värde i col_1. Data grupperas efter varje uttryck oberoende av varandra, vilket resulterar i en separat sektor för varje predikat och dess komplement.
  • Anpassade mått: Anpassade mått visas i måtttabellerna som alla inbyggda mått. Om du vill konfigurera ett anpassat mått klickar du på Lägg till anpassat mått.
    • Ange ett namn för det anpassade måttet.
    • Välj den anpassade måtttypen. Välj mellan: Aggregate, Derivedeller Drift.
    • I listrutan i Indatakolumner väljer du de kolumner som måttet ska tillämpas på.
    • I fältet Utdatatyp väljer du Spark-datatypen för måttet.
    • I fältet Definition anger du SQL-kod som definierar det anpassade måttet.

Redigera profilinställningar i användargränssnittet

När du har skapat en profil kan du göra ändringar i profilens inställningar genom att klicka på Konfigurera på fliken Kvalitet .

Konfigurera en befintlig profil.

I avsnittet Dataprofilering i dialogrutan klickar du på Konfigurera.

Dialogrutan Uppdatera profil.

Uppdatera och visa profilresultat i användargränssnittet

Om du vill köra profilen manuellt klickar du på Visa uppdateringshistorik. En dialogruta öppnas som visar alla tidigare profiler. Klicka på Uppdatera mått för att utlösa en profiluppdatering.

Om du vill se uppdateringshistoriken måste du använda databricks-arbetsytan från vilken dataprofilering har aktiverats.

Information om den statistik som lagras i profilmåtttabeller finns i Övervaka måtttabeller. Måtttabeller är Unity Catalog-tabeller. Du kan fråga dem i notebook-filer eller i SQL-frågeutforskaren och visa dem i Katalogutforskaren.

Kontrollera åtkomsten till profilutgångar

Måtttabellerna och instrumentpanelen som skapas av en profil ägs av användaren som skapade profilen. Du kan använda Behörigheter för Unity Catalog för att styra åtkomsten till måtttabeller. Om du vill dela instrumentpaneler i en arbetsyta klickar du på knappen Dela längst upp till höger på instrumentpanelen.

Ta bort en profil från användargränssnittet

Om du vill ta bort en profil från användargränssnittet följer du anvisningarna i Redigera profilinställningar i användargränssnittet för att öppna dialogrutan Uppdatera profil . I listrutan Uppdatera väljer du Ta bort.

Ta bort en profil.