Kommentar
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
I den här artikeln beskrivs dataprofilering. Den ger en översikt över komponenter och användning av dataprofilering.
Dataprofilering ger sammanfattningsstatistik för en tabell, databehandlingsprofileringsmått över tid så att du enkelt kan visa historiska trender. Det är användbart för djupgående övervakning av alla viktiga mått för utvalda tabeller. Du kan också använda den för att spåra prestanda för maskininlärningsmodeller och modellbetjäningsslutpunkter genom att profilera slutsatsdragningstabeller som innehåller modellindata och förutsägelser. Diagrammet visar dataflödet via data- och ML-pipelines i Databricks och hur du kan använda profilering för att kontinuerligt spåra datakvalitet och modellprestanda.
Varför ska du använda dataprofilering?
Kvantitativa mått hjälper dig att spåra och bekräfta kvaliteten och konsekvensen i dina data över tid. När du identifierar ändringar i tabellens datadistribution eller motsvarande modells prestanda kan tabellerna som skapas av dataprofilering samla in och varna dig för ändringen och hjälpa dig att identifiera orsaken.
Dataprofilering hjälper dig att besvara frågor som följande:
- Hur ser dataintegriteten ut och hur ändras den över tid? Till exempel, vad är fraktionen av null- eller nollvärden i aktuella data och har den ökat?
- Hur ser den statistiska fördelningen av data ut och hur ändras den över tid? Vad är till exempel den 90:e percentilen i en numerisk kolumn? Eller vad är fördelningen av värden i en kategorisk kolumn, och hur skiljer det sig från igår?
- Finns det en avvikelse mellan aktuella data och en känd baslinje, eller mellan efterföljande tidsfönster för data?
- Hur ser den statistiska fördelningen eller avvikelsen för en delmängd eller sektor av data ut?
- Hur skiftar ML-modellindata och förutsägelser över tid?
- Hur trendar modellprestanda över tid? Presterar modellversion A bättre än version B?
Dessutom kan du med dataprofilering styra tidskornigheten för observationer och konfigurera anpassade mått.
Requirements
- Arbetsytan måste vara aktiverad för Unity Catalog och du måste ha åtkomst till Databricks SQL.
- Om du vill aktivera dataprofilering måste du ha följande behörigheter:
-
USE CATALOGi katalogen ochUSE SCHEMAi schemat som innehåller tabellen. -
SELECTpå bordet. -
MANAGEi katalogen, schemat eller tabellen.
-
Anmärkning
Dataprofilering använder serverlös beräkning för jobb, men kräver inte att ditt konto aktiveras för serverlös beräkning. Information om hur du spårar utgifter finns i Visa kostnader för datakvalitetsövervakning.
Så här fungerar dataprofilering
Om du vill profilera en tabell skapar du en profil som är kopplad till tabellen. Om du vill profilera prestanda för en maskininlärningsmodell kopplar du profilen till en slutsatsdragningstabell som innehåller modellens indata och motsvarande förutsägelser.
Dataprofilering innehåller följande typer av analys: tidsserier, slutsatsdragning och ögonblicksbilder.
| Profiltyp | Beskrivning |
|---|---|
| Tidsserier | Använd för tabeller som innehåller en tidsseriedatauppsättning baserat på en tidsstämpelkolumn. Profilering beräknar datakvalitetsmått över tidsbaserade fönster i tidsserien. |
| Slutsatsdragning | Används för tabeller som innehåller begärandeloggen för en modell. Varje rad är en förfrågan, med kolumner för tidsstämpeln, modellindata, motsvarande förutsägelse och (valfritt) verklig etikett. Profilering jämför modellprestanda och datakvalitetsmått i tidsbaserade fönster i begärandeloggen. |
| Ögonblicksbild | Används för alla andra typer av tabeller. Profilering beräknar datakvalitetsmått för alla data i tabellen. Den fullständiga tabellen bearbetas med varje uppdatering. Den maximala tabellstorleken för en ögonblicksbildsprofil är 4 TB. För större tabeller använder du tidsserieprofiler i stället. |
I det här avsnittet beskrivs kortfattat de indatatabeller som används av dataprofilering och de måtttabeller som skapas. Diagrammet visar relationen mellan indatatabellerna, måtttabellerna, profilen och instrumentpanelen.
primär tabell och baslinjetabell
Förutom den tabell som ska profileras, som kallas "primär tabell", kan du också ange en baslinjetabell som ska användas som referens för att mäta avdrift eller ändring i värden över tid. En baslinjetabell är användbar när du har ett exempel på hur du förväntar dig att dina data ska se ut. Tanken är att driften sedan beräknas i förhållande till förväntade datavärden och distributioner.
Baslinjetabellen bör innehålla en datauppsättning som återspeglar den förväntade kvaliteten på indata, när det gäller statistiska fördelningar, enskilda kolumnfördelningar, saknade värden och andra egenskaper. Det bör matcha schemat för den profilerade tabellen. Undantaget är tidsstämpelkolumnen för tabeller som används med tidsserie- eller slutsatsdragningsprofiler. Om kolumner saknas i antingen den primära tabellen eller baslinjetabellen använder profilering heuristik med bästa förmåga för att beräkna utdatamåtten.
För profiler som använder en ögonblicksbildsprofil ska baslinjetabellen innehålla en ögonblicksbild av de data där fördelningen representerar en acceptabel kvalitetsstandard. När det till exempel gäller klassificeringsdistributionsdata kan man ange baslinjen till en tidigare klass där betygen fördelades jämnt.
För profiler som använder en tidsserieprofil bör baslinjetabellen innehålla data som representerar tidsfönster där datadistributioner representerar en acceptabel kvalitetsstandard. När det till exempel gäller väderdata kan du ställa in baslinjen på en vecka, månad eller år där temperaturen var nära förväntade normala temperaturer.
För profiler som använder en slutsatsdragningsprofil är ett bra val för en baslinje de data som användes för att träna eller verifiera modellen som profileras. På så sätt kan användare aviseras när data har avvikit i förhållande till vad modellen har tränats och validerats på. Den här tabellen bör innehålla samma funktionskolumner som den primära tabellen och dessutom ha samma model_id_col som angavs för den primära tabellens InferenceLog så att data aggregeras konsekvent. Helst bör test- eller valideringsuppsättningen som används för att utvärdera modellen användas för att säkerställa jämförbara modellkvalitetsmått.
Måtttabeller och instrumentpanel
Profilering skapar två måtttabeller och en instrumentpanel. Måttvärden beräknas för hela tabellen och för de tidsfönster och dataunderuppsättningar (eller "sektorer") som du anger när du skapar profilen. För slutsatsdragningsanalys beräknas dessutom mått för varje modell-ID. Mer information om måtttabellerna finns i Måtttabeller för dataprofilering.
- Tabellen för profilmått innehåller sammanfattningsstatistik. Se tabellschemat för profilmått.
- Tabellen driftmått innehåller statistik som rör datas drift över tid. Om en baslinjetabell tillhandahålls profileras även avdrift i förhållande till baslinjevärdena. Se driftmått tabellens schema .
Måtttabellerna är Delta-tabeller och lagras i ett Unity Catalog-schema som du anger. Du kan visa dessa tabeller med hjälp av Databricks-användargränssnittet, köra frågor mot dem med hjälp av Databricks SQL och skapa instrumentpaneler och aviseringar baserat på dem.
För varje profil skapar Databricks automatiskt en instrumentpanel som hjälper dig att visualisera och presentera profilresultatet. Instrumentpanelen är helt anpassningsbar. Se även Dashboards.
Begränsningar
- Endast Delta-tabeller stöds för profilering och tabellen måste vara en av följande tabelltyper: hanterade tabeller, externa tabeller, vyer, materialiserade vyer eller strömmande tabeller.
- Profiler som skapats över materialiserade vyer stöder inte inkrementell bearbetning.
- Alla regioner stöds inte. Regional support finns i kolumnen Dataprofilering i tabellen AI- och maskininlärningsfunktioner tillgänglighet.
- Profiler som skapats med hjälp av tidsserie- eller slutsatsdragningsanalyslägen beräknar endast mått under de senaste 30 dagarna. Om du behöver justera detta kontaktar du ditt Databricks-kontoteam.
- Den maximala tabellstorleken för en ögonblicksbildsprofil är 4 TB. För större tabeller använder du tidsserieprofiler i stället.
Börja använda dataprofilering
Se följande artiklar för att komma igång:
- Skapa en profil med hjälp av Databricks-användargränssnittet.
- Skapa en dataprofil med hjälp av API:et.
- Måtttabeller för dataprofilering.
- Instrumentpanel för dataprofilering.
- Profilaviseringar.
- Använd anpassade mått med dataprofilering.
- Slutsatsdragningstabeller för övervakning och felsökning av modeller.
- Övervaka rättvisa och bias för klassificeringsmodeller.
- Se referensmaterialet för API:et för dataprofilering.
- Exempel på notebook-filer.