Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Questo articolo illustra come creare un profilo dati usando l'interfaccia utente di Databricks. È anche possibile usare l'API.
Per accedere all'interfaccia utente di Databricks, eseguire le operazioni seguenti:
Nella barra laterale sinistra dell'area di lavoro fare clic
Per aprire Esplora cataloghi.
Passare alla tabella da analizzare.
Fare clic sulla scheda Qualità .
Se il rilevamento delle anomalie non è abilitato per questo schema, fare clic su Abilita.
Se il rilevamento anomalie è abilitato per questo schema, fare clic su Configura.
Nel campo Profilatura dati della finestra di dialogo Data Quality Monitoring fare clic su Configura.
Nella finestra di dialogo selezionare il tipo di profilo. Le sezioni seguenti descrivono le opzioni del tipo di profilo e le selezioni aggiuntive per ogni tipo.
Profiling
Dal menu a discesa Tipo di profilo selezionare il tipo di profilo che si vuole creare. I tipi di profilo vengono visualizzati nella tabella .
| Tipo profilo | Descrizione |
|---|---|
| Profilo delle serie temporali | Tabella contenente valori misurati nel tempo. Questa tabella include una colonna di timestamp. |
| Profilo snapshot | Qualsiasi tabella gestita da Delta, tabella esterna, vista, vista materializzata o tabella di streaming. Le dimensioni massime della tabella per un profilo snapshot sono di 4 TB. Per le tabelle di dimensioni maggiori, usare invece i profili time series. |
| Profilo di inferenza | Tabella contenente i valori stimati restituiti da un modello di classificazione o regressione di Machine Learning. Questa tabella include un timestamp, un ID modello, input del modello (funzionalità), una colonna contenente stime del modello e colonne facoltative contenenti ID di osservazione univoci ed etichette di verità di base. Può anche contenere metadati, ad esempio informazioni demografiche, che non vengono usate come input per il modello, ma possono essere utili per le indagini di equità e distorsione o altre attività. |
Se si seleziona TimeSeries o Inference, sono necessari parametri aggiuntivi e sono descritti nelle sezioni seguenti.
Annotazioni
- Quando si crea una serie temporale o un profilo di inferenza per la prima volta, il profilo analizza solo i dati dei 30 giorni precedenti alla creazione. Dopo aver creato il profilo, vengono elaborati tutti i nuovi dati.
- I monitoraggi definiti nelle viste materializzate non supportano l'elaborazione incrementale.
Suggerimento
È consigliabile, per i profili TimeSeries e Inference, abilitare il Change Data Feed (CDF) sulla tua tabella. Quando CDF è abilitato, vengono elaborati solo i dati appena accodati anziché rielaborare l'intera tabella ogni aggiornamento. In questo modo l'esecuzione risulta più efficiente e riduce i costi man mano che si ridimensiona la profilatura in più tabelle.
TimeSeries profilo
Per un TimeSeries profilo, è necessario effettuare le selezioni seguenti:
- Specificare le granularità delle metriche che determinano come partizionare i dati nelle finestre nel tempo.
- Specificare la colonna Timestamp, la colonna nella tabella contenente il timestamp. Il tipo di dati della colonna timestamp deve essere
TIMESTAMPo un tipo che può essere convertito in timestamp usando lato_timestampfunzione PySpark.
Inference profilo
Per un Inference profilo, oltre alle granularità e al timestamp, è necessario effettuare le selezioni seguenti:
- Selezionare il tipo di problema, ovvero la classificazione o la regressione.
- Specificare la colonna Stima, ovvero la colonna contenente i valori stimati del modello.
- Specificare la colonna Etichetta, la colonna contenente la verità di base per le stime del modello, facoltativamente.
- Specificare la colonna ID modello contenente l'ID del modello usato per la stima.
Opzioni avanzate
Nella sezione Opzioni avanzate è possibile impostare la pianificazione, aggiungere notifiche tramite posta elettronica, aggiungere metriche personalizzate ed espressioni di sezionamento e modificare la configurazione predefinita del profilo.
Orario
Per configurare un profilo da eseguire in base a una pianificazione, selezionare Aggiorna in base alla pianificazione e selezionare la frequenza e l'ora per l'esecuzione del profilo. Se non si vuole che il profilo venga eseguito automaticamente, selezionare Aggiorna manualmente. Se si seleziona Aggiorna manualmente, è possibile aggiornare le metriche nella scheda Qualità .
Notifiche
Per configurare le notifiche tramite posta elettronica per un profilo, immettere il messaggio di posta elettronica per ricevere una notifica e selezionare le notifiche da abilitare. Sono supportati fino a 5 messaggi di posta elettronica per ogni tipo di evento di notifica.
Metrics
Nella sezione Metriche è possibile scegliere di modificare le impostazioni predefinite seguenti:
Nome dello schema delle tabelle delle metriche: schema del catalogo Unity in cui sono archiviate le tabelle delle metriche create dal profilo. Questo percorso deve essere nel formato {catalog}. {schema}. Per impostazione predefinita, questa opzione è impostata sullo stesso percorso dello schema della tabella profilata. È possibile specificare una posizione diversa.
Directory Assets: percorso assoluto di una directory esistente per archiviare gli asset di profilatura dei dati. Per impostazione predefinita, gli asset vengono archiviati nella directory predefinita: "/Users/{user_name}/databricks_lakehouse_monitoring/{table_name}". Se si immette una posizione diversa in questo campo, le risorse vengono create sotto "/{table_name}" all'interno della directory specificata. Questa directory può trovarsi in qualsiasi punto dell'area di lavoro. Per i profili che devono essere condivisi all'interno di un'organizzazione, è possibile usare un percorso nella directory "/Condiviso/".
Questo campo non può essere lasciato vuoto.
È anche possibile specificare le impostazioni seguenti:
- Nome tabella di base del catalogo Unity: nome di una tabella o di una vista che contiene i dati di base per il confronto.
-
Espressioni di sezionamento delle metriche: le espressioni di sezionamento consentono di definire subset della tabella da profilare oltre alla tabella nel suo complesso. Per creare un'espressione di sezionamento, fare clic su Aggiungi espressione e immettere la definizione dell'espressione. Ad esempio, l'espressione
"col_2 > 10"genera due sezioni: una percol_2 > 10e una percol_2 <= 10. Come altro esempio, l'espressione"col_1"genererà una sezione per ogni valore univoco incol_1. I dati vengono raggruppati in base a ogni espressione in modo indipendente, generando una sezione separata per ogni predicato e i relativi complementi. -
Metriche personalizzate: le metriche personalizzate vengono visualizzate nelle tabelle delle metriche come qualsiasi metrica predefinita.
Per configurare una metrica personalizzata, fare clic su Aggiungi metrica personalizzata.
- Immettere un nome per la metrica personalizzata.
- Selezionare il tipo di metrica personalizzato. Scegliere tra:
Aggregate,DerivedoDrift. - Nell'elenco a discesa in Colonne di input selezionare le colonne a cui applicare la metrica.
- Nel campo Tipo di output selezionare il tipo di dati Spark della metrica.
- Nel campo Definizione immettere codice SQL che definisce la metrica personalizzata.
Modificare le impostazioni del profilo nell'interfaccia utente
Dopo aver creato un profilo, è possibile apportare modifiche alle impostazioni del profilo facendo clic su Configura nella scheda Qualità .
Nella sezione Profilatura dati della finestra di dialogo fare clic su Configura.
Aggiornare e visualizzare i risultati del profilo nell'interfaccia utente
Per eseguire manualmente il profilo, fare clic su Visualizza cronologia aggiornamenti. Verrà visualizzata una finestra di dialogo che mostra tutti i profili precedenti. Fare clic su Aggiorna metriche per attivare un aggiornamento del profilo.
Per visualizzare la cronologia degli aggiornamenti, è necessario usare l'area di lavoro Databricks da cui è stata abilitata la profilatura dei dati.
Per informazioni sulle statistiche archiviate nelle tabelle delle metriche del profilo, vedere Monitorare le tabelle delle metriche. Le tabelle delle metriche sono tabelle del catalogo Unity. È possibile eseguire query nei notebook o in Esplora query SQL e visualizzare i risultati in Esplora Cataloghi.
Controllare l'accesso agli output del profilo
Le tabelle delle metriche e il dashboard creati da un profilo sono di proprietà dell'utente che ha creato il profilo. È possibile usare i privilegi del catalogo Unity per controllare l'accesso alle tabelle delle metriche. Per condividere i dashboard all'interno di un'area di lavoro, fare clic sul pulsante Condividi in alto a destra del dashboard.
Eliminare un profilo dall'interfaccia utente
Per eliminare un profilo dall'interfaccia utente, seguire le istruzioni riportate in Modificare le impostazioni del profilo nell'interfaccia utente per aprire la finestra di dialogo Aggiorna profilo . Dal menu a discesa Aggiorna selezionare Elimina.