Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Importante
Questa funzionalità è in Anteprima Pubblica.
Questa pagina descrive cos'è il rilevamento delle anomalie, cosa monitora e come utilizzarlo.
Importante
Il rilevamento anomalie usa l'archiviazione predefinita per archiviare i risultati dell'analisi nella tabella di system.data_quality_monitoring.table_results sistema. Non viene addebitato alcun costo per questa risorsa di archiviazione.
Che cos'è il rilevamento anomalie?
Il rilevamento anomalie consente di monitorare la qualità dei dati in tutte le tabelle in uno schema. Analizzando i modelli cronologici, Azure Databricks valuta automaticamente la completezza e l'aggiornamento di ogni tabella. I risultati sono disponibili in Esplora cataloghi.
Requisiti
- Area di lavoro con Unity Catalog abilitato.
- Le risorse di calcolo serverless devono essere disponibili nell'area di lavoro (abilitate per impostazione predefinita nelle aree di lavoro con il catalogo Unity).
- Per abilitare il rilevamento anomalie in uno schema, è necessario disporre dei privilegi MANAGE SCHEMA o MANAGE CATALOG per lo schema del catalogo.
- Per visualizzare lo stato dell'indicatore di integrità delle tabelle, sono necessari SELECT o privilegi BROWSE.
Come funziona il rilevamento anomalie?
Azure Databricks crea un processo in background che monitora le tabelle per la loro freschezza e completezza.
L'aggiornamento si riferisce al modo in cui una tabella è stata aggiornata di recente. Il monitoraggio della qualità dei dati analizza la cronologia dei commit in una tabella e compila un modello per tabella per stimare l'ora del commit successivo. Se un commit è insolitamente in ritardo, la tabella viene contrassegnata come non aggiornata.
La completezza si riferisce al numero di righe previste per la scrittura nella tabella nelle ultime 24 ore. Il monitoraggio della qualità dei dati analizza il numero di righe cronologico e, in base a questi dati, stima un intervallo di righe previsto. Se il numero di righe di cui è stato eseguito il commit nelle ultime 24 ore è minore del limite inferiore di questo intervallo, una tabella viene contrassegnata come incompleta.
Azure Databricks usa l'analisi intelligente per automatizzare le frequenze di analisi delle tabelle. L'analisi intelligente assegna priorità alle tabelle ad alto impatto in base alla popolarità e all'utilizzo downstream e riduce la frequenza per le tabelle meno critiche. Per escludere manualmente le tabelle, usare l'API Create a Monitor o Update a Monitor e specificare le tabelle escluse nel excluded_table_full_names parametro . Per ulteriori informazioni, vedere la documentazione API.
Il rilevamento anomalie non modifica le tabelle monitorate né aggiunge sovraccarico ai processi che popolano queste tabelle.
Annotazioni
L'aggiornamento degli eventi, basato sulle colonne temporali degli eventi e sulla latenza di inserimento, era disponibile solo per gli utenti della versione beta del monitoraggio della qualità dei dati. Nella versione corrente la freschezza dell'evento non è supportata.
Percentuale nulla per la completezza
Importante
Questa funzionalità è in versione beta. Gli amministratori dell'area di lavoro possono controllare l'accesso a questa funzionalità dalla pagina Anteprime . Consulta Gestisci anteprime Azure Databricks.
La percentuale null aggiunge dettagli di qualità aggiuntivi alla completezza. La percentuale di valori nulli è la percentuale di righe scritte nella tabella nelle ultime 24 ore che ci si aspetta abbiano valori nulli per una determinata colonna. Il monitoraggio della qualità dei dati analizza la tendenza cronologica per ogni colonna e, in base a questi dati, stima un intervallo. Se la percentuale null per una colonna nelle ultime 24 ore è superiore al limite superiore di questo intervallo, una tabella viene contrassegnata come incompleta.
Abilitare il rilevamento anomalie in uno schema
Per abilitare il rilevamento anomalie in uno schema, passare allo schema in Unity Catalog.
Nella pagina dello schema fare clic sulla scheda Dettagli .
Fare clic su Abilita. Nella finestra di dialogo Monitoraggio qualità dei dati verificare che il rilevamento anomalie sia attivato o disattivato, quindi fare clic su Salva.
Viene avviata un'analisi. Databricks analizza automaticamente ogni tabella con la stessa frequenza con cui viene aggiornata, fornendo informazioni dettagliate up-to-date senza richiedere la configurazione manuale per ogni tabella. Per gli schemi abilitati prima del 24 settembre 2025, Databricks ha eseguito il monitoraggio sui dati cronologici ("backtesting") per la prima analisi, per verificare la qualità delle tabelle come se il monitoraggio della qualità dei dati fosse stato abilitato nello schema due settimane fa.
Al termine dell'analisi, è possibile visualizzare i risultati del rilevamento anomalie per le tabelle nei modi seguenti:
- Gli indicatori di salute sono visualizzati in Esplora cataloghi in ogni tabella di uno schema. Vedere Indicatori di salute.
- Nella scheda Dettagli di uno schema con Data Quality Monitoring abilitato fare clic su Visualizza risultati e quindi visualizzare i risultati in Data Quality Monitoring. Vedere Visualizzare i risultati del monitoraggio della qualità dei dati nell'interfaccia utente.
- I problemi di qualità rilevati vengono registrati nella tabella del sistema di output. Consulta Esaminare i risultati registrati del rilevamento delle anomalie.
Disabilitare il rilevamento anomalie
Per disabilitare il rilevamento anomalie:
Fare clic sull'icona a forma di matita.
Nella finestra di dialogo Data Quality Monitoring fare clic sull'interruttore.
Importante
Quando si disabilita il rilevamento anomalie, vengono eliminati il processo di rilevamento anomalie e tutte le tabelle e le informazioni di rilevamento anomalie. Questa azione non può essere annullata.
Fare clic su Salva.
Indicatori di salute
Dopo aver abilitato il rilevamento anomalie in uno schema, gli indicatori di integrità vengono visualizzati nelle pagine di panoramica dello schema e della tabella in Esplora cataloghi. L'indicatore di integrità mostra un riepilogo dell'integrità delle tabelle per i consumer di dati e gli utenti aziendali senza che sia necessario passare all'interfaccia utente di Data Quality Monitoring. Gli utenti devono disporre dell'autorizzazione SELECT o BROWSE per visualizzare lo stato dell'indicatore di integrità.
La tabella seguente descrive ogni stato dell'indicatore di integrità:
| Condizione | Descrizione |
|---|---|
| Sano | Tutti i controlli di rilevamento delle anomalie sono stati superati nell'analisi più recente. |
| Malsano | Uno o più controlli hanno rilevato un'anomalia, ad esempio un problema di aggiornamento o completezza. |
| Formazione | Il rilevamento anomalie sta creando un modello di base dai dati cronologici. Le tabelle appena monitorate visualizzano questo stato fino a quando il modello non dispone di dati sufficienti per valutare la qualità. |
| Error | Il rilevamento delle anomalie ha riscontrato un errore durante il monitoraggio di questa tabella. |
| Escluso | La tabella viene esclusa in modo esplicito dal rilevamento anomalie. |
| Non abilitato | Il rilevamento anomalie non è abilitato nello schema contenente questa tabella. |
Annotazioni
La scansione intelligente potrebbe ritardare il popolamento degli indicatori di salute per alcune tabelle fino a due settimane se la tabella è stata ignorata durante l'analisi iniziale. L'indicatore di stato viene aggiornato nella prossima analisi pianificata.
Visualizzare i risultati del monitoraggio della qualità dei dati nell'interfaccia utente
Importante
Il 7 ottobre 2025 Databricks ha rilasciato una nuova versione dell'interfaccia utente di Data Quality Monitoring. Gli schemi abilitati per il monitoraggio della qualità dei dati su o dopo tale data usano automaticamente questa nuova interfaccia utente. Questa sezione descrive questa versione più recente dell'interfaccia utente.
Per informazioni sull'interfaccia utente legacy, vedere Cruscotto di qualità dei dati (legacy).
Databricks consiglia di abilitare la nuova versione per tutti gli schemi esistenti.
Per abilitare la nuova versione, fare clic sull'interruttore Data Quality Monitoring per disattivare la funzionalità e quindi fare di nuovo clic per riattivarla.
Dopo aver abilitato il monitoraggio della qualità dei dati in uno schema, è possibile aprire la pagina dei risultati facendo clic su Visualizza risultati. È anche possibile accedere ai risultati di tutti gli schemi abilitati per il monitoraggio in Esplora cataloghi.
L'interfaccia utente dei risultati contiene elenchi a discesa del catalogo e dello schema. Quando si seleziona un catalogo, l'elenco a discesa dello schema viene popolato con schemi nel catalogo in cui è abilitato il monitoraggio della qualità dei dati.
Se si dispone di privilegi di GESTIONE o SELECT nel catalogo, è possibile visualizzare gli incidenti a livello di catalogo. Per visualizzare tutti gli eventi imprevisti in un catalogo, selezionare Tutti gli schemi dal menu a discesa Schema .
Per visualizzare gli eventi imprevisti per uno schema specifico, è necessario disporre anche dei privilegi MANAGE o SELECT su tale schema. La selezione di uno schema mostra quindi gli eventi imprevisti solo per tale schema.
La pagina dei risultati mostra una sezione di riepilogo nella parte superiore, che visualizza la qualità complessiva dei dati per l'ambito selezionato, inclusa la percentuale di tabelle integre e la percentuale di schemi/tabelle attualmente monitorate. Di seguito è riportata una tabella che elenca gli eventi imprevisti in tutte le tabelle monitorate nell'ambito selezionato. Usa i pulsanti per visualizzare le tabelle Non salutari, Sani o Errore.
Nella tabella seguente vengono descritte le colonne, leggermente diverse a seconda di se si seleziona Non integro, Integro o Errore.
| colonna | Descrizione |
|---|---|
| Condizione |
Healthy, Unhealthy o Training. |
| Prima rilevata | Quando è stato rilevato il primo evento imprevisto. Viene visualizzato solo nella scheda Non integro . |
| Ultima scansione | Data dell'ultima analisi della tabella. Viene visualizzato solo nella scheda Integro . |
| Ragione | Indica se la tabella è compromessa in termini di freschezza o completezza. Viene visualizzato solo nella scheda Non integro . |
| Causa radice | Informazioni sui processi upstream che contribuiscono al problema (vedere Esaminare i risultati registrati del rilevamento anomalie per informazioni dettagliate). Viene visualizzato solo nella scheda Non integro . |
| Impatto | Misura qualitativa dell'impatto downstream (alto, medio o basso) in base al numero di tabelle downstream e query interessate. |
| Frequenza di scansione | Frequenza con cui la tabella è stata analizzata nell'ultima settimana. |
| Results | Collegamento alla pagina qualità della tabella in cui è possibile visualizzare tendenze cronologiche e visualizzazioni che spiegano il motivo per cui è stata rilevata un'anomalia. |
| Stato errore | Messaggio di errore. Viene visualizzato solo nella scheda Errore . |
| dettagli | Dettagli sul messaggio di errore. Viene visualizzato solo nella scheda Errore . |
Visualizzare i risultati a livello di metastore
Questa sezione fornisce un modello che è possibile importare nell'area di lavoro. Questo modello crea un dashboard che consente di visualizzare tutti i risultati qualitativi nel metastore.
Per usare questo modello, è necessario avere accesso alla system.data_quality_monitoring.table_results tabella. Per impostazione predefinita, solo gli amministratori dell'account hanno accesso a questa tabella. Possono concedere l'accesso ad altri utenti in base alle esigenze.
Come usare il modello
Segui questi passaggi:
- Scaricare il file modello: metastore-quality-dashboard.lvdash.json.
- Nella barra laterale dell'area di lavoro, fare clic su
Dashboard. - Nell'angolo in alto a destra, selezionare Importa dashboard dal file dal menu a discesa del Crea dashboard.
- Nella finestra di dialogo fare clic su Scegli file, passare al file modello e fare clic su Importa dashboard.
Il file viene importato e viene visualizzato il dashboard.
Dettagli sulla qualità della tabella
L'interfaccia utente Dettagli qualità tabella consente di approfondire le tendenze e comprendere perché sono state rilevate anomalie per tabelle specifiche nello schema. È possibile accedere a questa visualizzazione in diversi modi:
- Dall'interfaccia utente dei risultati (nuova esperienza), facendo clic sul collegamento di revisione nell'elenco degli eventi imprevisti.
- Dal dashboard di monitoraggio (dashboard legacy Lakeview) facendo clic sul nome della tabella nella scheda Panoramica qualità.
- Nel visualizzatore della tabella UC, accedendo alla scheda Qualità nella pagina della tabella.
Tutte le opzioni consentono di visualizzare la stessa vista Dettagli qualità tabella per la tabella selezionata.
Data una tabella, l'interfaccia utente mostra i riepiloghi di ogni controllo di qualità per la tabella, con grafici di valori stimati e osservati in ogni timestamp di valutazione. I grafici tracciano i risultati dell'ultima settimana di dati.
Se la tabella non ha superato i controlli di qualità, l'interfaccia utente visualizza anche eventuali processi upstream identificati come causa radice.
Impostare gli avvisi
Per configurare un avviso SQL di Databricks nella tabella dei risultati di output, vedere Avvisi per il rilevamento anomalie.
Limitazioni
- Il rilevamento anomalie non supporta le viste o le tabelle esterne.
- La determinazione della completezza non tiene conto delle metriche, ad esempio la frazione di valori Null, valori zero o NaN.
Rilevamento anomalie legacy
Le sezioni seguenti illustrano due funzionalità legacy: il dashboard data quality e la configurazione del processo di rilevamento anomalie. La versione corrente del rilevamento anomalie non include queste funzionalità. Il dashboard è stato sostituito dall'interfaccia utente dei risultati del monitoraggio della qualità dei dati.
Dashboard Qualità dei dati (legacy)
Dashboard della qualità dei dati (legacy)
Annotazioni
Il dashboard di monitoraggio della qualità dei dati era disponibile solo per gli utenti legacy. Nella versione corrente usare Visualizza i risultati del monitoraggio della qualità dei dati nell'interfaccia utente.
La prima esecuzione del monitoraggio della qualità dei dati crea una dashboard per riepilogare i risultati e le tendenze derivate dalla tabella di log. Il dashboard viene popolato automaticamente con informazioni dettagliate per lo schema analizzato. Un singolo dashboard viene creato per ogni area di lavoro in questo percorso: /Shared/Databricks Quality Monitoring/Data Quality Monitoring.
Panoramica della qualità
La scheda Panoramica qualità mostra un riepilogo dello stato di qualità più recente delle tabelle nello schema in base alla valutazione più recente.
Per iniziare, è necessario immettere la tabella di registrazione per lo schema da analizzare per popolare il dashboard.
La sezione superiore del dashboard mostra una panoramica dei risultati dell'analisi.
Di seguito è riportata una tabella che elenca gli incidenti di qualità in base all'impatto. Tutte le cause radice identificate vengono visualizzate nella root_cause_analysis colonna .
Sotto la tabella degli eventi imprevisti di qualità è riportata una tabella delle tabelle statiche identificate che non sono state aggiornate da molto tempo.
Impostare i parametri per la valutazione della freschezza e della completezza (legacy)
Impostare i parametri per la valutazione della freschezza e della completezza (legacy)
Annotazioni
A partire dal 21 luglio 2025, la configurazione dei parametri del processo non è supportata per i nuovi clienti. Se è necessario configurare le impostazioni del processo, contattare Databricks.
Per modificare i parametri che controllano il processo, ad esempio la frequenza con cui viene eseguito il processo o il nome della tabella dei risultati registrati, è necessario modificare i parametri del processo nella scheda Attività della pagina del processo.
Le sezioni seguenti descrivono impostazioni specifiche. Per informazioni su come impostare i parametri dell'attività, vedere Configurare i parametri dell'attività.
Pianificazione e notifiche (Legacy)
Per personalizzare la pianificazione per il processo o per configurare le notifiche, usare le impostazioni Pianificazioni e trigger nella pagina processi. Vedere Automazione dei processi con pianificazioni e trigger.
Nome della tabella di registrazione (legacy)
Per modificare il nome della tabella di registrazione o salvare la tabella in uno schema diverso, modificare il parametro logging_table_name dell'attività del processo e specificare il nome desiderato. Per salvare la tabella di registrazione in uno schema diverso, specificare il nome completo a 3 livelli.
Personalizzare freshness e completeness valutazioni ("legacy")
Tutti i parametri in questa sezione sono facoltativi. Per impostazione predefinita, il rilevamento anomalie determina le soglie in base a un'analisi della cronologia della tabella.
Questi parametri sono campi all'interno del parametro metric_configsdell'attività . Il formato di metric_configs è una stringa JSON con i valori predefiniti seguenti:
[
{
"disable_check": false,
"tables_to_skip": null,
"tables_to_scan": null,
"table_threshold_overrides": null,
"table_latency_threshold_overrides": null,
"static_table_threshold_override": null,
"event_timestamp_col_names": null,
"metric_type": "FreshnessConfig"
},
{
"disable_check": true,
"tables_to_skip": null,
"tables_to_scan": null,
"table_threshold_overrides": null,
"metric_type": "CompletenessConfig"
}
]
I seguenti parametri possono essere usati sia per le valutazioni di freshness sia per quelle di completeness.
| Nome del campo | Descrizione | Esempio |
|---|---|---|
tables_to_scan |
Vengono analizzate solo le tabelle specificate. | ["table_to_scan", "another_table_to_scan"] |
tables_to_skip |
Le tabelle specificate vengono ignorate durante l'analisi. | ["table_to_skip"] |
disable_check |
L'analisi non viene eseguita. Utilizza questo parametro se si vuole disabilitare solo la scansione freshness o solo la scansione completeness. |
true, false |
I parametri seguenti si applicano solo alla freshness valutazione:
| Nome del campo | Descrizione | Esempio |
|---|---|---|
event_timestamp_col_names |
Elenco delle tabelle con colonne timestamp nel tuo schema. Se una tabella contiene una di queste colonne, viene contrassegnata Unhealthy se viene superato il valore massimo di questa colonna. L'uso di questo parametro può aumentare il tempo di valutazione e i costi. |
["timestamp", "date"] |
table_threshold_overrides |
Dizionario costituito da nomi di tabella e soglie (in secondi) che specificano l'intervallo massimo dall'ultimo aggiornamento della tabella prima di contrassegnare una tabella come Unhealthy. |
{"table_0": 86400} |
table_latency_threshold_overrides |
Dizionario costituito da nomi di tabella e soglie di latenza (in secondi) che specificano l'intervallo massimo dall'ultimo timestamp nella tabella prima di contrassegnare una tabella come Unhealthy. |
{"table_1": 3600} |
static_table_threshold_override |
Quantità di tempo (in secondi) prima che una tabella venga considerata una tabella statica ( ovvero una tabella non più aggiornata). | 2592000 |
Il parametro seguente si applica solo alla completeness valutazione:
| Nome del campo | Descrizione | Esempio |
|---|---|---|
table_threshold_overrides |
Dizionario costituito da nomi di tabella e soglie del volume di riga (specificati come numeri interi). Se il numero di righe aggiunte a una tabella nelle 24 ore precedenti è minore della soglia specificata, la tabella viene contrassegnata come Unhealthy. |
{"table_0": 1000} |