Condividi tramite


Rilevamento anomalie

Importante

Questa funzionalità è in Anteprima Pubblica.

Questa pagina descrive cos'è il rilevamento delle anomalie, cosa monitora e come utilizzarlo.

Importante

Il rilevamento anomalie usa l'archiviazione predefinita per archiviare i risultati dell'analisi nella tabella di system.data_quality_monitoring.table_results sistema. Non viene addebitato alcun costo per questa risorsa di archiviazione.

Che cos'è il rilevamento anomalie?

Il rilevamento anomalie consente di monitorare la qualità dei dati in tutte le tabelle in uno schema. Analizzando i modelli cronologici, Azure Databricks valuta automaticamente la completezza e l'aggiornamento di ogni tabella. I risultati sono disponibili in Esplora cataloghi.

Requisiti

  • Area di lavoro con Unity Catalog abilitato.
  • Le risorse di calcolo serverless devono essere disponibili nell'area di lavoro (abilitate per impostazione predefinita nelle aree di lavoro con il catalogo Unity).
  • Per abilitare il rilevamento anomalie in uno schema, è necessario disporre dei privilegi MANAGE SCHEMA o MANAGE CATALOG per lo schema del catalogo.
  • Per visualizzare lo stato dell'indicatore di integrità delle tabelle, sono necessari SELECT o privilegi BROWSE.

Come funziona il rilevamento anomalie?

Azure Databricks crea un processo in background che monitora le tabelle per la loro freschezza e completezza.

L'aggiornamento si riferisce al modo in cui una tabella è stata aggiornata di recente. Il monitoraggio della qualità dei dati analizza la cronologia dei commit in una tabella e compila un modello per tabella per stimare l'ora del commit successivo. Se un commit è insolitamente in ritardo, la tabella viene contrassegnata come non aggiornata.

La completezza si riferisce al numero di righe previste per la scrittura nella tabella nelle ultime 24 ore. Il monitoraggio della qualità dei dati analizza il numero di righe cronologico e, in base a questi dati, stima un intervallo di righe previsto. Se il numero di righe di cui è stato eseguito il commit nelle ultime 24 ore è minore del limite inferiore di questo intervallo, una tabella viene contrassegnata come incompleta.

Azure Databricks usa l'analisi intelligente per automatizzare le frequenze di analisi delle tabelle. L'analisi intelligente assegna priorità alle tabelle ad alto impatto in base alla popolarità e all'utilizzo downstream e riduce la frequenza per le tabelle meno critiche. Per escludere manualmente le tabelle, usare l'API Create a Monitor o Update a Monitor e specificare le tabelle escluse nel excluded_table_full_names parametro . Per ulteriori informazioni, vedere la documentazione API.

Il rilevamento anomalie non modifica le tabelle monitorate né aggiunge sovraccarico ai processi che popolano queste tabelle.

Annotazioni

L'aggiornamento degli eventi, basato sulle colonne temporali degli eventi e sulla latenza di inserimento, era disponibile solo per gli utenti della versione beta del monitoraggio della qualità dei dati. Nella versione corrente la freschezza dell'evento non è supportata.

Percentuale nulla per la completezza

Importante

Questa funzionalità è in versione beta. Gli amministratori dell'area di lavoro possono controllare l'accesso a questa funzionalità dalla pagina Anteprime . Consulta Gestisci anteprime Azure Databricks.

La percentuale null aggiunge dettagli di qualità aggiuntivi alla completezza. La percentuale di valori nulli è la percentuale di righe scritte nella tabella nelle ultime 24 ore che ci si aspetta abbiano valori nulli per una determinata colonna. Il monitoraggio della qualità dei dati analizza la tendenza cronologica per ogni colonna e, in base a questi dati, stima un intervallo. Se la percentuale null per una colonna nelle ultime 24 ore è superiore al limite superiore di questo intervallo, una tabella viene contrassegnata come incompleta.

Abilitare il rilevamento anomalie in uno schema

Per abilitare il rilevamento anomalie in uno schema, passare allo schema in Unity Catalog.

  1. Nella pagina dello schema fare clic sulla scheda Dettagli .

    Scheda Dettagli per la pagina dello schema in Esplora cataloghi.

  2. Fare clic su Abilita. Nella finestra di dialogo Monitoraggio qualità dei dati verificare che il rilevamento anomalie sia attivato o disattivato, quindi fare clic su Salva.

  3. Viene avviata un'analisi. Databricks analizza automaticamente ogni tabella con la stessa frequenza con cui viene aggiornata, fornendo informazioni dettagliate up-to-date senza richiedere la configurazione manuale per ogni tabella. Per gli schemi abilitati prima del 24 settembre 2025, Databricks ha eseguito il monitoraggio sui dati cronologici ("backtesting") per la prima analisi, per verificare la qualità delle tabelle come se il monitoraggio della qualità dei dati fosse stato abilitato nello schema due settimane fa.

  4. Al termine dell'analisi, è possibile visualizzare i risultati del rilevamento anomalie per le tabelle nei modi seguenti:

Disabilitare il rilevamento anomalie

Per disabilitare il rilevamento anomalie:

  1. Fare clic sull'icona a forma di matita.

    Icona a forma di matita nel campo Avanzate della scheda Dettagli.

  2. Nella finestra di dialogo Data Quality Monitoring fare clic sull'interruttore.

    Importante

    Quando si disabilita il rilevamento anomalie, vengono eliminati il processo di rilevamento anomalie e tutte le tabelle e le informazioni di rilevamento anomalie. Questa azione non può essere annullata.

    Interruttore a levetta nella finestra di dialogo Monitoraggio qualità dei dati.

  3. Fare clic su Salva.

Indicatori di salute

Dopo aver abilitato il rilevamento anomalie in uno schema, gli indicatori di integrità vengono visualizzati nelle pagine di panoramica dello schema e della tabella in Esplora cataloghi. L'indicatore di integrità mostra un riepilogo dell'integrità delle tabelle per i consumer di dati e gli utenti aziendali senza che sia necessario passare all'interfaccia utente di Data Quality Monitoring. Gli utenti devono disporre dell'autorizzazione SELECT o BROWSE per visualizzare lo stato dell'indicatore di integrità.

Indicatori di salute per le tabelle in uno schema.

La tabella seguente descrive ogni stato dell'indicatore di integrità:

Condizione Descrizione
Sano Tutti i controlli di rilevamento delle anomalie sono stati superati nell'analisi più recente.
Malsano Uno o più controlli hanno rilevato un'anomalia, ad esempio un problema di aggiornamento o completezza.
Formazione Il rilevamento anomalie sta creando un modello di base dai dati cronologici. Le tabelle appena monitorate visualizzano questo stato fino a quando il modello non dispone di dati sufficienti per valutare la qualità.
Error Il rilevamento delle anomalie ha riscontrato un errore durante il monitoraggio di questa tabella.
Escluso La tabella viene esclusa in modo esplicito dal rilevamento anomalie.
Non abilitato Il rilevamento anomalie non è abilitato nello schema contenente questa tabella.

Annotazioni

La scansione intelligente potrebbe ritardare il popolamento degli indicatori di salute per alcune tabelle fino a due settimane se la tabella è stata ignorata durante l'analisi iniziale. L'indicatore di stato viene aggiornato nella prossima analisi pianificata.

Visualizzare i risultati del monitoraggio della qualità dei dati nell'interfaccia utente

Importante

Il 7 ottobre 2025 Databricks ha rilasciato una nuova versione dell'interfaccia utente di Data Quality Monitoring. Gli schemi abilitati per il monitoraggio della qualità dei dati su o dopo tale data usano automaticamente questa nuova interfaccia utente. Questa sezione descrive questa versione più recente dell'interfaccia utente.

Per informazioni sull'interfaccia utente legacy, vedere Cruscotto di qualità dei dati (legacy).

Databricks consiglia di abilitare la nuova versione per tutti gli schemi esistenti.

Per abilitare la nuova versione, fare clic sull'interruttore Data Quality Monitoring per disattivare la funzionalità e quindi fare di nuovo clic per riattivarla.

Dopo aver abilitato il monitoraggio della qualità dei dati in uno schema, è possibile aprire la pagina dei risultati facendo clic su Visualizza risultati. È anche possibile accedere ai risultati di tutti gli schemi abilitati per il monitoraggio in Esplora cataloghi.

L'interfaccia utente dei risultati contiene elenchi a discesa del catalogo e dello schema. Quando si seleziona un catalogo, l'elenco a discesa dello schema viene popolato con schemi nel catalogo in cui è abilitato il monitoraggio della qualità dei dati.

  • Se si dispone di privilegi di GESTIONE o SELECT nel catalogo, è possibile visualizzare gli incidenti a livello di catalogo. Per visualizzare tutti gli eventi imprevisti in un catalogo, selezionare Tutti gli schemi dal menu a discesa Schema .

    Selezionare Tutti gli schemi dal menu a discesa Schema.

  • Per visualizzare gli eventi imprevisti per uno schema specifico, è necessario disporre anche dei privilegi MANAGE o SELECT su tale schema. La selezione di uno schema mostra quindi gli eventi imprevisti solo per tale schema.

La pagina dei risultati mostra una sezione di riepilogo nella parte superiore, che visualizza la qualità complessiva dei dati per l'ambito selezionato, inclusa la percentuale di tabelle integre e la percentuale di schemi/tabelle attualmente monitorate. Di seguito è riportata una tabella che elenca gli eventi imprevisti in tutte le tabelle monitorate nell'ambito selezionato. Usa i pulsanti per visualizzare le tabelle Non salutari, Sani o Errore.

Interfaccia utente degli eventi imprevisti con riepilogo, eventi imprevisti importanti e tutte le schede degli eventi imprevisti.

Nella tabella seguente vengono descritte le colonne, leggermente diverse a seconda di se si seleziona Non integro, Integro o Errore.

colonna Descrizione
Condizione Healthy, Unhealthy o Training.
Prima rilevata Quando è stato rilevato il primo evento imprevisto. Viene visualizzato solo nella scheda Non integro .
Ultima scansione Data dell'ultima analisi della tabella. Viene visualizzato solo nella scheda Integro .
Ragione Indica se la tabella è compromessa in termini di freschezza o completezza. Viene visualizzato solo nella scheda Non integro .
Causa radice Informazioni sui processi upstream che contribuiscono al problema (vedere Esaminare i risultati registrati del rilevamento anomalie per informazioni dettagliate). Viene visualizzato solo nella scheda Non integro .
Impatto Misura qualitativa dell'impatto downstream (alto, medio o basso) in base al numero di tabelle downstream e query interessate.
Frequenza di scansione Frequenza con cui la tabella è stata analizzata nell'ultima settimana.
Results Collegamento alla pagina qualità della tabella in cui è possibile visualizzare tendenze cronologiche e visualizzazioni che spiegano il motivo per cui è stata rilevata un'anomalia.
Stato errore Messaggio di errore. Viene visualizzato solo nella scheda Errore .
dettagli Dettagli sul messaggio di errore. Viene visualizzato solo nella scheda Errore .

Visualizzare i risultati a livello di metastore

Questa sezione fornisce un modello che è possibile importare nell'area di lavoro. Questo modello crea un dashboard che consente di visualizzare tutti i risultati qualitativi nel metastore.

Per usare questo modello, è necessario avere accesso alla system.data_quality_monitoring.table_results tabella. Per impostazione predefinita, solo gli amministratori dell'account hanno accesso a questa tabella. Possono concedere l'accesso ad altri utenti in base alle esigenze.

Come usare il modello

Segui questi passaggi:

  1. Scaricare il file modello: metastore-quality-dashboard.lvdash.json.
  2. Nella barra laterale dell'area di lavoro, fare clic su Icona dashboardDashboard.
  3. Nell'angolo in alto a destra, selezionare Importa dashboard dal file dal menu a discesa del Crea dashboard.
  4. Nella finestra di dialogo fare clic su Scegli file, passare al file modello e fare clic su Importa dashboard.

Il file viene importato e viene visualizzato il dashboard.

Esempio di dashboard della qualità dei dati a livello di metastore.

Dettagli sulla qualità della tabella

L'interfaccia utente Dettagli qualità tabella consente di approfondire le tendenze e comprendere perché sono state rilevate anomalie per tabelle specifiche nello schema. È possibile accedere a questa visualizzazione in diversi modi:

  • Dall'interfaccia utente dei risultati (nuova esperienza), facendo clic sul collegamento di revisione nell'elenco degli eventi imprevisti.
  • Dal dashboard di monitoraggio (dashboard legacy Lakeview) facendo clic sul nome della tabella nella scheda Panoramica qualità.
  • Nel visualizzatore della tabella UC, accedendo alla scheda Qualità nella pagina della tabella.

Tutte le opzioni consentono di visualizzare la stessa vista Dettagli qualità tabella per la tabella selezionata.

Data una tabella, l'interfaccia utente mostra i riepiloghi di ogni controllo di qualità per la tabella, con grafici di valori stimati e osservati in ogni timestamp di valutazione. I grafici tracciano i risultati dell'ultima settimana di dati.

Interfaccia utente per i dettagli sulla qualità della tabella per il rilevamento delle anomalie.

Se la tabella non ha superato i controlli di qualità, l'interfaccia utente visualizza anche eventuali processi upstream identificati come causa radice.

Tabella dei dettagli di qualità delle cause principali dell'interfaccia utente.

Impostare gli avvisi

Per configurare un avviso SQL di Databricks nella tabella dei risultati di output, vedere Avvisi per il rilevamento anomalie.

Limitazioni

  • Il rilevamento anomalie non supporta le viste o le tabelle esterne.
  • La determinazione della completezza non tiene conto delle metriche, ad esempio la frazione di valori Null, valori zero o NaN.

Rilevamento anomalie legacy

Le sezioni seguenti illustrano due funzionalità legacy: il dashboard data quality e la configurazione del processo di rilevamento anomalie. La versione corrente del rilevamento anomalie non include queste funzionalità. Il dashboard è stato sostituito dall'interfaccia utente dei risultati del monitoraggio della qualità dei dati.

Dashboard Qualità dei dati (legacy)

Dashboard della qualità dei dati (legacy)

Annotazioni

Il dashboard di monitoraggio della qualità dei dati era disponibile solo per gli utenti legacy. Nella versione corrente usare Visualizza i risultati del monitoraggio della qualità dei dati nell'interfaccia utente.

La prima esecuzione del monitoraggio della qualità dei dati crea una dashboard per riepilogare i risultati e le tendenze derivate dalla tabella di log. Il dashboard viene popolato automaticamente con informazioni dettagliate per lo schema analizzato. Un singolo dashboard viene creato per ogni area di lavoro in questo percorso: /Shared/Databricks Quality Monitoring/Data Quality Monitoring.

Panoramica della qualità

La scheda Panoramica qualità mostra un riepilogo dello stato di qualità più recente delle tabelle nello schema in base alla valutazione più recente.

Per iniziare, è necessario immettere la tabella di registrazione per lo schema da analizzare per popolare il dashboard.

La sezione superiore del dashboard mostra una panoramica dei risultati dell'analisi.

Riepilogo dello schema del monitor di qualità dei dati nella scheda Panoramica della qualità del dashboard.

Di seguito è riportata una tabella che elenca gli incidenti di qualità in base all'impatto. Tutte le cause radice identificate vengono visualizzate nella root_cause_analysis colonna .

Incidenti di qualità in base all'impatto nella scheda Panoramica della Qualità del dashboard.

Sotto la tabella degli eventi imprevisti di qualità è riportata una tabella delle tabelle statiche identificate che non sono state aggiornate da molto tempo.

Impostare i parametri per la valutazione della freschezza e della completezza (legacy)

Impostare i parametri per la valutazione della freschezza e della completezza (legacy)

Annotazioni

A partire dal 21 luglio 2025, la configurazione dei parametri del processo non è supportata per i nuovi clienti. Se è necessario configurare le impostazioni del processo, contattare Databricks.

Per modificare i parametri che controllano il processo, ad esempio la frequenza con cui viene eseguito il processo o il nome della tabella dei risultati registrati, è necessario modificare i parametri del processo nella scheda Attività della pagina del processo.

Pagina dei processi che mostra l'attività di rilevamento delle anomalie.

Le sezioni seguenti descrivono impostazioni specifiche. Per informazioni su come impostare i parametri dell'attività, vedere Configurare i parametri dell'attività.

Pianificazione e notifiche (Legacy)

Per personalizzare la pianificazione per il processo o per configurare le notifiche, usare le impostazioni Pianificazioni e trigger nella pagina processi. Vedere Automazione dei processi con pianificazioni e trigger.

Nome della tabella di registrazione (legacy)

Per modificare il nome della tabella di registrazione o salvare la tabella in uno schema diverso, modificare il parametro logging_table_name dell'attività del processo e specificare il nome desiderato. Per salvare la tabella di registrazione in uno schema diverso, specificare il nome completo a 3 livelli.

Personalizzare freshness e completeness valutazioni ("legacy")

Tutti i parametri in questa sezione sono facoltativi. Per impostazione predefinita, il rilevamento anomalie determina le soglie in base a un'analisi della cronologia della tabella.

Questi parametri sono campi all'interno del parametro metric_configsdell'attività . Il formato di metric_configs è una stringa JSON con i valori predefiniti seguenti:

[
  {
    "disable_check": false,
    "tables_to_skip": null,
    "tables_to_scan": null,
    "table_threshold_overrides": null,
    "table_latency_threshold_overrides": null,
    "static_table_threshold_override": null,
    "event_timestamp_col_names": null,
    "metric_type": "FreshnessConfig"
  },
  {
    "disable_check": true,
    "tables_to_skip": null,
    "tables_to_scan": null,
    "table_threshold_overrides": null,
    "metric_type": "CompletenessConfig"
  }
]

I seguenti parametri possono essere usati sia per le valutazioni di freshness sia per quelle di completeness.

Nome del campo Descrizione Esempio
tables_to_scan Vengono analizzate solo le tabelle specificate. ["table_to_scan", "another_table_to_scan"]
tables_to_skip Le tabelle specificate vengono ignorate durante l'analisi. ["table_to_skip"]
disable_check L'analisi non viene eseguita. Utilizza questo parametro se si vuole disabilitare solo la scansione freshness o solo la scansione completeness. true, false

I parametri seguenti si applicano solo alla freshness valutazione:

Nome del campo Descrizione Esempio
event_timestamp_col_names Elenco delle tabelle con colonne timestamp nel tuo schema. Se una tabella contiene una di queste colonne, viene contrassegnata Unhealthy se viene superato il valore massimo di questa colonna. L'uso di questo parametro può aumentare il tempo di valutazione e i costi. ["timestamp", "date"]
table_threshold_overrides Dizionario costituito da nomi di tabella e soglie (in secondi) che specificano l'intervallo massimo dall'ultimo aggiornamento della tabella prima di contrassegnare una tabella come Unhealthy. {"table_0": 86400}
table_latency_threshold_overrides Dizionario costituito da nomi di tabella e soglie di latenza (in secondi) che specificano l'intervallo massimo dall'ultimo timestamp nella tabella prima di contrassegnare una tabella come Unhealthy. {"table_1": 3600}
static_table_threshold_override Quantità di tempo (in secondi) prima che una tabella venga considerata una tabella statica ( ovvero una tabella non più aggiornata). 2592000

Il parametro seguente si applica solo alla completeness valutazione:

Nome del campo Descrizione Esempio
table_threshold_overrides Dizionario costituito da nomi di tabella e soglie del volume di riga (specificati come numeri interi). Se il numero di righe aggiunte a una tabella nelle 24 ore precedenti è minore della soglia specificata, la tabella viene contrassegnata come Unhealthy. {"table_0": 1000}