Compartir a través de


Detección de anomalías

Importante

Esta característica está en versión preliminar pública.

En esta página se describe qué es la detección de anomalías, qué supervisa y cómo usarla.

Importante

La detección de anomalías usa el almacenamiento predeterminado para almacenar los resultados del examen en la tabla del system.data_quality_monitoring.table_results sistema. No se le factura este almacenamiento.

¿Qué es la detección de anomalías?

La detección de anomalías permite supervisar la calidad de los datos en todas las tablas de un esquema. Al analizar patrones históricos, Azure Databricks evalúa automáticamente la integridad y la actualización de cada tabla. Los resultados están disponibles en el Explorador de catálogos.

Requisitos

  • Área de trabajo habilitada para el catálogo de Unity.
  • El proceso sin servidor debe estar disponible en el área de trabajo (habilitada de forma predeterminada en áreas de trabajo con el catálogo de Unity).
  • Para habilitar la detección de anomalías en un esquema, debe tener privilegios MANAGE SCHEMA o MANAGE CATALOG en el esquema de catálogo.
  • Para ver el estado del indicador de salud de las tablas, necesita SELECT o privilegios de exploración.

¿Cómo funciona la detección de anomalías?

Azure Databricks crea un trabajo en segundo plano que supervisa las tablas para verificar su actualidad y completitud.

Actualización hace referencia a la actualización de una tabla recientemente. La supervisión de la calidad de los datos analiza el historial de confirmaciones en una tabla y crea un modelo por tabla para predecir la hora de la siguiente confirmación. Si una confirmación es inusualmente tardía, la tabla se marca como obsoleta.

Integridad hace referencia al número de filas que se espera que se escriban en la tabla en las últimas 24 horas. La supervisión de la calidad de los datos analiza el recuento histórico de filas y, basándose en estos datos, predice el número esperado de filas. Si el número de filas confirmadas en las últimas 24 horas es menor que el límite inferior de este intervalo, una tabla se marca como incompleta.

Azure Databricks usa el examen inteligente para automatizar las frecuencias de examen de tablas. El escaneo inteligente da prioridad a las tablas de alto impacto, según lo determinado por la popularidad y el uso posterior, y reduce la frecuencia para las tablas menos críticas. Para excluir manualmente las tablas, use la API Create a Monitor o Update a Monitor y especifique las tablas excluidas en el excluded_table_full_names parámetro . Para obtener más información, consulte la documentación de la API.

La detección de anomalías no modifica ninguna tabla que supervisa ni agrega sobrecarga a los trabajos que rellenan estas tablas.

Nota:

La actualización de eventos, que se basa en columnas de tiempo de evento y latencia de ingesta, solo estaba disponible para los usuarios de la versión beta de supervisión de calidad de datos. En la versión actual, no se admite la actualización de eventos.

Porcentaje nulo para la integridad

Importante

Esta característica se encuentra en su versión beta. Los administradores del área de trabajo pueden controlar el acceso a esta característica desde la página Vistas previas . Consulte Administrar versiones preliminares de Azure Databricks.

El porcentaje nulo agrega detalles adicionales de calidad a la integridad. Percent null es el porcentaje de filas escritas en la tabla en las últimas 24 horas que se espera que tengan valores NULL para una columna determinada. La supervisión de la calidad de los datos analiza la tendencia histórica de cada columna y, en función de estos datos, predice un intervalo. Si el porcentaje NULL de una columna en las últimas 24 horas es mayor que el límite superior de este intervalo, una tabla se marca como incompleta.

Habilitación de la detección de anomalías en un esquema

Para habilitar la detección de anomalías en un esquema, vaya al esquema en el catálogo de Unity.

  1. En la página de esquema, haga clic en la pestaña Detalles.

    pestaña de detalles de la página de esquema en el Explorador de catálogos.

  2. Haga clic en Habilitar. En el cuadro de diálogo Supervisión de la calidad de los datos, asegúrese de que la detección de anomalías está activada y, a continuación, haga clic en Guardar.

  3. Se inicia un examen. Databricks explora automáticamente cada tabla con la misma frecuencia que se actualiza, lo que proporciona información actualizada sin necesidad de realizar la configuración manual de cada tabla. En el caso de los esquemas habilitados antes del 24 de septiembre de 2025, Databricks ejecutó el monitor en datos históricos ("backtesting") para el primer examen, para comprobar la calidad de las tablas como si la supervisión de calidad de datos se hubiera habilitado en el esquema hace dos semanas.

  4. Una vez completado el examen, puede ver los resultados de la detección de anomalías de las tablas de las maneras siguientes:

Deshabilitar la detección de anomalías

Para deshabilitar la detección de anomalías:

  1. Haga clic en el icono de lápiz.

    Icono de lápiz en el campo Avanzado de la pestaña Detalles.

  2. En el cuadro de diálogo Supervisión de la calidad de los datos , haga clic en el botón de alternancia.

    Importante

    Al deshabilitar la detección de anomalías, se eliminan el trabajo de detección de anomalías y todas las tablas e información de detección de anomalías. Esta acción no se puede deshacer.

    Conmutador en el cuadro de diálogo de Supervisión de la calidad de los datos.

  3. Haz clic en Guardar.

Indicadores de salud

Después de habilitar la detección de anomalías en un esquema, los indicadores de estado aparecen en las páginas de información general de esquema y tabla en el Explorador de catálogos. El indicador de estado muestra un resumen del estado de la tabla para los consumidores de datos y los usuarios empresariales sin necesidad de navegar a la interfaz de usuario de Supervisión de la calidad de los datos. Los usuarios necesitan el permiso SELECT o BROWSE para ver el estado del indicador de salud.

Indicadores de estado de las tablas de un esquema.

La siguiente tabla describe cada estado del indicador de salud.

Situación Descripción
Saludable Todas las comprobaciones de detección de anomalías fueron superadas en el examen más reciente.
Unhealthy Una o varias comprobaciones detectaron una anomalía, como un problema de actualización o integridad.
Formación La detección de anomalías está creando un modelo de línea base a partir de datos históricos. Las tablas recién supervisadas muestran este estado hasta que el modelo tiene suficientes datos para evaluar la calidad.
Error La detección de anomalías encontró un error al supervisar esta tabla.
Excluido La tabla se excluye explícitamente de la detección de anomalías.
no habilitado. La detección de anomalías no está habilitada en el esquema que contiene esta tabla.

Nota:

El examen inteligente podría retrasar la población de indicadores de salud de algunas tablas hasta dos semanas si la tabla se omitió durante el examen inicial. El indicador de salud se rellena en la siguiente reexploración programada.

Visualización de los resultados de la supervisión de la calidad de los datos en la interfaz de usuario

Importante

El 7 de octubre de 2025, Databricks publicó una nueva versión de la interfaz de usuario de supervisión de calidad de datos. Los esquemas habilitados para la supervisión de la calidad de los datos en o después de esa fecha usan automáticamente esta nueva interfaz de usuario. En esta sección se describe esta versión más reciente de la interfaz de usuario.

Para obtener información sobre la interfaz de usuario heredada, consulte Panel de calidad de datos (heredado).

Databricks recomienda habilitar la nueva versión para todos los esquemas existentes.

Para habilitar la nueva versión, haga clic en el botón de alternancia Supervisión de calidad de datos para desactivar la característica y, a continuación, haga clic de nuevo para volver a activarla.

Después de habilitar la supervisión de la calidad de los datos en un esquema, puede abrir la página de resultados haciendo clic en Ver resultados. También puede acceder a los resultados de todos los esquemas que tienen habilitada la supervisión en el Explorador de catálogos.

La interfaz de usuario de resultados contiene listas desplegables de catálogos y esquemas. Al seleccionar un catálogo, la lista desplegable de esquemas se rellena con esquemas de ese catálogo que tienen habilitada la supervisión de la calidad de los datos.

  • Si tiene privilegios de ADMINISTRAR o SELECT en el catálogo, puede ver incidentes a nivel de catálogo. Para ver todos los incidentes de un catálogo, seleccione Todos los esquemas en el menú desplegable Esquema .

    Seleccione 'Todos los esquemas' en el menú desplegable 'Esquema'.

  • Para ver incidentes de un esquema específico, también debe tener MANAGE u otros privilegios en ese esquema. Al seleccionar un esquema, se muestran incidentes solo para ese esquema.

La página de resultados muestra una sección de resumen en la parte superior, que muestra la calidad general de los datos para el ámbito seleccionado, incluido el porcentaje de tablas correctas y el porcentaje de esquemas o tablas supervisados actualmente. Debajo de esta sección se muestra una tabla que enumera incidentes en todas las tablas supervisadas en el ámbito seleccionado. Utilice los botones para mostrar las tablas No saludable, Saludable o Error.

Interfaz de usuario de incidentes que muestra resumen, incidentes importantes y todas las pestañas de incidentes.

En la tabla siguiente se describen las columnas, que son ligeramente diferentes en función de si selecciona Incorrecto, Correcto o Error.

Columna Descripción
Situación Healthy, Unhealthy, o Training.
Detectado por primera vez Cuando se detectó el primer incidente. Solo aparece en la pestaña No saludable.
Último examen Cuando se examinó por última vez la tabla. Solo aparece en la pestaña Saludable.
Motivo Indica si la tabla es inadecuada debido a la frescura o a la completitud. Solo aparece en la pestaña No saludable.
Causa principal Información sobre los trabajos ascendentes que contribuyen al problema (consulte Revisión de los resultados registrados de detección de anomalías para obtener más información). Solo aparece en la pestaña No saludable.
Impacto Una medida cualitativa del impacto descendente (alto, medio o bajo), en función del número de tablas y consultas de bajada afectadas.
Frecuencia de escaneo Frecuencia con la que se examinó la tabla en la última semana.
Results Vínculo a la página de calidad de la tabla donde puede ver tendencias históricas y visualizaciones que explican por qué se detectó una anomalía.
Estado de error Mensaje de error. Solo aparece en la pestaña Error .
Detalles Detalles sobre el mensaje de error. Solo aparece en la pestaña Error .

Ver resultados de nivel de metastore

En esta sección se proporciona una plantilla que puede importar en el área de trabajo. Esta plantilla crea un panel que le permite ver todos los resultados de calidad en el metastore.

Para usar esta plantilla, debe tener acceso a la system.data_quality_monitoring.table_results tabla. De forma predeterminada, solo los administradores de cuentas tienen acceso a esta tabla. Pueden conceder acceso a otros usuarios según sea necesario.

Uso de la plantilla

Siga estos pasos:

  1. Descargue el archivo de plantilla: metastore-quality-dashboard.lvdash.json.
  2. En la barra lateral del área de trabajo, haga clic en Icono de los PanelesPaneles.
  3. En la esquina superior derecha, en el menú desplegable Crear panel, seleccione Importar panel desde archivo.
  4. En el cuadro de diálogo, haga clic en Elegir archivo, vaya al archivo de plantilla y haga clic en Importar panel.

El archivo se importa y aparece el panel.

Ejemplo de panel sobre la calidad de datos a nivel de metastore.

Detalles de calidad de la tabla

La interfaz de usuario detalles de calidad de la tabla permite profundizar en las tendencias y comprender por qué se detectaron anomalías para tablas específicas en el esquema. Puede acceder a esta vista de varias maneras:

  • En la interfaz de usuario de resultados (nueva experiencia), haga clic en el enlace de revisión en la lista de incidentes.
  • En el panel de supervisión (panel heredado de Lakeview), haga clic en el nombre de la tabla en la pestaña Información general de calidad.
  • Desde el visor de tabla UC, visite la pestaña Calidad en la página de la tabla.

Todas las opciones le llevan a la misma vista Detalles de Calidad de la Tabla para la tabla seleccionada.

Dada una tabla, la interfaz de usuario muestra resúmenes de cada comprobación de calidad de la tabla, con gráficos de valores predichos y observados en cada marca de tiempo de evaluación. Los gráficos trazan los resultados de la última semana de datos.

Interfaz de usuario de detalles de calidad de tabla para la detección de anomalías.

Si la tabla no superó las comprobaciones de calidad, la IU también muestra los trabajos ascendentes identificados como la causa raíz.

Tabla de la causa raíz de IU de detalles de calidad de la tabla.

Configuración de alertas

Para configurar una alerta de SQL de Databricks en la tabla de resultados de salida, consulte Alertas para la detección de anomalías.

Limitaciones

  • La detección de anomalías no admite vistas ni tablas externas.
  • La determinación de completitud no tiene en cuenta métricas como la fracción de valores null, cero o NaN.

Detección de anomalías de legado

En las secciones siguientes se tratan dos características heredadas: el panel de calidad de datos y la configuración del trabajo de detección de anomalías. La versión actual de la detección de anomalías no incluye estas características. El panel se ha reemplazado por la interfaz de usuario de resultados de supervisión de calidad de datos.

Panel de calidad de datos (heredado)

Panel de calidad de datos (heredado)

Nota:

El panel de supervisión de la calidad de los datos solo estaba accesible para los usuarios antiguos. En la versión actual, use Ver los resultados de la supervisión de la calidad de los datos en la interfaz de usuario.

La primera ejecución del monitor de calidad de datos crea un tablero que resume los resultados y tendencias derivados de la tabla de registro. El panel se rellena automáticamente con información para el esquema examinado. En esta ruta de acceso se crea un único panel de control por área de trabajo: /Shared/Databricks Quality Monitoring/Data Quality Monitoring.

Información general sobre la calidad

En la pestaña Información general de calidad se muestra un resumen del estado de calidad más reciente de las tablas del esquema en función de la evaluación más reciente.

Para empezar, debe escribir la tabla de registro para el esquema que desea analizar para rellenar el panel.

En la sección superior del panel se muestra información general sobre los resultados del examen.

Resumen del esquema del monitor de calidad de datos en la pestaña Información general de calidad del panel.

Debajo del resumen se muestra una tabla en la que se enumeran los incidentes de calidad por impacto. Las causas principales identificadas se muestran en la root_cause_analysis columna .

Incidentes de calidad por impacto en la pestaña Información general de calidad del panel.

Debajo de la tabla de incidentes de calidad se muestra una tabla de tablas estáticas identificadas que no se han actualizado durante mucho tiempo.

Configurar parámetros para la evaluación de frescura e integridad (heredado)

Establecer parámetros para la evaluación de actualidad e integridad (heredado)

Nota:

A partir del 21 de julio de 2025, no se admite la configuración de los parámetros de trabajo para los nuevos clientes. Si necesita configurar las opciones de trabajo, póngase en contacto con Databricks.

Para editar los parámetros que controlan el trabajo, como la frecuencia con la que se ejecuta el trabajo o el nombre de la tabla de resultados registrados, debe editar los parámetros del trabajo en la pestaña Tareas de la página del trabajo.

La página de trabajos que muestra el trabajo de detección de anomalías.

En las secciones siguientes se describe la configuración específica. Para obtener información sobre cómo establecer parámetros de tarea, vea Configurar parámetros de tarea.

Programación y notificaciones (legado)

Para personalizar la programación del trabajo o para configurar notificaciones, use la configuración Programaciones y desencadenadores en la página de trabajos. Consulta Automatización de trabajos con programaciones y desencadenadores.

Nombre de la tabla de registro (heredada)

Para cambiar el nombre de la tabla de registro o guardar la tabla en un esquema diferente, edite el parámetro de tarea de trabajo logging_table_name y especifique el nombre deseado. Para guardar la tabla de registro en un esquema diferente, especifique el nombre completo de 3 niveles.

Personalizar las evaluaciones freshness y completeness (clásico)

Todos los parámetros de esta sección son opcionales. De forma predeterminada, la detección de anomalías determina los umbrales en función de un análisis del historial de la tabla.

Estos parámetros son campos dentro del parámetro de tarea metric_configs. El formato de metric_configs es una cadena JSON con los siguientes valores predeterminados:

[
  {
    "disable_check": false,
    "tables_to_skip": null,
    "tables_to_scan": null,
    "table_threshold_overrides": null,
    "table_latency_threshold_overrides": null,
    "static_table_threshold_override": null,
    "event_timestamp_col_names": null,
    "metric_type": "FreshnessConfig"
  },
  {
    "disable_check": true,
    "tables_to_skip": null,
    "tables_to_scan": null,
    "table_threshold_overrides": null,
    "metric_type": "CompletenessConfig"
  }
]

Los parámetros siguientes se pueden usar para las evaluaciones de freshness y completeness.

Nombre del campo Descripción Ejemplo
tables_to_scan Solo se examinan las tablas especificadas. ["table_to_scan", "another_table_to_scan"]
tables_to_skip Las tablas especificadas se omiten durante el examen. ["table_to_skip"]
disable_check No se realiza la exploración. Use este parámetro si desea desactivar solo el escaneo de freshness o solo el escaneo de completeness. true, false

Los parámetros siguientes solo se aplican a la evaluación de freshness:

Nombre del campo Descripción Ejemplo
event_timestamp_col_names Es posible que tenga una lista de tablas de columnas de marca de tiempo en el esquema. Si una tabla tiene una de estas columnas, se marca Unhealthy si se supera el valor máximo de esta columna. El uso de este parámetro puede aumentar el tiempo de evaluación y el costo. ["timestamp", "date"]
table_threshold_overrides Diccionario que consta de nombres de tabla y umbrales (en segundos) que especifican el intervalo máximo desde la última actualización de la tabla antes de marcar una tabla como Unhealthy. {"table_0": 86400}
table_latency_threshold_overrides Diccionario que consta de nombres de tabla y umbrales de latencia (en segundos) que especifican el intervalo máximo desde la última marca de tiempo de la tabla antes de marcar una tabla como Unhealthy. {"table_1": 3600}
static_table_threshold_override Cantidad de tiempo (en segundos) antes de que una tabla se considere una tabla estática (es decir, una que ya no se actualiza). 2592000

El parámetro siguiente solo se aplica a la evaluación de completeness:

Nombre del campo Descripción Ejemplo
table_threshold_overrides Diccionario que consta de nombres de tabla y umbrales de volumen de fila (especificados como enteros). Si el número de filas agregadas a una tabla durante las 24 horas anteriores es menor que el umbral especificado, la tabla se marca Unhealthy. {"table_0": 1000}