Creación de un perfil mediante la interfaz de usuario de Databricks

En este artículo se muestra cómo crear un perfil de datos mediante la interfaz de usuario de Databricks. También puede usar la API.

Para acceder a la interfaz de usuario de Databricks, haga lo siguiente:

  1. En la barra lateral izquierda del área de trabajo, haga clic en icono Datos. Para abrir el Explorador de catálogos.

  2. Vaya a la tabla que desea analizar.

  3. Haga clic en la pestaña Calidad .

  4. Si la detección de anomalías no está habilitada para este esquema, haga clic en Habilitar.

    Pestaña de calidad de perfilado de datos, aún no habilitada.

    Si la detección de anomalías está habilitada para este esquema, haga clic en Configurar.

    Ya habilitada la pestaña de calidad de perfilado de datos.

  5. En el cuadro de diálogo Supervisión de la calidad de los datos, en el campo Generación de perfiles de datos , haga clic en Configurar.

    Cuadro de diálogo de monitor de calidad de datos.

  6. En el cuadro de diálogo, seleccione el tipo de perfil. En las secciones siguientes se describen las opciones de tipo de perfil y las selecciones adicionales para cada tipo.

Generación de perfiles

En el menú desplegable Tipo de perfil, seleccione el tipo de perfil que desea crear. Los tipos de perfil se muestran en la tabla.

Tipo de perfil Descripción
Perfil de serie temporal Tabla que contiene valores medidos a lo largo del tiempo. Esta tabla incluye una columna de marca de tiempo.
Perfil de instantánea Cualquier tabla administrada Delta, tabla externa, vista, vista materializada o tabla de transmisión. El tamaño máximo de tabla de un perfil de instantánea es de 4 TB. En el caso de las tablas más grandes, use perfiles de serie temporal en su lugar.
Perfil de inferencia Tabla que contiene los valores previstos que genera un modelo de regresión o clasificación de aprendizaje automático. Esta tabla incluye una marca de tiempo, un identificador de modelo, entradas de modelo (características), una columna que contiene predicciones del modelo y columnas opcionales que contienen identificadores de observación únicos y etiquetas de verdad. También puede contener metadatos, como la información demográfica, que no se usa como entrada para el modelo, pero puede ser útil para investigaciones de imparcialidad y sesgo u otras tareas.

Si selecciona TimeSeries o Inference, se requieren parámetros adicionales y se describen en las secciones siguientes.

Nota:

  • Cuando se crea por primera vez una serie temporal o un perfil de inferencia, el perfil solo analiza los datos de los 30 días anteriores a su creación. Una vez creado el perfil, se procesan todos los datos nuevos.
  • Los monitores definidos en vistas materializadas no admiten el procesamiento incremental.

Sugerencia

Para los perfiles TimeSeries y Inference, es una práctica recomendada habilitar el flujo de datos de cambios (CDF) en su tabla. Cuando CDF está habilitado, solo se procesan los datos anexados recientemente, en lugar de volver a procesar toda la tabla cada actualización. Esto hace que la ejecución sea más eficaz y reduzca los costos a medida que se escala la generación de perfiles en muchas tablas.

TimeSeries perfil

Para el perfil TimeSeries, debes hacer las siguientes selecciones:

  • Especifique las granularidades métricas que determinan cómo particionar los datos en ventanas a lo largo del tiempo.
  • Especifique la columna de marca de tiempo, la columna de la tabla que contiene la marca de tiempo. El tipo de datos de columna timestamp debe ser TIMESTAMP o un tipo que se pueda convertir a marcas de tiempo mediante la to_timestampfunción PySpark.

Inference perfil

Para un Inference perfil, además de las granularidades y la marca de tiempo, debe realizar las siguientes selecciones:

  • Seleccione el tipo de problema, ya sea clasificación o regresión.
  • Especifique la columna Predicción, la columna que contiene los valores previstos del modelo.
  • Opcionalmente, especifique la columna de etiqueta, que contiene los datos reales para las predicciones del modelo.
  • Especifique la columna Id. de modelo, la columna que contiene el identificador del modelo usado para la predicción.

Opciones avanzadas

En la sección Opciones avanzadas , puede establecer la programación, agregar notificaciones por correo electrónico, agregar métricas personalizadas y segmentaciones de expresiones y cambiar la configuración predeterminada del perfil.

Programación

Para configurar un perfil para que se ejecute de forma programada, seleccione Actualizar según la programación y seleccione la frecuencia y la hora de ejecución del perfil. Si no desea que el perfil se ejecute automáticamente, seleccione Actualizar manualmente. Si selecciona Actualizar manualmente, puede actualizar las métricas más adelante desde la pestaña Calidad .

Notificaciones

Para configurar notificaciones por correo electrónico para un perfil, escriba el correo electrónico que se va a notificar y seleccione las notificaciones que desea habilitar. Se admiten hasta 5 correos electrónicos por tipo de evento de notificación.

Métricas

En la sección Métricas , puede elegir cambiar la siguiente configuración predeterminada:

  • Nombre del esquema de las tablas de métricas: el esquema del catálogo de Unity donde se almacenan las tablas de métricas creadas por el perfil. Esta ubicación debe tener el formato {catalog}. {schema}. De forma predeterminada, se establece en la misma ubicación del esquema que la tabla perfilada. Puede especificar una ubicación diferente.

  • Directorio Assets: ruta de acceso absoluta a un directorio existente para almacenar los recursos de generación de perfiles de datos. De forma predeterminada, los recursos se almacenan en el directorio predeterminado: "/Users/{user_name}/databricks_lakehouse_monitoring/{table_name}". Si escribe una ubicación diferente en este campo, los recursos se crean en "/{table_name}" en el directorio que especifique. Este directorio puede estar en cualquier parte del área de trabajo. Para perfiles destinados a compartirse dentro de una organización, puede usar una ruta en el directorio "/Shared/".

    Este campo no se puede dejar en blanco.

También puede especificar la siguiente configuración:

  • Nombre de la tabla de línea base del catálogo de Unity: nombre de una tabla o vista que contiene datos de línea base para la comparación.
  • Expresiones de segmentación de métricas: las expresiones de segmentación permiten definir subconjuntos de la tabla para generar perfiles además de la tabla en su conjunto. Para crear una expresión de segmentación, haga clic en Agregar expresión y escriba la definición de expresión. Por ejemplo, la expresión "col_2 > 10" genera dos segmentos: uno para col_2 > 10 y otro para col_2 <= 10. Como otro ejemplo, la expresión "col_1" generará un segmento para cada valor único en col_1. Los datos se agrupan por cada expresión de forma independiente, lo que da como resultado un segmento independiente para cada predicado y sus complementos.
  • Métricas personalizadas: las métricas personalizadas aparecen en las tablas de métricas como cualquier métrica integrada. Para configurar una métrica personalizada, haga clic en Agregar métrica personalizada.
    • Escriba un nombre para la métrica personalizada.
    • Seleccione el tipo de métrica personalizado. Elija entre: Aggregate, Derivedo Drift.
    • En la lista desplegable de Columnas de entrada, seleccione las columnas a las que se va a aplicar la métrica.
    • En el campo Tipo de salida , seleccione el tipo de datos spark de la métrica.
    • En el campo Definición , escriba código SQL que defina la métrica personalizada.

Editar la configuración del perfil en la interfaz de usuario

Después de crear un perfil, puede realizar cambios en la configuración del perfil haciendo clic en Configurar en la pestaña Calidad .

Configure un perfil existente.

En la sección Generación de perfiles de datos del cuadro de diálogo, haga clic en Configurar.

Cuadro de diálogo Actualizar perfil.

Actualizar y ver los resultados del perfil en la interfaz de usuario

Para ejecutar el perfil manualmente, haga clic en Ver historial de actualizaciones. Se abre un cuadro de diálogo que muestra todos los perfiles anteriores. Haga clic en Actualizar métricas para desencadenar una actualización de perfil.

Para ver el historial de actualizaciones, debe usar el área de trabajo de Databricks desde la que se ha habilitado la generación de perfiles de datos.

Para obtener información sobre las estadísticas almacenadas en tablas de métricas de perfil, vea Tablas de métricas de monitoreo. Las tablas de métricas son tablas de catálogo de Unity. Puede consultarlos en cuadernos o en el Explorador de consultas SQL y verlos en el Explorador de catálogos.

Control del acceso a las salidas de perfil

Las tablas de métricas y el panel creados por un perfil son propiedad del usuario que creó el perfil. Puede usar privilegios del catálogo de Unity para controlar el acceso a las tablas de métricas. Para compartir paneles dentro de un área de trabajo, haga clic en el botón Compartir situado en la parte superior derecha del panel.

Eliminación de un perfil de la interfaz de usuario

Para eliminar un perfil de la interfaz de usuario, siga las instrucciones de Editar la configuración del perfil en la interfaz de usuario para abrir el cuadro de diálogo Actualizar perfil . En el menú desplegable Actualizar , seleccione Eliminar.

Eliminar un perfil.