Monitoramento de qualidade de dados

O monitoramento de qualidade de dados ajuda você a garantir a qualidade de todos os seus ativos de dados no Catálogo do Unity. O monitoramento de qualidade de dados inclui os seguintes recursos:

Detecção de anomalias. A detecção de anomalias permite o monitoramento de qualidade de dados escalonável com um clique. Ele monitora todas as tabelas em um esquema usando a verificação inteligente que prioriza tabelas importantes e ignora as de baixo impacto. O Databricks avalia automaticamente a qualidade dos dados analisando padrões de dados históricos para avaliar a atualização e a integridade de cada tabela. Consulte a detecção de anomalias.
Criação de perfil de dados. O perfilamento de dados fornece estatísticas resumidas dos dados em uma tabela. Você também pode usá-lo para acompanhar o desempenho de aplicativos GenAI, modelos de machine learning e endpoints de serviço de modelo, monitorando tabelas de inferência que contêm entradas e previsões do modelo. Consulte a criação de perfil de dados.

A criação de perfil de dados era anteriormente conhecida como Monitoramento do Lakehouse.

Por que usar a detecção de anomalias?

Para extrair insights úteis de seus dados, é preciso confiar na qualidade deles. A detecção de anomalias monitora tabelas habilitadas para frescura e completude.

Freshness indica há quanto tempo uma tabela foi atualizada. A detecção de anomalias analisa o histórico de commits em uma tabela e cria um modelo por tabela para prever o momento do próximo commit. Se um commit estiver atrasado de forma incomum, a tabela será marcada como obsoleta.

Completude refere-se ao número de linhas que devem ser gravadas na tabela nas últimas 24 horas. A detecção de anomalias analisa a contagem de linhas históricas e, com base nesses dados, prevê um intervalo de número esperado de linhas. Se o número de linhas com commit nas últimas 24 horas for menor que o limite inferior previsto, a tabela é marcada como incompleta.

Por que usar a criação de perfil de dados?

A criação de perfil de dados fornece medidas quantitativas que ajudam você a acompanhar e confirmar a qualidade e a consistência de seus dados ao longo do tempo. A criação de perfil de dados captura métricas históricas da distribuição de dados de uma tabela ou do desempenho do modelo correspondente, que podem ser usadas para estatísticas de resumo rápido. Você pode usar essas métricas para monitorar uma tabela e enviar alertas para alterações.

A criação de perfil de dados ajuda você a responder perguntas como a seguinte:

Como é a integridade dos dados e como ela muda ao longo do tempo? Por exemplo, qual é a fração de valores nulos ou zero nos dados atuais? Essa fração tem aumentado?
Como é a distribuição estatística dos dados e como eles mudam ao longo do tempo? Por exemplo, qual é o 90º percentil de uma coluna numérica? Ou, qual é a distribuição de valores em uma coluna categórica e como ela difere das anteriores?
Há descompasso entre os dados atuais e uma linha de base conhecida ou entre janelas de tempo sucessivas dos dados?
Como é a distribuição estatística ou a deriva de um subconjunto ou fatia dos dados?
Como as entradas e previsões do modelo de ML estão mudando ao longo do tempo?
Qual é a tendência de desempenho do modelo ao longo do tempo? A versão A do modelo tem um desempenho melhor do que a versão B?

Além disso, a criação de perfil de dados permite controlar a granularidade de tempo das observações e configurar métricas personalizadas.

O monitoramento de qualidade de dados não modifica as tabelas monitoradas, nem adiciona sobrecarga a trabalhos que preenchem essas tabelas.

Comentários

Esta página foi útil?

Last updated on 2026-03-15

Compartilhar via

Monitoramento de qualidade de dados

Por que usar a detecção de anomalias?

Por que usar a criação de perfil de dados?

Comentários

Recursos adicionais