Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Este artigo demonstra a criação de um perfil de dados usando a interface do usuário do Databricks. Você também pode usar a API.
Para acessar a interface do usuário do Databricks, faça o seguinte:
Na barra lateral esquerda do workspace, clique no
Para abrir o Gerenciador de Catálogos.
Navegue até a tabela que você deseja analisar.
Clique na guia Qualidade .
Se a detecção de anomalias não estiver habilitada para esse esquema, clique em Habilitar.
Se a detecção de anomalias estiver habilitada para esse esquema, clique em Configurar.
Na caixa de diálogo Monitoramento de Qualidade de Dados , no campo Criação de perfil de dados , clique em Configurar.
Caixa de diálogo do monitor de qualidade de dados.
Na caixa de diálogo, selecione o tipo perfil. As seções a seguir descrevem as opções de tipo de perfil e as seleções adicionais para cada tipo.
Criação de perfil
No menu suspenso Tipo de perfil , selecione o tipo de perfil que você deseja criar. Os tipos de perfil são mostrados na tabela.
| Tipo de perfil | Descrição |
|---|---|
| Perfil de série temporal | Uma tabela que contém valores medidos ao longo do tempo. Esta tabela inclui uma coluna de carimbo de data/hora. |
| Perfil de instantâneo | Qualquer tabela gerenciada delta, tabela externa, exibição, exibição materializada ou tabela de streaming. O tamanho máximo da tabela para um perfil de instantâneo é 4 TB. Em vez disso, para tabelas maiores, use perfis de série temporal. |
| Perfil de inferência | Uma tabela que contém a saída de valores previstos por um modelo de regressão ou classificação de aprendizado de máquina. Esta tabela inclui um carimbo de data/hora, uma ID de modelo, entradas de modelo (recursos), uma coluna que contém previsões de modelo e colunas opcionais que contêm IDs de observação exclusivas e rótulos de verdade básica. Ele também pode conter metadados, como informações demográficas, que não são usados como entrada para o modelo, mas podem ser úteis para investigações de imparcialidade e viés ou outras tarefas. |
Se você selecionar TimeSeries ou Inference, parâmetros adicionais serão necessários e serão descritos nas seções a seguir.
Observação
- Quando você cria pela primeira vez um perfil de série temporal ou inferência, o perfil analisa apenas os dados dos 30 dias anteriores à sua criação. Depois que o perfil é criado, todos os novos dados são processados.
- Monitores definidos em exibições materializadas não dão suporte ao processamento incremental.
Dica
Para os perfis TimeSeries e Inference, é uma prática recomendada habilitar o feed de dados de alteração (CDF) em sua tabela. Quando o CDF está habilitado, somente os dados acrescentados recentemente são processados, em vez de reprocessar toda a tabela a cada atualização. Isso torna a execução mais eficiente e reduz os custos à medida que você dimensiona a perfilagem em várias tabelas.
TimeSeries perfil
Para um TimeSeries perfil, você deve fazer as seguintes seleções:
- Especifique as granularidades de métrica que determinam como particionar os dados em janelas ao longo do tempo.
- Especifique a coluna de timestamp, na tabela que contém o carimbo de data/hora. O tipo de dado da coluna de carimbo de data/hora deve ser
TIMESTAMP, ou um tipo que possa ser convertido em carimbos de data/hora usando ato_timestampfunção PySpark.
Inference perfil
Para um Inference perfil, além das granularidades e do carimbo de data/hora, você deve fazer as seguintes seleções:
- Selecione o tipo Problema, classificação ou regressão.
- Especifique a coluna Previsão, a coluna que contém os valores previstos do modelo.
- Opcionalmente, especifique a coluna Rótulo, a coluna que contém a verdade básica para previsões de modelo.
- Especifique a coluna ID do modelo, a coluna que contém a ID do modelo usado para previsão.
Opções avançadas
Na seção Opções avançadas , você pode definir o agendamento, adicionar notificações por email, adicionar métricas personalizadas e expressões de fatiamento e alterar a configuração de perfil padrão.
Cronograma
Para configurar um perfil para ser executado em uma base agendada, selecione Atualizar no agendamento e selecione a frequência e a hora para a execução do perfil. Se você não quiser que o perfil seja executado automaticamente, selecione Atualizar manualmente. Se você selecionar Atualizar manualmente, poderá atualizar as métricas posteriormente na guia Qualidade .
Notificações
Para configurar notificações por email para um perfil, insira o email para ser notificado e selecione as notificações a serem habilitadas. Há suporte para até 5 emails por tipo de evento de notificação.
Métricas
Na seção Métricas , você pode optar por alterar as seguintes configurações padrão:
Nome do esquema de tabelas de métricas: o esquema catálogo do Unity em que as tabelas de métricas criadas pelo perfil são armazenadas. Esse local deve estar no formato {catalog}.{schema}. Por padrão, isso é definido como o mesmo local de esquema que a tabela com perfil. Você pode especificar um local diferente.
Diretório de ativos: o caminho absoluto para um diretório existente onde armazenar ativos de análise de dados. Por padrão, os ativos são armazenados no diretório padrão: "/Users/{user_name}/databricks_lakehouse_monitoring/{table_name}". Se você inserir um local diferente nesse campo, os ativos serão criados em "/{table_name}" no diretório especificado. Esse diretório pode estar em qualquer lugar no workspace. Para perfis destinados a serem compartilhados em uma organização, você pode usar um caminho no diretório "/Compartilhado/".
Esse campo não pode ser deixado em branco.
Você também pode especificar as seguintes configurações:
- Nome da tabela de linha de base do Catálogo do Unity: nome de uma tabela ou exibição que contém dados de linha de base para comparação.
-
Expressões de fatiamento de métrica: as expressões de fatiamento permitem que você defina subconjuntos da tabela para o perfil, além da tabela como um todo. Para criar uma expressão de fatiamento, clique em Adicionar expressão e insira a definição de expressão. Por exemplo, a expressão
"col_2 > 10"gera duas fatias: uma paracol_2 > 10e outra paracol_2 <= 10. Como outro exemplo, a expressão"col_1"gerará uma fatia para cada valor exclusivo emcol_1. Os dados são agrupados por cada expressão de forma independente, resultando em uma fatia separada para cada predicado e seus complementos. -
Métricas personalizadas: as métricas personalizadas aparecem nas tabelas de métricas, como qualquer métrica interna.
Para configurar uma métrica personalizada, clique em Adicionar métrica personalizada.
- Insira um nome para a métrica personalizada.
- Selecione o tipo de métrica personalizado. Escolha entre:
Aggregate, ouDerivedDrift. - Na lista suspensa nas colunas de entrada, selecione as colunas às quais aplicar a métrica.
- No campo Tipo de saída , selecione o tipo de dados Spark da métrica.
- No campo Definição , insira o código SQL que define a métrica personalizada.
Editar configurações de perfil na interface do usuário
Depois de criar um perfil, você pode fazer alterações nas configurações do perfil clicando em Configurar na guia Qualidade .
Na seção Criação de perfil de dados da caixa de diálogo, clique em Configurar.
Atualizar e exibir os resultados do perfil na interface do usuário
Para executar o perfil manualmente, clique em Exibir histórico de atualização. Uma caixa de diálogo é aberta mostrando todos os perfis anteriores. Clique em Atualizar métricas para disparar uma atualização de perfil.
Para ver o histórico de atualização, você deve usar o espaço de trabalho do Databricks em que a criação de perfil de dados foi habilitada.
Para obter informações sobre as estatísticas armazenadas em tabelas de métricas de perfil, consulte Tabelas de métricas do Monitor. Tabelas de métricas são tabelas do Catálogo Unity. Você pode consultá-los em notebooks ou no gerenciador de consultas SQL e exibi-los no Gerenciador de Catálogos.
Controlar o acesso aos resultados do perfil
As tabelas de métrica e o painel criados por um perfil pertencem ao usuário que criou o perfil. Você pode usar privilégios do Catálogo do Unity para controlar o acesso a tabelas de métricas. Para compartilhar dashboards em um workspace, clique no botão Compartilhar no lado superior direito do painel.
Excluir um perfil da interface do usuário
Para excluir um perfil da interface do usuário, siga as instruções em Editar configurações de perfil na interface do usuário para abrir a caixa de diálogo Atualizar perfil . No menu suspenso Atualizar, selecione Excluir.