Partilhar via


Criar um perfil usando a interface do usuário do Databricks

Este artigo demonstra a criação de um perfil de dados usando a interface do usuário do Databricks. Você também pode usar a API.

Para acessar a interface do usuário do Databricks, faça o seguinte:

  1. Na barra lateral esquerda do espaço de trabalho, clique no ícone Dados. para abrir o Explorador de Catálogos.

  2. Navegue até a tabela que você deseja perfilar.

  3. Clique na guia Qualidade .

  4. Se a deteção de anomalias não estiver habilitada para esse esquema, clique em Ativar.

    Aba Qualidade de perfilagem de dados, ainda não ativada.

    Se a deteção de anomalias estiver habilitada para esse esquema, clique em Configurar.

    Guia Qualidade da criação de perfil de dados, já habilitada.

  5. Na caixa de diálogo Monitoramento de Qualidade de Dados , no campo Criação de perfil de dados , clique em Configurar.

    Caixa de diálogo do monitor de qualidade de dados.

  6. Na caixa de diálogo, selecione o Tipo de perfil. As seções a seguir descrevem as opções de tipo de perfil e as seleções adicionais para cada tipo.

Profiling

No menu suspenso Tipo de perfil , selecione o tipo de perfil que deseja criar. Os tipos de perfil são mostrados na tabela.

Tipo de perfil Descrição
Perfil das séries cronológicas Uma tabela contendo valores medidos ao longo do tempo. Esta tabela inclui uma coluna de carimbo de data/hora.
Perfil instantâneo Qualquer tabela gerenciada Delta, tabela externa, exibição, exibição materializada ou tabela de streaming. O tamanho máximo da tabela para um perfil snapshot é de 4TB. Para tabelas maiores, use antes perfis de séries temporais.
Perfil de inferência Uma tabela que contém os valores previstos gerados por uma classificação de aprendizado de máquina ou modelo de regressão. Esta tabela inclui um carimbo de data/hora, uma ID do modelo, entradas do modelo (características), uma coluna contendo as previsões do modelo e colunas opcionais contendo IDs de observação exclusivos e rótulos de verdade fundamental. Ele também pode conter metadados, como informações demográficas, que não são usados como entrada para o modelo, mas podem ser úteis para investigações de equidade e parcialidade ou outras tarefas.

Se você selecionar TimeSeries ou Inference, parâmetros adicionais são necessários e são descritos nas seções a seguir.

Observação

  • Quando você cria pela primeira vez uma série temporal ou um perfil de inferência, o perfil analisa apenas os dados dos 30 dias anteriores à sua criação. Depois que o perfil é criado, todos os novos dados são processados.
  • Os monitores definidos em vistas materializadas não suportam processamento incremental.

Sugestão

Para os perfis TimeSeries e Inference, é uma prática recomendada habilitar o feed de dados de alteração (CDF) na tabela. Quando o CDF está habilitado, apenas os dados recém-anexados são processados, em vez de reprocessar a tabela inteira a cada atualização. Isso torna a execução mais eficiente e reduz os custos à medida que se dimensiona a perfilagem em muitas tabelas.

TimeSeries perfil

Para um TimeSeries perfil, você deve fazer as seguintes seleções:

  • Especifique as granularidades de métrica que determinam como particionar os dados nas janelas ao longo do tempo.
  • Especifique a coluna Timestamp, a coluna na tabela que contém o carimbo de data/hora. O tipo de dados da coluna de carimbo de data/hora deve ser TIMESTAMP ou de um tipo que possa ser convertido em carimbos de data/hora utilizando a função to_timestampPySpark.

Inference perfil

Para um Inference perfil, além das granularidades e do carimbo de data/hora, devem ser feitas as seguintes seleções:

  • Selecione o Tipo de problema, classificação ou regressão.
  • Especifique a coluna Previsão, a coluna que contém os valores previstos do modelo.
  • Opcionalmente, especifique a coluna Label, a coluna que contém o valor de referência para previsões do modelo.
  • Especifique a coluna ID do modelo, a coluna que contém a id do modelo usado para previsão.

Opções avançadas

Na seção Opções avançadas , você pode definir a agenda, adicionar notificações por e-mail, adicionar métricas personalizadas e expressões de fatiamento e alterar a configuração de perfil padrão.

Schedule

Para configurar um perfil para ser executado de forma agendada, selecione Atualizar na programação e selecione a frequência e a hora de execução do perfil. Se não quiser que o perfil seja executado automaticamente, selecione Atualizar manualmente. Se você selecionar Atualizar manualmente, poderá atualizar posteriormente as métricas na guia Qualidade .

Notificações

Para configurar notificações por e-mail para um perfil, insira o e-mail a ser notificado e selecione as notificações a serem habilitadas. São suportados até 5 e-mails por tipo de evento de notificação.

Métricas

Na seção Métricas , você pode optar por alterar as seguintes configurações padrão:

  • Nome do esquema de tabelas de métricas: O esquema do Catálogo Unity onde as tabelas métricas criadas pelo perfil são armazenadas. Este local deve estar no formato {catalog}.{esquema}. Por padrão, isso é definido para o mesmo local do esquema que a tabela perfilada. Você pode especificar um local diferente.

  • Diretório de ativos: o caminho absoluto para um diretório existente para armazenar ativos de perfilagem de dados. Por padrão, os ativos são armazenados no diretório padrão: "/Users/{user_name}/databricks_lakehouse_monitoring/{table_name}". Se você inserir um local diferente neste campo, os ativos serão criados em "/{table_name}" no diretório especificado. Este diretório pode estar em qualquer lugar no espaço de trabalho. Para perfis destinados a serem compartilhados dentro de uma organização, você pode usar um caminho no diretório "/Shared/".

    Este campo não pode ser deixado em branco.

Você também pode especificar as seguintes configurações:

  • Nome da tabela de linha de base do Catálogo Unity: nome de uma tabela ou exibição que contém dados da linha de base para comparação.
  • Expressões de fatiamento métrico: as expressões de fatiamento permitem definir subconjuntos da tabela para perfilar, além da tabela como um todo. Para criar uma expressão de fatiamento, clique em Adicionar expressão e insira a definição de expressão. Por exemplo, a expressão "col_2 > 10" gera duas fatias: uma para col_2 > 10 e outra para col_2 <= 10. Como outro exemplo, a expressão "col_1" gerará uma fatia para cada valor exclusivo em col_1. Os dados são agrupados por cada expressão de forma independente, resultando em uma fatia separada para cada predicado e seus complementos.
  • Métricas personalizadas: as métricas personalizadas aparecem nas tabelas de métricas como qualquer métrica interna. Para configurar uma métrica personalizada, clique em Adicionar métrica personalizada.
    • Insira um Nome para a métrica personalizada.
    • Selecione a métrica personalizada Type. Escolha entre: Aggregate, Derived, ou Drift.
    • Na lista suspensa em Colunas de entrada, selecione as colunas às quais aplicar a métrica.
    • No campo Tipo de saída , selecione o tipo de dados Spark da métrica.
    • No campo Definição , insira o código SQL que define a métrica personalizada.

Editar configurações de perfil na interface do usuário

Depois de criar um perfil, você pode fazer alterações nas configurações do perfil clicando em Configurar na guia Qualidade .

Configure um perfil existente.

Na seção Criação de perfil de dados da caixa de diálogo, clique em Configurar.

Caixa de diálogo Atualizar perfil.

Atualizar e exibir resultados de perfil na interface do usuário

Para executar o perfil manualmente, clique em Exibir histórico de atualizações. É aberta uma caixa de diálogo mostrando todos os perfis anteriores. Clique em Atualizar métricas para acionar uma atualização de perfil.

Para ver o histórico de atualizações, deve usar o espaço de trabalho Databricks a partir do qual o perfil de dados foi ativado.

Para obter informações sobre as estatísticas armazenadas em tabelas de métricas de perfil, consulte Monitorar tabelas de métricas. As tabelas métricas são tabelas do Catálogo Unity. Você pode consultá-los em blocos de anotações ou no explorador de consultas SQL e exibi-los no Gerenciador de Catálogos.

Controle o acesso às saídas de perfil

As tabelas métricas e o painel criados por um perfil são de propriedade do usuário que criou o perfil. Você pode usar os privilégios do Catálogo Unity para controlar o acesso a tabelas métricas. Para compartilhar painéis em um espaço de trabalho, clique no botão Compartilhar no canto superior direito do painel.

Excluir um perfil da interface do usuário

Para excluir um perfil da interface do usuário, siga as instruções em Editar configurações de perfil na interface do usuário para abrir a caixa de diálogo Atualizar perfil . No menu pendente Atualizar, selecione Apagar.

Excluir um perfil.