Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Aplica-se a:SQL Server
SSIS Integration Runtime no Azure Data Factory
Antes de rever um perfil dos dados de origem, a primeira etapa é configurar e executar a tarefa Criação de Perfil de Dados. Você cria esta tarefa dentro de um pacote do Integration Services . Para configurar a tarefa Criação de Perfil de Dados, use o Editor da Tarefa de Criação de Perfil de Dados. Este editor permite selecionar onde produzir os perfis e quais perfis devem ser calculados. Depois de configurar a tarefa, você executa o pacote para calcular os perfis de dados.
Requisitos e limitações
A tarefa Criação de Perfil de Dados funciona apenas com dados armazenados no SQL Server. Ela não funciona com fontes de dados de terceiros ou baseadas em arquivos.
Além disso, para executar um pacote que contenha a tarefa de Criação de Perfil de Dados, você deve usar uma conta que tenha permissões de leitura e gravação, incluindo permissões CREATE TABLE, no banco de dados tempdb.
Tarefa de Criação de Perfil de Dados em um Pacote
A tarefa Criação de Perfil de Dados apenas configura os perfis e cria o arquivo de saída que contém os perfis calculados. Para revisar esse arquivo de saída, você deve usar o Visualizador de Perfil de Dados, um programa de visualização autônomo. Como é necessário exibir a saída separadamente, você deve usar a tarefa Criação de Perfil de Dados em um pacote que não contém outras tarefas.
No entanto, você não precisa usar a tarefa "Criação de Perfil de Dados" como a única tarefa em um pacote. Se você quiser criar perfis de dados no fluxo de trabalho ou no fluxo de dados de um pacote mais complexo, deverá usar as seguintes opções:
Para implementar a lógica condicional baseada no arquivo de saída da tarefa, no fluxo de controle do pacote, coloque a tarefa Script após a tarefa Criação de Perfil de Dados. Dessa forma, você poderá usar essa tarefa Script para consultar o arquivo de saída.
Para criar perfis de dados no fluxo de dados depois que os dados tiverem sido carregados e transformados, é necessário salvar os dados alterados em uma tabela do SQL Server temporariamente. Em seguida, você poderá criar um perfil dos dados salvos.
Para obter mais informações, consulte Incorporar uma tarefa de criação de perfil de dados ao fluxo de trabalho do pacote.
Configuração da saída da tarefa
Depois que a tarefa de criação de perfil de dados estiver em um pacote, você deverá configurar a saída dos perfis que a tarefa gerará. Para configurar a saída dos perfis, use a página Geral do Editor de Tarefas de Criação de Perfil de Dados. Além de especificar o destino da saída, a página Geral também oferece a habilidade para executar um perfil rápido dos dados. Quando você seleciona Perfil Rápido, a tarefa Criação de Perfil de Dados cria o perfil de uma tabela ou exibição usando alguns ou todos os perfis padrão com suas configurações padrão.
Para obter mais informações, confira Editor da tarefa Criação de Perfil de Dados (Página Geral) e Formulário de Perfil Rápido de Tabela Única (Tarefa Criação de Perfil de Dados).
Importante
O arquivo de saída pode conter dados confidenciais sobre seu banco de dados e os dados contidos no banco de dados. Para obter sugestões sobre como tornar esse arquivo mais seguro, consulte Acesso aos arquivos usados por pacotes.
Seleção e configuração dos perfis a serem calculados
Depois de configurar o arquivo de saída, você precisa selecionar os perfis de dados a serem calculados. A tarefa Criação de perfil de dados pode computar oito perfis de dados diferentes. Cinco desses perfis analisam colunas individuais e os três restantes analisam diversas colunas ou relações entre colunas e tabelas. Em uma única tarefa de criação de perfil de dados, você pode calcular vários perfis para várias colunas ou combinações de colunas em várias tabelas ou visualizações.
A tabela a seguir descreve os relatórios calculados por cada um desses perfis e os tipos de dados para os quais o perfil é válido.
| Para calcular | O que ajuda a identificar | Use este perfil |
|---|---|---|
| Todos os comprimentos de valores de cadeia de caracteres na coluna selecionada e a porcentagem de linhas na tabela que cada comprimento representa. | Valores de cadeias de caracteres que não são válidos-por exemplo, você cria o perfil de uma coluna que deve usar dois caracteres para códigos de estados nos Estados Unidos, mas descobre valores com mais de dois caracteres. |
Distribuição de Comprimento da Coluna – válida para uma coluna com um dos seguintes tipos de dados de caractere: char nchar varchar nvarchar |
| Um conjunto de expressões regulares que cobrem a porcentagem especificada de valores em uma coluna de cadeia de caracteres. Além disso para localizar expressões regulares que podem ser usadas no futuro para validar valores novos |
Valores de cadeias de caracteres que não são válidos ou não estão no formato correto – por exemplo, um perfil padrão de uma coluna CEP/Código Postal pode produzir as expressões regulares: \d{5}-\d{4}, \d{5} e \d{9}. Se a saída contém outras expressões regulares, os dados conterão valores inválidos ou que estarão em um formato incorreto. |
Perfil de Padrão de Coluna– válido para uma coluna com um dos seguintes tipos de dados de caractere: char nchar varchar nvarchar |
| A porcentagem de valores nulos na coluna selecionada. | Uma proporção inesperadamente alta de valores nulos em uma coluna-Por exemplo, você analisa o perfil de uma coluna que deve conter CEPs dos Estados Unidos, mas descobre uma porcentagem inaceitavelmente alta de CEPs ausentes. |
Razão Nula da Coluna – válida para uma coluna com um dos seguintes tipos de dados: imagem text xml tipos definidos pelo usuário tipos variantes |
| Estatísticas como mínimo, máximo, média e desvio padrão para colunas numéricas, além de mínimo e máximo para colunas datetime . | Valores numéricos e datas que não são válidos-Por exemplo, você analisa o perfil de uma coluna de datas históricas, mas descobre uma data máxima que está no futuro. |
Perfil de Estatísticas da Coluna – válido para uma coluna com um destes tipos de dados. Tipos de dados numéricos: tipos de inteiros (exceto bit money smallmoney decimal float real numeric Tipos de dados de data e hora: datetime smalldatetime timestamp date time datetime2 datetimeoffset Observação: Para uma coluna que tem um tipo de dados de data e hora, o perfil calcula o mínimo e o máximo apenas. |
| Todos os valores distintos na coluna selecionada e a porcentagem de linhas na tabela que cada valor representa. Ou, os valores que representam mais de uma porcentagem especificada na tabela. | Um número incorreto de valores distintos em uma coluna – por exemplo, você cria o perfil de uma coluna que contém estados dos Estados Unidos e descobre mais de 50 valores distintos. |
Distribuição de Valores da Coluna – válida para uma coluna com um seguintes tipos de dados. Tipos de dados numéricos: tipos de inteiros (exceto bit money smallmoney decimal float real numeric Tipos de dados de caractere: char nchar varchar nvarchar Tipos de dados de data e hora: datetime smalldatetime timestamp date time datetime2 datetimeoffset |
| Se uma coluna ou conjunto de colunas é uma chave, ou uma chave aproximada, para a tabela selecionada. | Valores duplicados em uma coluna de chave potencial-Por exemplo, você traça o perfil das colunas Nome e Endereço em uma tabela de Clientes e descobre valores duplicados quando as combinações de nome e endereço deveriam ser exclusivas. |
Chave Candidata – um perfil de várias colunas que informa se uma coluna ou um conjunto de colunas é apropriado para servir como uma chave para a tabela selecionada. Válida para as colunas com um destes tipos de dados. Tipos de dados inteiros: bit tinyint smallint int bigint Tipos de dados de caractere: char nchar varchar nvarchar Tipos de dados de data e hora: datetime smalldatetime timestamp date time datetime2 datetimeoffset |
| O grau em que os valores em uma coluna (a coluna dependente) dependem dos valores em outra coluna ou em um conjunto de colunas (a coluna determinante). | Valores que não são válidos em colunas dependentes – por exemplo, você cria o perfil da dependência entre uma coluna que contém CEPs dos Estados Unidos e uma coluna que contém estados dos Estados Unidos. O mesmo CEP deve ter sempre o mesmo estado. Porém, o perfil descobre violações da dependência. |
Dependência Funcional – válida para as colunas com um destes tipos de dados. Tipos de dados inteiros: bit tinyint smallint int bigint Tipos de dados de caractere: char nchar varchar nvarchar Tipos de dados de data e hora: datetime smalldatetime timestamp date time datetime2 datetimeoffset |
| Se uma coluna ou um conjunto de colunas é adequado para atuar como chave estrangeira entre as tabelas selecionadas. Isto é, este perfil informa a sobreposição nos valores entre duas colunas ou dois conjuntos de colunas. |
Valores que não são válidos-Por exemplo, você cria um perfil da coluna ProductID da tabela Vendas. O perfil descobre que a coluna contém valores que não são encontrados na coluna ProductID da tabela Produtos. |
Inclusão de Valor – válido para colunas com um destes tipos de dados: Tipos de dados inteiros: bit tinyint smallint int bigint Tipos de dados de caractere: char nchar varchar nvarchar Tipos de dados de data e hora: datetime smalldatetime timestamp date time datetime2 datetimeoffset |
Para selecionar quais perfis calcular, use a página Solicitações de Perfis do Editor da Tarefa de Criação de Perfil de Dados. Para obter mais informações, consulte Editor da Tarefa de Criação de Perfil de Dados (Página de Solicitações de Perfil).
Na página Solicitação de Perfil , você especifica também a origem de dados e configura os perfis de dados. Ao configurar a tarefa, pense nas seguintes informações:
Para simplificar a configuração e facilitar o descobrimento das características de dados pouco conhecidos, você pode usar o curinga, (*), no lugar do nome de uma coluna específica. Se você usar este curinga, a tarefa fará o perfilamento de todas as colunas com um tipo de dados apropriado, o que, por sua vez, pode tornar o processamento mais lento.
Quando a tabela ou exibição selecionada estiver vazia, a tarefa de Criação de perfis de dados não computará nenhum perfil.
Quando todos os valores na coluna selecionada forem nulos, a tarefa Criação de Perfil de dados calculará somente o Perfil de Razão Nula da Coluna. Ela não calcula o Perfil de Distribuição de Comprimento de Coluna, o Perfil de Padrão de Coluna, o Perfil de Estatísticas de Coluna ou o Perfil de Distribuição de Valor de Coluna para a coluna vazia.
Cada um dos perfis de dados disponíveis tem as próprias opções de configuração. Para obter mais informações sobre essas opções, consulte os tópicos a seguir:
Opções de solicitação do perfil de chave candidata (tarefa de criação de perfil de dados)
Opções da Solicitação do Perfil Razão Nula de Coluna (Tarefa Criação de Perfil de Dados)
Opções de solicitação de perfil de padrão de coluna (tarefa de criação de perfil de dados)
Opções de Solicitação do Perfil de Estatísticas de Coluna (tarefa de criação de perfil de dados)
Opções de Solicitação do Perfil de Dependência Funcional (Tarefa de Criação de Perfil de Dados)
Opções da solicitação do perfil Inclusão de Valor (Tarefa Criação de Perfil de Dados)
Execução do pacote que contém a tarefa de Criação de Perfil de Dados
Depois de configurar a tarefa Criação de Perfil de Dados, você poderá executá-la. A tarefa, então, calculará os perfis de dados e produzirá essa informação em formato XML a um arquivo ou uma variável de pacote. A estrutura desse XML seguirá o esquema DataProfile.xsd. O esquema poderá ser aberto no Microsoft Visual Studio ou em outro editor de esquemas, em um editor XML ou em um editor de texto, como o Bloco de Notas. Esse esquema de informações de qualidade de dados pode ser útil para as seguintes finalidades:
Para trocar informações de qualidade de dados dentro e entre organizações.
Para criar ferramentas personalizadas que trabalhem com informações de qualidade de dados.
O namespace de destino é identificado no esquema como https://schemas.microsoft.com/sqlserver/2008/DataDebugger/.