OutputTabularDatasetConfig Classe

Represente como copiar a saída de uma execução e ser promovido como um TabularDataset.

Inicialize um OutputTabularDatasetConfig.

Construtor

OutputTabularDatasetConfig(**kwargs)

Observações

Você não deve chamar esse construtor diretamente, mas em vez disso deve criar um OutputFileDatasetConfig e, em seguida, chamar os métodos read_* correspondentes para convertê-lo em um OutputTabularDatasetConfig.

A maneira como a saída será copiada para o destino de um OutputTabularDatasetConfig é a mesma que um OutputFileDatasetConfig. A diferença entre eles é que o Dataset que é criado será um TabularDataset contendo todas as transformações especificadas.

Métodos

as_input

Especifique como consumir a saída como uma entrada nas etapas subsequentes do pipeline.

as_mount

Defina o modo de saída para montar.

Para o modo de montagem, o diretório de saída será um diretório montado em FUSE. Os arquivos gravados no diretório montado serão carregados quando o arquivo for fechado.

as_upload

Defina o modo da saída para carregar.

Para o modo de upload, os arquivos gravados no diretório de saída serão carregados no final do trabalho. Se o trabalho falhar ou for cancelado, o diretório de saída não será carregado.

drop_columns

Solte as colunas especificadas do Conjunto de Dados.

keep_columns

Mantenha as colunas especificadas e descarta todas as outras do Conjunto de Dados.

random_split

Divida os registros no conjunto de dados em duas partes aleatoriamente e aproximadamente pela porcentagem especificada.

As configurações de saída resultantes terão seus nomes alterados, a primeira terá _1 anexado ao nome e a segunda terá _2 anexado ao nome. Se isso causar uma colisão de nomes ou se você quiser especificar um nome personalizado, defina manualmente seus nomes.

as_input

Especifique como consumir a saída como uma entrada nas etapas subsequentes do pipeline.

as_input(name=None)

Parâmetros

Name Description
name
Necessário
str

O nome da entrada específica para a execução.

Devoluções

Tipo Description

Uma DatasetConsumptionConfig instância que descreve como fornecer os dados de entrada.

as_mount

Defina o modo de saída para montar.

Para o modo de montagem, o diretório de saída será um diretório montado em FUSE. Os arquivos gravados no diretório montado serão carregados quando o arquivo for fechado.

as_mount()

Devoluções

Tipo Description

Uma OutputTabularDatasetConfig instância com o modo definido para montagem.

as_upload

Defina o modo da saída para carregar.

Para o modo de upload, os arquivos gravados no diretório de saída serão carregados no final do trabalho. Se o trabalho falhar ou for cancelado, o diretório de saída não será carregado.

as_upload(overwrite=False, source_globs=None)

Parâmetros

Name Description
overwrite
Necessário

Se os arquivos que já existem no destino devem ser substituídos.

source_globs
Necessário

Padrões de Glob usados para filtrar arquivos que serão carregados.

Devoluções

Tipo Description

Uma OutputTabularDatasetConfig instância com o modo definido para upload.

drop_columns

Solte as colunas especificadas do Conjunto de Dados.

drop_columns(columns)

Parâmetros

Name Description
columns
Necessário

O nome ou uma lista de nomes para as colunas serem descartadas.

Devoluções

Tipo Description

Uma OutputTabularDatasetConfig instância com a qual as colunas devem ser descartadas.

keep_columns

Mantenha as colunas especificadas e descarta todas as outras do Conjunto de Dados.

keep_columns(columns)

Parâmetros

Name Description
columns
Necessário

O nome ou uma lista de nomes para as colunas manterem.

Devoluções

Tipo Description

Uma OutputTabularDatasetConfig instância com a qual as colunas devem ser mantidas.

random_split

Divida os registros no conjunto de dados em duas partes aleatoriamente e aproximadamente pela porcentagem especificada.

As configurações de saída resultantes terão seus nomes alterados, a primeira terá _1 anexado ao nome e a segunda terá _2 anexado ao nome. Se isso causar uma colisão de nomes ou se você quiser especificar um nome personalizado, defina manualmente seus nomes.

random_split(percentage, seed=None)

Parâmetros

Name Description
percentage
Necessário

A porcentagem aproximada para dividir o conjunto de dados por. Este deve ser um número entre 0,0 e 1,0.

seed
Necessário
int

Semente opcional para usar no gerador aleatório.

Devoluções

Tipo Description

Retorna uma tupla de dois objetos OutputTabularDatasetConfig que representam os dois Datasets após a divisão.