OutputTabularDatasetConfig Classe

Represente como copiar a saída de uma execução e ser promovido como um TabularDataset.

Inicialize um OutputTabularDatasetConfig.

Construtor

OutputTabularDatasetConfig(**kwargs)

Observações

Você não deve chamar esse construtor diretamente, mas em vez disso deve criar um OutputFileDatasetConfig e, em seguida, chamar os métodos read_* correspondentes para convertê-lo em um OutputTabularDatasetConfig.

A maneira como a saída será copiada para o destino de um OutputTabularDatasetConfig é a mesma que um OutputFileDatasetConfig. A diferença entre eles é que o Dataset que é criado será um TabularDataset contendo todas as transformações especificadas.

Métodos

as_input	Especifique como consumir a saída como uma entrada nas etapas subsequentes do pipeline.
as_mount	Defina o modo de saída para montar. Para o modo de montagem, o diretório de saída será um diretório montado em FUSE. Os arquivos gravados no diretório montado serão carregados quando o arquivo for fechado.
as_upload	Defina o modo da saída para carregar. Para o modo de upload, os arquivos gravados no diretório de saída serão carregados no final do trabalho. Se o trabalho falhar ou for cancelado, o diretório de saída não será carregado.
drop_columns	Solte as colunas especificadas do Conjunto de Dados.
keep_columns	Mantenha as colunas especificadas e descarta todas as outras do Conjunto de Dados.
random_split	Divida os registros no conjunto de dados em duas partes aleatoriamente e aproximadamente pela porcentagem especificada. As configurações de saída resultantes terão seus nomes alterados, a primeira terá _1 anexado ao nome e a segunda terá _2 anexado ao nome. Se isso causar uma colisão de nomes ou se você quiser especificar um nome personalizado, defina manualmente seus nomes.

as_input

Especifique como consumir a saída como uma entrada nas etapas subsequentes do pipeline.

as_input(name=None)

Parâmetros

Name	Description
name Necessário	str O nome da entrada específica para a execução.

Devoluções

Tipo	Description
DatasetConsumptionConfig	Uma DatasetConsumptionConfig instância que descreve como fornecer os dados de entrada.

as_mount

Defina o modo de saída para montar.

Para o modo de montagem, o diretório de saída será um diretório montado em FUSE. Os arquivos gravados no diretório montado serão carregados quando o arquivo for fechado.

as_mount()

Devoluções

Tipo	Description
OutputTabularDatasetConfig	Uma OutputTabularDatasetConfig instância com o modo definido para montagem.

as_upload

Defina o modo da saída para carregar.

Para o modo de upload, os arquivos gravados no diretório de saída serão carregados no final do trabalho. Se o trabalho falhar ou for cancelado, o diretório de saída não será carregado.

as_upload(overwrite=False, source_globs=None)

Parâmetros

Name	Description
overwrite Necessário	bool Se os arquivos que já existem no destino devem ser substituídos.
source_globs Necessário	list[str] Padrões de Glob usados para filtrar arquivos que serão carregados.

Devoluções

Tipo	Description
OutputTabularDatasetConfig	Uma OutputTabularDatasetConfig instância com o modo definido para upload.

drop_columns

Solte as colunas especificadas do Conjunto de Dados.

drop_columns(columns)

Parâmetros

Name	Description
columns Necessário	Union[str, list[str]] O nome ou uma lista de nomes para as colunas serem descartadas.

Devoluções

Tipo	Description
PipelineOutputTabularDataset	Uma OutputTabularDatasetConfig instância com a qual as colunas devem ser descartadas.

keep_columns

Mantenha as colunas especificadas e descarta todas as outras do Conjunto de Dados.

keep_columns(columns)

Parâmetros

Name	Description
columns Necessário	Union[str, list[str]] O nome ou uma lista de nomes para as colunas manterem.

Devoluções

Tipo	Description
PipelineOutputTabularDataset	Uma OutputTabularDatasetConfig instância com a qual as colunas devem ser mantidas.

random_split

Divida os registros no conjunto de dados em duas partes aleatoriamente e aproximadamente pela porcentagem especificada.

As configurações de saída resultantes terão seus nomes alterados, a primeira terá _1 anexado ao nome e a segunda terá _2 anexado ao nome. Se isso causar uma colisão de nomes ou se você quiser especificar um nome personalizado, defina manualmente seus nomes.

random_split(percentage, seed=None)

Parâmetros

Name	Description
percentage Necessário	float A porcentagem aproximada para dividir o conjunto de dados por. Este deve ser um número entre 0,0 e 1,0.
seed Necessário	int Semente opcional para usar no gerador aleatório.

Devoluções

Tipo	Description
tuple(OutputTabularDatasetConfig, OutputTabularDatasetConfig)	Retorna uma tupla de dois objetos OutputTabularDatasetConfig que representam os dois Datasets após a divisão.

Comentários

Esta página foi útil?