OutputTabularDatasetConfig Classe
Represente como copiar a saída de uma execução e ser promovido como um TabularDataset.
Inicialize um OutputTabularDatasetConfig.
Construtor
OutputTabularDatasetConfig(**kwargs)
Observações
Você não deve chamar esse construtor diretamente, mas em vez disso deve criar um OutputFileDatasetConfig e, em seguida, chamar os métodos read_* correspondentes para convertê-lo em um OutputTabularDatasetConfig.
A maneira como a saída será copiada para o destino de um OutputTabularDatasetConfig é a mesma que um OutputFileDatasetConfig. A diferença entre eles é que o Dataset que é criado será um TabularDataset contendo todas as transformações especificadas.
Métodos
| as_input |
Especifique como consumir a saída como uma entrada nas etapas subsequentes do pipeline. |
| as_mount |
Defina o modo de saída para montar. Para o modo de montagem, o diretório de saída será um diretório montado em FUSE. Os arquivos gravados no diretório montado serão carregados quando o arquivo for fechado. |
| as_upload |
Defina o modo da saída para carregar. Para o modo de upload, os arquivos gravados no diretório de saída serão carregados no final do trabalho. Se o trabalho falhar ou for cancelado, o diretório de saída não será carregado. |
| drop_columns |
Solte as colunas especificadas do Conjunto de Dados. |
| keep_columns |
Mantenha as colunas especificadas e descarta todas as outras do Conjunto de Dados. |
| random_split |
Divida os registros no conjunto de dados em duas partes aleatoriamente e aproximadamente pela porcentagem especificada. As configurações de saída resultantes terão seus nomes alterados, a primeira terá _1 anexado ao nome e a segunda terá _2 anexado ao nome. Se isso causar uma colisão de nomes ou se você quiser especificar um nome personalizado, defina manualmente seus nomes. |
as_input
Especifique como consumir a saída como uma entrada nas etapas subsequentes do pipeline.
as_input(name=None)
Parâmetros
| Name | Description |
|---|---|
|
name
Necessário
|
O nome da entrada específica para a execução. |
Devoluções
| Tipo | Description |
|---|---|
|
Uma DatasetConsumptionConfig instância que descreve como fornecer os dados de entrada. |
as_mount
Defina o modo de saída para montar.
Para o modo de montagem, o diretório de saída será um diretório montado em FUSE. Os arquivos gravados no diretório montado serão carregados quando o arquivo for fechado.
as_mount()
Devoluções
| Tipo | Description |
|---|---|
|
Uma OutputTabularDatasetConfig instância com o modo definido para montagem. |
as_upload
Defina o modo da saída para carregar.
Para o modo de upload, os arquivos gravados no diretório de saída serão carregados no final do trabalho. Se o trabalho falhar ou for cancelado, o diretório de saída não será carregado.
as_upload(overwrite=False, source_globs=None)
Parâmetros
| Name | Description |
|---|---|
|
overwrite
Necessário
|
Se os arquivos que já existem no destino devem ser substituídos. |
|
source_globs
Necessário
|
Padrões de Glob usados para filtrar arquivos que serão carregados. |
Devoluções
| Tipo | Description |
|---|---|
|
Uma OutputTabularDatasetConfig instância com o modo definido para upload. |
drop_columns
Solte as colunas especificadas do Conjunto de Dados.
drop_columns(columns)
Parâmetros
| Name | Description |
|---|---|
|
columns
Necessário
|
O nome ou uma lista de nomes para as colunas serem descartadas. |
Devoluções
| Tipo | Description |
|---|---|
|
Uma OutputTabularDatasetConfig instância com a qual as colunas devem ser descartadas. |
keep_columns
Mantenha as colunas especificadas e descarta todas as outras do Conjunto de Dados.
keep_columns(columns)
Parâmetros
| Name | Description |
|---|---|
|
columns
Necessário
|
O nome ou uma lista de nomes para as colunas manterem. |
Devoluções
| Tipo | Description |
|---|---|
|
Uma OutputTabularDatasetConfig instância com a qual as colunas devem ser mantidas. |
random_split
Divida os registros no conjunto de dados em duas partes aleatoriamente e aproximadamente pela porcentagem especificada.
As configurações de saída resultantes terão seus nomes alterados, a primeira terá _1 anexado ao nome e a segunda terá _2 anexado ao nome. Se isso causar uma colisão de nomes ou se você quiser especificar um nome personalizado, defina manualmente seus nomes.
random_split(percentage, seed=None)
Parâmetros
| Name | Description |
|---|---|
|
percentage
Necessário
|
A porcentagem aproximada para dividir o conjunto de dados por. Este deve ser um número entre 0,0 e 1,0. |
|
seed
Necessário
|
Semente opcional para usar no gerador aleatório. |
Devoluções
| Tipo | Description |
|---|---|
|
Retorna uma tupla de dois objetos OutputTabularDatasetConfig que representam os dois Datasets após a divisão. |