OutputTabularDatasetConfig Clase
Representa cómo copiar la salida de una ejecución y promocionarse como tabularDataset.
Inicialice outputTabularDatasetConfig.
Constructor
OutputTabularDatasetConfig(**kwargs)
Comentarios
No debe llamar directamente a este constructor, sino que debe crear un outputFileDatasetConfig y, a continuación, llamar a los métodos read_* correspondientes para convertirlos en outputTabularDatasetConfig.
La forma en que la salida se copiará en el destino de outputTabularDatasetConfig es la misma que outputFileDatasetConfig. La diferencia entre ellos es que el conjunto de datos que se crea será un conjunto tabularDataset que contiene todas las transformaciones especificadas.
Métodos
| as_input |
Especifique cómo consumir la salida como entrada en los pasos posteriores de la canalización. |
| as_mount |
Establezca el modo de salida que se va a montar. Para el modo de montaje, el directorio de salida será un directorio montado en FUSE. Los archivos escritos en el directorio montado se cargarán cuando se cierre el archivo. |
| as_upload |
Establezca el modo de salida que se va a cargar. Para el modo de carga, los archivos escritos en el directorio de salida se cargarán al final del trabajo. Si se produce un error en el trabajo o se cancela, no se cargará el directorio de salida. |
| drop_columns |
Quite las columnas especificadas del conjunto de datos. |
| keep_columns |
Mantenga las columnas especificadas y quite todas las demás del conjunto de datos. |
| random_split |
Divida los registros del conjunto de datos en dos partes aleatoriamente y aproximadamente por el porcentaje especificado. Las configuraciones de salida resultantes tendrán sus nombres cambiados, el primero tendrá _1 anexado al nombre y el segundo tendrá _2 anexado al nombre. Si provocará una colisión de nombres o desea especificar un nombre personalizado, establezca manualmente sus nombres. |
as_input
Especifique cómo consumir la salida como entrada en los pasos posteriores de la canalización.
as_input(name=None)
Parámetros
| Nombre | Description |
|---|---|
|
name
Requerido
|
Nombre de la entrada específica de la ejecución. |
Devoluciones
| Tipo | Description |
|---|---|
|
Instancia DatasetConsumptionConfig que describe cómo entregar los datos de entrada. |
as_mount
Establezca el modo de salida que se va a montar.
Para el modo de montaje, el directorio de salida será un directorio montado en FUSE. Los archivos escritos en el directorio montado se cargarán cuando se cierre el archivo.
as_mount()
Devoluciones
| Tipo | Description |
|---|---|
|
Instancia OutputTabularDatasetConfig con el modo establecido en montar. |
as_upload
Establezca el modo de salida que se va a cargar.
Para el modo de carga, los archivos escritos en el directorio de salida se cargarán al final del trabajo. Si se produce un error en el trabajo o se cancela, no se cargará el directorio de salida.
as_upload(overwrite=False, source_globs=None)
Parámetros
| Nombre | Description |
|---|---|
|
overwrite
Requerido
|
Si se deben sobrescribir los archivos que ya existen en el destino. |
|
source_globs
Requerido
|
Patrones Glob usados para filtrar los archivos que se cargarán. |
Devoluciones
| Tipo | Description |
|---|---|
|
Instancia OutputTabularDatasetConfig con el modo establecido para cargar. |
drop_columns
Quite las columnas especificadas del conjunto de datos.
drop_columns(columns)
Parámetros
| Nombre | Description |
|---|---|
|
columns
Requerido
|
Nombre o lista de nombres de las columnas que se van a quitar. |
Devoluciones
| Tipo | Description |
|---|---|
|
Instancia OutputTabularDatasetConfig con la que se van a quitar las columnas. |
keep_columns
Mantenga las columnas especificadas y quite todas las demás del conjunto de datos.
keep_columns(columns)
Parámetros
| Nombre | Description |
|---|---|
|
columns
Requerido
|
El nombre o una lista de nombres para las columnas que se van a conservar. |
Devoluciones
| Tipo | Description |
|---|---|
|
Instancia OutputTabularDatasetConfig con la que se conservarán las columnas. |
random_split
Divida los registros del conjunto de datos en dos partes aleatoriamente y aproximadamente por el porcentaje especificado.
Las configuraciones de salida resultantes tendrán sus nombres cambiados, el primero tendrá _1 anexado al nombre y el segundo tendrá _2 anexado al nombre. Si provocará una colisión de nombres o desea especificar un nombre personalizado, establezca manualmente sus nombres.
random_split(percentage, seed=None)
Parámetros
| Nombre | Description |
|---|---|
|
percentage
Requerido
|
Porcentaje aproximado por el que se va a dividir el conjunto de datos. Debe ser un número comprendido entre 0,0 y 1,0. |
|
seed
Requerido
|
Inicialización opcional que se usará para el generador aleatorio. |
Devoluciones
| Tipo | Description |
|---|---|
|
Devuelve una tupla de dos objetos OutputTabularDatasetConfig que representan los dos conjuntos de datos después de la división. |