OutputTabularDatasetConfig Classe

Représente comment copier la sortie d’une exécution et être promue en tant que TabularDataset.

Initialisez un OutputTabularDatasetConfig.

Constructeur

OutputTabularDatasetConfig(**kwargs)

Remarques

Vous ne devez pas appeler ce constructeur directement, mais au lieu de cela, créez un OutputFileDatasetConfig, puis appelez les méthodes read_* correspondantes pour la convertir en OutputTabularDatasetConfig.

La façon dont la sortie sera copiée vers la destination d’un OutputTabularDatasetConfig est identique à celle d’un OutputFileDatasetConfig. La différence entre elles est que le jeu de données créé est un TabularDataset contenant toutes les transformations spécifiées.

Méthodes

as_input

Spécifiez comment consommer la sortie en tant qu’entrée dans les étapes de pipeline suivantes.

as_mount

Définissez le mode de la sortie à monter.

Pour le mode montage, le répertoire de sortie est un répertoire monté par FUSE. Les fichiers écrits dans le répertoire monté sont chargés lorsque le fichier est fermé.

as_upload

Définissez le mode de sortie à charger.

Pour le mode de chargement, les fichiers écrits dans le répertoire de sortie sont chargés à la fin du travail. Si le travail échoue ou est annulé, le répertoire de sortie ne sera pas chargé.

drop_columns

Supprimez les colonnes spécifiées du jeu de données.

keep_columns

Conservez les colonnes spécifiées et supprimez tous les autres utilisateurs du jeu de données.

random_split

Fractionnez les enregistrements du jeu de données en deux parties de manière aléatoire et approximativement par le pourcentage spécifié.

Les configurations de sortie résultantes auront changé leurs noms, la première aura _1 ajoutée au nom et la seconde aura _2 ajoutée au nom. S’il provoque une collision de noms ou si vous souhaitez spécifier un nom personnalisé, définissez manuellement leurs noms.

as_input

Spécifiez comment consommer la sortie en tant qu’entrée dans les étapes de pipeline suivantes.

as_input(name=None)

Paramètres

Nom Description
name
Obligatoire
str

Nom de l’entrée spécifique à l’exécution.

Retours

Type Description

Instance DatasetConsumptionConfig décrivant comment fournir les données d’entrée.

as_mount

Définissez le mode de la sortie à monter.

Pour le mode montage, le répertoire de sortie est un répertoire monté par FUSE. Les fichiers écrits dans le répertoire monté sont chargés lorsque le fichier est fermé.

as_mount()

Retours

Type Description

Instance OutputTabularDatasetConfig avec le mode défini pour monter.

as_upload

Définissez le mode de sortie à charger.

Pour le mode de chargement, les fichiers écrits dans le répertoire de sortie sont chargés à la fin du travail. Si le travail échoue ou est annulé, le répertoire de sortie ne sera pas chargé.

as_upload(overwrite=False, source_globs=None)

Paramètres

Nom Description
overwrite
Obligatoire

Indique s’il faut remplacer les fichiers qui existent déjà dans la destination.

source_globs
Obligatoire

Modèles Glob utilisés pour filtrer les fichiers qui seront chargés.

Retours

Type Description

Instance OutputTabularDatasetConfig avec le mode défini pour le chargement.

drop_columns

Supprimez les colonnes spécifiées du jeu de données.

drop_columns(columns)

Paramètres

Nom Description
columns
Obligatoire

Nom ou liste de noms pour les colonnes à supprimer.

Retours

Type Description

Instance OutputTabularDatasetConfig avec laquelle les colonnes à supprimer.

keep_columns

Conservez les colonnes spécifiées et supprimez tous les autres utilisateurs du jeu de données.

keep_columns(columns)

Paramètres

Nom Description
columns
Obligatoire

Nom ou liste de noms pour les colonnes à conserver.

Retours

Type Description

Instance OutputTabularDatasetConfig avec laquelle les colonnes à conserver.

random_split

Fractionnez les enregistrements du jeu de données en deux parties de manière aléatoire et approximativement par le pourcentage spécifié.

Les configurations de sortie résultantes auront changé leurs noms, la première aura _1 ajoutée au nom et la seconde aura _2 ajoutée au nom. S’il provoque une collision de noms ou si vous souhaitez spécifier un nom personnalisé, définissez manuellement leurs noms.

random_split(percentage, seed=None)

Paramètres

Nom Description
percentage
Obligatoire

Pourcentage approximatif à fractionner le jeu de données. Il doit s’agir d’un nombre compris entre 0,0 et 1,0.

seed
Obligatoire
int

Valeur initiale facultative à utiliser pour le générateur aléatoire.

Retours

Type Description

Retourne un tuple de deux objets OutputTabularDatasetConfig représentant les deux jeux de données après le fractionnement.