OutputTabularDatasetConfig Classe

Représente comment copier la sortie d’une exécution et être promue en tant que TabularDataset.

Initialisez un OutputTabularDatasetConfig.

Constructeur

OutputTabularDatasetConfig(**kwargs)

Remarques

Vous ne devez pas appeler ce constructeur directement, mais au lieu de cela, créez un OutputFileDatasetConfig, puis appelez les méthodes read_* correspondantes pour la convertir en OutputTabularDatasetConfig.

La façon dont la sortie sera copiée vers la destination d’un OutputTabularDatasetConfig est identique à celle d’un OutputFileDatasetConfig. La différence entre elles est que le jeu de données créé est un TabularDataset contenant toutes les transformations spécifiées.

Méthodes

as_input	Spécifiez comment consommer la sortie en tant qu’entrée dans les étapes de pipeline suivantes.
as_mount	Définissez le mode de la sortie à monter. Pour le mode montage, le répertoire de sortie est un répertoire monté par FUSE. Les fichiers écrits dans le répertoire monté sont chargés lorsque le fichier est fermé.
as_upload	Définissez le mode de sortie à charger. Pour le mode de chargement, les fichiers écrits dans le répertoire de sortie sont chargés à la fin du travail. Si le travail échoue ou est annulé, le répertoire de sortie ne sera pas chargé.
drop_columns	Supprimez les colonnes spécifiées du jeu de données.
keep_columns	Conservez les colonnes spécifiées et supprimez tous les autres utilisateurs du jeu de données.
random_split	Fractionnez les enregistrements du jeu de données en deux parties de manière aléatoire et approximativement par le pourcentage spécifié. Les configurations de sortie résultantes auront changé leurs noms, la première aura _1 ajoutée au nom et la seconde aura _2 ajoutée au nom. S’il provoque une collision de noms ou si vous souhaitez spécifier un nom personnalisé, définissez manuellement leurs noms.

as_input

Spécifiez comment consommer la sortie en tant qu’entrée dans les étapes de pipeline suivantes.

as_input(name=None)

Paramètres

Nom	Description
name Obligatoire	str Nom de l’entrée spécifique à l’exécution.

Retours

Type	Description
DatasetConsumptionConfig	Instance DatasetConsumptionConfig décrivant comment fournir les données d’entrée.

as_mount

Définissez le mode de la sortie à monter.

Pour le mode montage, le répertoire de sortie est un répertoire monté par FUSE. Les fichiers écrits dans le répertoire monté sont chargés lorsque le fichier est fermé.

as_mount()

Retours

Type	Description
OutputTabularDatasetConfig	Instance OutputTabularDatasetConfig avec le mode défini pour monter.

as_upload

Définissez le mode de sortie à charger.

Pour le mode de chargement, les fichiers écrits dans le répertoire de sortie sont chargés à la fin du travail. Si le travail échoue ou est annulé, le répertoire de sortie ne sera pas chargé.

as_upload(overwrite=False, source_globs=None)

Paramètres

Nom	Description
overwrite Obligatoire	bool Indique s’il faut remplacer les fichiers qui existent déjà dans la destination.
source_globs Obligatoire	list[str] Modèles Glob utilisés pour filtrer les fichiers qui seront chargés.

Retours

Type	Description
OutputTabularDatasetConfig	Instance OutputTabularDatasetConfig avec le mode défini pour le chargement.

drop_columns

Supprimez les colonnes spécifiées du jeu de données.

drop_columns(columns)

Paramètres

Nom	Description
columns Obligatoire	Union[str, list[str]] Nom ou liste de noms pour les colonnes à supprimer.

Retours

Type	Description
PipelineOutputTabularDataset	Instance OutputTabularDatasetConfig avec laquelle les colonnes à supprimer.

keep_columns

Conservez les colonnes spécifiées et supprimez tous les autres utilisateurs du jeu de données.

keep_columns(columns)

Paramètres

Nom	Description
columns Obligatoire	Union[str, list[str]] Nom ou liste de noms pour les colonnes à conserver.

Retours

Type	Description
PipelineOutputTabularDataset	Instance OutputTabularDatasetConfig avec laquelle les colonnes à conserver.

random_split

Fractionnez les enregistrements du jeu de données en deux parties de manière aléatoire et approximativement par le pourcentage spécifié.

Les configurations de sortie résultantes auront changé leurs noms, la première aura _1 ajoutée au nom et la seconde aura _2 ajoutée au nom. S’il provoque une collision de noms ou si vous souhaitez spécifier un nom personnalisé, définissez manuellement leurs noms.

random_split(percentage, seed=None)

Paramètres

Nom	Description
percentage Obligatoire	float Pourcentage approximatif à fractionner le jeu de données. Il doit s’agir d’un nombre compris entre 0,0 et 1,0.
seed Obligatoire	int Valeur initiale facultative à utiliser pour le générateur aléatoire.

Retours

Type	Description
tuple(OutputTabularDatasetConfig, OutputTabularDatasetConfig)	Retourne un tuple de deux objets OutputTabularDatasetConfig représentant les deux jeux de données après le fractionnement.

Commentaires

Cette page a-t-elle été utile ?