OutputTabularDatasetConfig Classe
Représente comment copier la sortie d’une exécution et être promue en tant que TabularDataset.
Initialisez un OutputTabularDatasetConfig.
Constructeur
OutputTabularDatasetConfig(**kwargs)
Remarques
Vous ne devez pas appeler ce constructeur directement, mais au lieu de cela, créez un OutputFileDatasetConfig, puis appelez les méthodes read_* correspondantes pour la convertir en OutputTabularDatasetConfig.
La façon dont la sortie sera copiée vers la destination d’un OutputTabularDatasetConfig est identique à celle d’un OutputFileDatasetConfig. La différence entre elles est que le jeu de données créé est un TabularDataset contenant toutes les transformations spécifiées.
Méthodes
| as_input |
Spécifiez comment consommer la sortie en tant qu’entrée dans les étapes de pipeline suivantes. |
| as_mount |
Définissez le mode de la sortie à monter. Pour le mode montage, le répertoire de sortie est un répertoire monté par FUSE. Les fichiers écrits dans le répertoire monté sont chargés lorsque le fichier est fermé. |
| as_upload |
Définissez le mode de sortie à charger. Pour le mode de chargement, les fichiers écrits dans le répertoire de sortie sont chargés à la fin du travail. Si le travail échoue ou est annulé, le répertoire de sortie ne sera pas chargé. |
| drop_columns |
Supprimez les colonnes spécifiées du jeu de données. |
| keep_columns |
Conservez les colonnes spécifiées et supprimez tous les autres utilisateurs du jeu de données. |
| random_split |
Fractionnez les enregistrements du jeu de données en deux parties de manière aléatoire et approximativement par le pourcentage spécifié. Les configurations de sortie résultantes auront changé leurs noms, la première aura _1 ajoutée au nom et la seconde aura _2 ajoutée au nom. S’il provoque une collision de noms ou si vous souhaitez spécifier un nom personnalisé, définissez manuellement leurs noms. |
as_input
Spécifiez comment consommer la sortie en tant qu’entrée dans les étapes de pipeline suivantes.
as_input(name=None)
Paramètres
| Nom | Description |
|---|---|
|
name
Obligatoire
|
Nom de l’entrée spécifique à l’exécution. |
Retours
| Type | Description |
|---|---|
|
Instance DatasetConsumptionConfig décrivant comment fournir les données d’entrée. |
as_mount
Définissez le mode de la sortie à monter.
Pour le mode montage, le répertoire de sortie est un répertoire monté par FUSE. Les fichiers écrits dans le répertoire monté sont chargés lorsque le fichier est fermé.
as_mount()
Retours
| Type | Description |
|---|---|
|
Instance OutputTabularDatasetConfig avec le mode défini pour monter. |
as_upload
Définissez le mode de sortie à charger.
Pour le mode de chargement, les fichiers écrits dans le répertoire de sortie sont chargés à la fin du travail. Si le travail échoue ou est annulé, le répertoire de sortie ne sera pas chargé.
as_upload(overwrite=False, source_globs=None)
Paramètres
| Nom | Description |
|---|---|
|
overwrite
Obligatoire
|
Indique s’il faut remplacer les fichiers qui existent déjà dans la destination. |
|
source_globs
Obligatoire
|
Modèles Glob utilisés pour filtrer les fichiers qui seront chargés. |
Retours
| Type | Description |
|---|---|
|
Instance OutputTabularDatasetConfig avec le mode défini pour le chargement. |
drop_columns
Supprimez les colonnes spécifiées du jeu de données.
drop_columns(columns)
Paramètres
| Nom | Description |
|---|---|
|
columns
Obligatoire
|
Nom ou liste de noms pour les colonnes à supprimer. |
Retours
| Type | Description |
|---|---|
|
Instance OutputTabularDatasetConfig avec laquelle les colonnes à supprimer. |
keep_columns
Conservez les colonnes spécifiées et supprimez tous les autres utilisateurs du jeu de données.
keep_columns(columns)
Paramètres
| Nom | Description |
|---|---|
|
columns
Obligatoire
|
Nom ou liste de noms pour les colonnes à conserver. |
Retours
| Type | Description |
|---|---|
|
Instance OutputTabularDatasetConfig avec laquelle les colonnes à conserver. |
random_split
Fractionnez les enregistrements du jeu de données en deux parties de manière aléatoire et approximativement par le pourcentage spécifié.
Les configurations de sortie résultantes auront changé leurs noms, la première aura _1 ajoutée au nom et la seconde aura _2 ajoutée au nom. S’il provoque une collision de noms ou si vous souhaitez spécifier un nom personnalisé, définissez manuellement leurs noms.
random_split(percentage, seed=None)
Paramètres
| Nom | Description |
|---|---|
|
percentage
Obligatoire
|
Pourcentage approximatif à fractionner le jeu de données. Il doit s’agir d’un nombre compris entre 0,0 et 1,0. |
|
seed
Obligatoire
|
Valeur initiale facultative à utiliser pour le générateur aléatoire. |
Retours
| Type | Description |
|---|---|
|
Retourne un tuple de deux objets OutputTabularDatasetConfig représentant les deux jeux de données après le fractionnement. |