OutputTabularDatasetConfig Klas
Laat zien hoe u de uitvoer van een uitvoering kopieert en wordt gepromoveerd als een TabularDataset.
Initialiseer een OutputTabularDatasetConfig.
Constructor
OutputTabularDatasetConfig(**kwargs)
Opmerkingen
U moet deze constructor niet rechtstreeks aanroepen, maar in plaats daarvan moet u een OutputFileDatasetConfig maken en vervolgens de bijbehorende read_*-methoden aanroepen om deze te converteren naar een OutputTabularDatasetConfig.
De manier waarop de uitvoer naar het doel voor een OutputTabularDatasetConfig wordt gekopieerd, is hetzelfde als een OutputFileDatasetConfig. Het verschil is dat de gegevensset die wordt gemaakt een TabularDataset is die alle opgegeven transformaties bevat.
Methoden
| as_input |
Geef op hoe de uitvoer moet worden gebruikt als invoer in de volgende pijplijnstappen. |
| as_mount |
Stel de modus van de uitvoer in om te koppelen. Voor de koppelingsmodus is de uitvoermap een gekoppelde FUSE-map. Bestanden die naar de gekoppelde map worden geschreven, worden geüpload wanneer het bestand wordt gesloten. |
| as_upload |
Stel de modus van de uitvoer in om te uploaden. Voor de uploadmodus worden bestanden die naar de uitvoermap worden geschreven, geüpload aan het einde van de taak. Als de taak mislukt of wordt geannuleerd, wordt de uitvoermap niet geüpload. |
| drop_columns |
Verwijder de opgegeven kolommen uit de gegevensset. |
| keep_columns |
Behoud de opgegeven kolommen en laat alle andere kolommen uit de gegevensset vallen. |
| random_split |
Splits records in de gegevensset willekeurig en ongeveer op basis van het opgegeven percentage. De resulterende uitvoerconfiguraties hebben hun namen gewijzigd, de eerste heeft _1 toegevoegd aan de naam en de tweede zal _2 aan de naam hebben toegevoegd. Als dit een naamconflict veroorzaakt of als u een aangepaste naam wilt opgeven, moet u de namen handmatig instellen. |
as_input
Geef op hoe de uitvoer moet worden gebruikt als invoer in de volgende pijplijnstappen.
as_input(name=None)
Parameters
| Name | Description |
|---|---|
|
name
Vereist
|
De naam van de invoer die specifiek is voor de uitvoering. |
Retouren
| Type | Description |
|---|---|
|
Een DatasetConsumptionConfig exemplaar waarin wordt beschreven hoe de invoergegevens moeten worden geleverd. |
as_mount
Stel de modus van de uitvoer in om te koppelen.
Voor de koppelingsmodus is de uitvoermap een gekoppelde FUSE-map. Bestanden die naar de gekoppelde map worden geschreven, worden geüpload wanneer het bestand wordt gesloten.
as_mount()
Retouren
| Type | Description |
|---|---|
|
Een OutputTabularDatasetConfig exemplaar met de modus ingesteld op koppelen. |
as_upload
Stel de modus van de uitvoer in om te uploaden.
Voor de uploadmodus worden bestanden die naar de uitvoermap worden geschreven, geüpload aan het einde van de taak. Als de taak mislukt of wordt geannuleerd, wordt de uitvoermap niet geüpload.
as_upload(overwrite=False, source_globs=None)
Parameters
| Name | Description |
|---|---|
|
overwrite
Vereist
|
Of u bestanden wilt overschrijven die al aanwezig zijn in de bestemming. |
|
source_globs
Vereist
|
Glob-patronen die worden gebruikt om bestanden te filteren die worden geüpload. |
Retouren
| Type | Description |
|---|---|
|
Een OutputTabularDatasetConfig exemplaar met de modus ingesteld om te uploaden. |
drop_columns
Verwijder de opgegeven kolommen uit de gegevensset.
drop_columns(columns)
Parameters
| Name | Description |
|---|---|
|
columns
Vereist
|
De naam of een lijst met namen voor de kolommen die moeten worden verwijderd. |
Retouren
| Type | Description |
|---|---|
|
Een OutputTabularDatasetConfig exemplaar waarmee kolommen moeten worden verwijderd. |
keep_columns
Behoud de opgegeven kolommen en laat alle andere kolommen uit de gegevensset vallen.
keep_columns(columns)
Parameters
| Name | Description |
|---|---|
|
columns
Vereist
|
De naam of een lijst met namen voor de kolommen die u wilt behouden. |
Retouren
| Type | Description |
|---|---|
|
Een OutputTabularDatasetConfig exemplaar waarmee kolommen moeten worden bewaard. |
random_split
Splits records in de gegevensset willekeurig en ongeveer op basis van het opgegeven percentage.
De resulterende uitvoerconfiguraties hebben hun namen gewijzigd, de eerste heeft _1 toegevoegd aan de naam en de tweede zal _2 aan de naam hebben toegevoegd. Als dit een naamconflict veroorzaakt of als u een aangepaste naam wilt opgeven, moet u de namen handmatig instellen.
random_split(percentage, seed=None)
Parameters
| Name | Description |
|---|---|
|
percentage
Vereist
|
Het geschatte percentage waarop de gegevensset moet worden gesplitst. Dit moet een getal tussen 0,0 en 1,0 zijn. |
|
seed
Vereist
|
Optioneel zaad dat moet worden gebruikt voor de willekeurige generator. |
Retouren
| Type | Description |
|---|---|
|
Retourneert een tuple van twee OutputTabularDatasetConfig-objecten die de twee gegevenssets na de splitsing vertegenwoordigen. |