OutputFileDatasetConfig Klas

Laat zien hoe u de uitvoer van een uitvoering kopieert en wordt gepromoveerd als een FileDataset.

Met de OutputFileDatasetConfig kunt u opgeven hoe u een bepaald lokaal pad op het rekendoel wilt uploaden naar de opgegeven bestemming. Als er geen argumenten worden doorgegeven aan de constructor, genereren we automatisch een naam, een bestemming en een lokaal pad.

Een voorbeeld van het doorgeven van argumenten:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Een voorbeeld van het maken van een uitvoer en het promoveren van de uitvoer naar een tabellaire gegevensset en deze registreren met de naam foo:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Initialiseer een OutputFileDatasetConfig.

Met de OutputFileDatasetConfig kunt u opgeven hoe u een bepaald lokaal pad op het rekendoel wilt uploaden naar de opgegeven bestemming. Als er geen argumenten worden doorgegeven aan de constructor, genereren we automatisch een naam, een bestemming en een lokaal pad.

Een voorbeeld van het doorgeven van argumenten:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   output = OutputFileDatasetConfig()

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Een voorbeeld van het maken van een uitvoer en het promoveren van de uitvoer naar een tabellaire gegevensset en deze registreren met de naam foo:


   workspace = Workspace.from_config()
   experiment = Experiment(workspace, 'output_example')

   datastore = Datastore(workspace, 'example_adls_gen2_datastore')

   # for more information on the parameters and methods, please look for the corresponding documentation.
   output = OutputFileDatasetConfig().read_delimited_files().register_on_complete('foo')

   script_run_config = ScriptRunConfig('.', 'train.py', arguments=[output])

   run = experiment.submit(script_run_config)
   print(run)

Constructor

OutputFileDatasetConfig(name=None, destination=None, source=None, partition_format=None)

Parameters

Name Description
name
Vereist
str

De naam van de uitvoer die specifiek is voor deze uitvoering. Dit wordt meestal gebruikt voor herkomstdoeleinden. Als deze optie is ingesteld op Geen, genereren we automatisch een naam. De naam wordt ook een omgevingsvariabele die het lokale pad bevat waar u uw uitvoerbestanden en -mappen naar kunt schrijven die naar de bestemming worden geüpload.

destination
Vereist

Het doel waar de uitvoer naar moet worden gekopieerd. Als dit is ingesteld op Geen, wordt de uitvoer gekopieerd naar het dataarchief workspaceblobstore, onder het pad /dataset/{run-id}/{output-name}, waarbij run-id de id van de run is en de uitvoernaam de uitvoernaam is van de bovenstaande naamparameter . Het doel is een tuple waarin het eerste item het gegevensarchief is en het tweede item het pad in het gegevensarchief is waarnaar de gegevens moeten worden gekopieerd.

Het pad in het gegevensarchief kan een sjabloonpad zijn. Een sjabloonpad is slechts een gewoon pad, maar met tijdelijke aanduidingen binnen. Deze tijdelijke aanduidingen worden vervolgens op het juiste moment omgezet. De syntaxis voor tijdelijke aanduidingen is {tijdelijke aanduiding}, bijvoorbeeld /path/with/{placeholder}. Momenteel worden slechts twee tijdelijke aanduidingen ondersteund, {run-id} en {output-name}.

source
Vereist
str

Het pad binnen het rekendoel waaruit de gegevens moeten worden gekopieerd. Als deze optie is ingesteld op Geen, wordt dit ingesteld op een map die we in de tijdelijke map van het besturingssysteem van het rekendoel maken.

partition_format
Vereist
str

Geef de partitieindeling van het pad op. Standaardwaarde is Geen. De partitiegegevens van elk pad worden geëxtraheerd in kolommen op basis van de opgegeven indeling. Als onderdeel {column_name} wordt een tekenreekskolom gemaakt en {column_name:jjjj/MM/dd/HH/mm/ss} wordt een datum/tijdkolom gemaakt, waarbij 'jjjj', 'MM', 'dd', 'uu', 'mm' en 'ss' worden gebruikt voor het extraheren van jaar, maand, dag, uur en seconde voor het datum/tijd-type. De indeling moet beginnen vanaf de positie van de eerste partitiesleutel tot het einde van het bestandspad. Bijvoorbeeld, op basis van het pad '.. /Accounts/2019/01/01/data.parquet' waarbij de partitie is op afdelingsnaam en -tijd, partition_format='/{Department}/{PartitionDate:jjjj/MM/dd}/data.parquet' maakt een tekenreekskolom 'Afdeling' met de waarde 'Accounts' en een datum/tijd-kolom 'PartitionDate' met de waarde '2019-01-01'.

name
Vereist
str

De naam van de uitvoer die specifiek is voor deze uitvoering. Dit wordt meestal gebruikt voor herkomstdoeleinden. Als deze optie is ingesteld op Geen, genereren we automatisch een naam. De naam wordt ook een omgevingsvariabele die het lokale pad bevat waar u uw uitvoerbestanden en -mappen naar kunt schrijven die naar de bestemming worden geüpload.

destination
Vereist

Het doel waar de uitvoer naar moet worden gekopieerd. Als dit is ingesteld op Geen, wordt de uitvoer gekopieerd naar het dataarchief workspaceblobstore, onder het pad /dataset/{run-id}/{output-name}, waarbij run-id de id van de run is en de uitvoernaam de uitvoernaam is van de bovenstaande naamparameter . Het doel is een tuple waarin het eerste item het gegevensarchief is en het tweede item het pad in het gegevensarchief is waarnaar de gegevens moeten worden gekopieerd.

Het pad in het gegevensarchief kan een sjabloonpad zijn. Een sjabloonpad is slechts een gewoon pad, maar met tijdelijke aanduidingen binnen. Deze tijdelijke aanduidingen worden vervolgens op het juiste moment omgezet. De syntaxis voor tijdelijke aanduidingen is {tijdelijke aanduiding}, bijvoorbeeld /path/with/{placeholder}. Momenteel worden slechts twee tijdelijke aanduidingen ondersteund, {run-id} en {output-name}.

source
Vereist
str

Het pad binnen het rekendoel waaruit de gegevens moeten worden gekopieerd. Als deze optie is ingesteld op Geen, wordt dit ingesteld op een map die we in de tijdelijke map van het besturingssysteem van het rekendoel maken.

partition_format
Vereist
str

Geef de partitieindeling van het pad op. Standaardwaarde is Geen. De partitiegegevens van elk pad worden geëxtraheerd in kolommen op basis van de opgegeven indeling. Als onderdeel {column_name} wordt een tekenreekskolom gemaakt en {column_name:jjjj/MM/dd/HH/mm/ss} wordt een datum/tijdkolom gemaakt, waarbij 'jjjj', 'MM', 'dd', 'uu', 'mm' en 'ss' worden gebruikt voor het extraheren van jaar, maand, dag, uur en seconde voor het datum/tijd-type. De indeling moet beginnen vanaf de positie van de eerste partitiesleutel tot het einde van het bestandspad. Bijvoorbeeld, op basis van het pad '.. /Accounts/2019/01/01/data.parquet' waarbij de partitie is op afdelingsnaam en -tijd, partition_format='/{Department}/{PartitionDate:jjjj/MM/dd}/data.parquet' maakt een tekenreekskolom 'Afdeling' met de waarde 'Accounts' en een datum/tijd-kolom 'PartitionDate' met de waarde '2019-01-01'.

Opmerkingen

U kunt de OutputFileDatasetConfig doorgeven als een argument voor uw uitvoering en dit wordt automatisch omgezet in het lokale pad op de berekening. Het bronargument wordt gebruikt als er een is opgegeven, anders genereren we automatisch een map in de tijdelijke map van het besturingssysteem. De bestanden en mappen in de bronmap worden vervolgens gekopieerd naar het doel op basis van de uitvoerconfiguratie.

De modus waarmee de uitvoer naar de doelopslag wordt gekopieerd, wordt standaard ingesteld op koppelen. Zie de documentatie voor as_mount voor meer informatie over de koppelingsmodus.

Methoden

as_input

Geef op hoe de uitvoer moet worden gebruikt als invoer in de volgende pijplijnstappen.

as_mount

Stel de modus van de uitvoer in om te koppelen.

Voor de koppelingsmodus is de uitvoermap een gekoppelde FUSE-map. Bestanden die naar de gekoppelde map worden geschreven, worden geüpload wanneer het bestand wordt gesloten.

as_upload

Stel de modus van de uitvoer in om te uploaden.

Voor de uploadmodus worden bestanden die naar de uitvoermap worden geschreven, geüpload aan het einde van de taak. Als de taak mislukt of wordt geannuleerd, wordt de uitvoermap niet geüpload.

as_input

Geef op hoe de uitvoer moet worden gebruikt als invoer in de volgende pijplijnstappen.

as_input(name=None)

Parameters

Name Description
name
Vereist
str

De naam van de invoer die specifiek is voor de uitvoering.

Retouren

Type Description

Een DatasetConsumptionConfig exemplaar waarin wordt beschreven hoe de invoergegevens moeten worden geleverd.

as_mount

Stel de modus van de uitvoer in om te koppelen.

Voor de koppelingsmodus is de uitvoermap een gekoppelde FUSE-map. Bestanden die naar de gekoppelde map worden geschreven, worden geüpload wanneer het bestand wordt gesloten.

as_mount(disable_metadata_cache=False)

Parameters

Name Description
disable_metadata_cache
Vereist

Of metagegevens in het lokale knooppunt moeten worden opgeslagen in de cache, als een knooppunt is uitgeschakeld, kunnen tijdens het uitvoeren van de taak geen bestanden worden weergegeven die zijn gegenereerd op basis van andere knooppunten.

Retouren

Type Description

Een OutputFileDatasetConfig exemplaar met de modus ingesteld op koppelen.

as_upload

Stel de modus van de uitvoer in om te uploaden.

Voor de uploadmodus worden bestanden die naar de uitvoermap worden geschreven, geüpload aan het einde van de taak. Als de taak mislukt of wordt geannuleerd, wordt de uitvoermap niet geüpload.

as_upload(overwrite=False, source_globs=None)

Parameters

Name Description
overwrite
Vereist

Of u bestanden wilt overschrijven die al aanwezig zijn in de bestemming.

source_globs
Vereist

Glob-patronen die worden gebruikt om bestanden te filteren die worden geüpload.

Retouren

Type Description

Een OutputFileDatasetConfig exemplaar met de modus ingesteld om te uploaden.