Dela via


Skapa och köra maskininlärningspipelines med hjälp av komponenter i Azure Machine Learning Studio

GÄLLER FÖR: Azure CLI ml-tillägget v2 (aktuellt)

I den här artikeln får du lära dig hur du skapar och kör maskininlärningspipelines med hjälp av Azure Machine Learning Studio och komponenter. Du kan skapa pipelines utan att använda komponenter, men komponenter ger bättre flexibilitet och återanvändning. Azure Machine Learning-pipelines kan definieras i YAML och köras från Azure CLI, redigeras i Python eller skapas i Azure Machine Learning Studio Designer med ett dra och släpp-användargränssnitt. Den här artikeln fokuserar på Användargränssnittet för Azure Machine Learning Studio Designer.

Förutsättningar

Kommentar

Designer stöder två typer av komponenter, klassiska fördefinierade komponenter(v1) och anpassade komponenter (v2). Dessa två typer av komponenter är INTE kompatibla.

Klassiska fördefinierade komponenter tillhandahåller fördefinierade komponenter främst för databearbetning och traditionella maskininlärningsuppgifter som regression och klassificering. Klassiska fördefinierade komponenter fortsätter att stödjas men kommer inte att ha några nya komponenter tillagda. Distributionen av klassiska fördefinierade (v1) komponenter stöder inte hanterade onlineslutpunkter (v2).

Med anpassade komponenter kan du omsluta din egen kod som en komponent. Den stöder delning av komponenter mellan arbetsytor och sömlös redigering i studio-, CLI v2- och SDK v2-gränssnitt.

För nya projekt rekommenderar vi starkt att du använder anpassade komponenter, som är kompatibla med Azure Machine Learning V2 och får nya uppdateringar.

Den här artikeln gäller för anpassade komponenter.

Registrera en komponent på din arbetsyta

Om du vill skapa en pipeline med hjälp av komponenter i designergränssnittet måste du först registrera komponenter till din arbetsyta. Du kan använda användargränssnittet, Azure CLI eller SDK:t för att registrera komponenter till din arbetsyta, så att du kan dela och återanvända komponenten på arbetsytan. Registrerade komponenter stöder automatisk versionshantering så att du kan uppdatera komponenten, men se till att pipelines som kräver en äldre version fortsätter att fungera.

I följande exempel används användargränssnittet för att registrera komponenter. Komponentkällfilernacli/jobs/pipelines-with-components/basics/1b_e2e_registered_components finns i katalogen på lagringsplatsenazureml-examples. Du måste klona lagringsplatsen.

  1. På din Azure Machine Learning-arbetsyta går du till sidan Komponenter och väljer Ny komponent. Utseendet på sidan Komponenter varierar beroende på om du skapade komponenter tidigare.

    Skärmbild som visar knappen Registrera post på komponentsidan.

    Skärmbild som visar knappen Registrera post på komponentsidan med kan innehålla arkiv.

    Det här exemplet används train.ymli katalogen 1b_e2e_registered_components. YAML-filen definierar namn, typ, gränssnitt inklusive indata och utdata, kod, miljö och kommando för den här komponenten. Koden för den här komponenten (train.py) finns i ./train_src mappen. Koden beskriver körningslogiken för den här komponenten. Mer information om komponentschemat finns i yaml-schemareferensen för kommandokomponenten.

    Kommentar

    För registerkomponenter i användargränssnittet code definieras i komponentens YAML-fil och kan endast peka på den aktuella mappen där YAML-filen befinner sig, eller på undermapparna. Eftersom användargränssnittet inte kan identifiera den överordnade katalogen kan du inte ange ../.

    additional_includes kan bara peka på den aktuella mappen eller undermappen.

    För närvarande stöder användargränssnittet endast registrering av komponenter med command typ.

  2. Välj Mapp och bläddra sedan till mappen som 1b_e2e_registered_components ska laddas upp.

  3. Välj train.yml från Yaml-filnamnet.

    Skärmbild som visar uppladdning från lokal mapp.

  4. Välj Nästa och bekräfta sedan informationen om den här komponenten. När du har bekräftat väljer du Skapa för att slutföra registreringsprocessen.

  5. Upprepa föregående steg för att registrera score- och Eval-komponenten med hjälp av score.yml och eval.yml.

  6. När du har registrerat de tre komponenterna kan du se dina komponenter i studiogränssnittet.

Skärmbild som visar den registrerade komponenten på komponentsidan.

Skapa pipeline med hjälp av en registrerad komponent

  1. Skapa en ny pipeline i Designer. Välj alternativet Anpassad .

    Skärmbild som visar hur du skapar en ny pipeline på designerns startsida.

  2. Välj pennikonen för att ge pipelinen ett meningsfullt namn.

    Skärmbild som visar hur du byter namn på pipelinen.

  3. I designertillgångsbiblioteket kan du se flikarna Data, Modell och Komponenter . Välj Komponenter. Du kan se de komponenter som registrerats från föregående avsnitt. Om det finns för många komponenter kan du söka med komponentnamnet.

    Skärmbild som visar den registrerade komponenten i tillgångsbiblioteket.

    Leta upp komponenterna train, score och eval som registrerades i föregående avsnitt och dra dem sedan till arbetsytan. Som standard använder Designer standardversionen av komponenten. Om du vill ändra till en viss version dubbelklickar du på komponenten för att öppna komponentfönstret.

    Skärmbild som visar ändrad version av komponenten.

  4. I det här exemplet använder du exempeldata i datamappen. Om du vill registrera data på din arbetsyta väljer du ikonen Lägg till i tillgångsbiblioteket och följer sedan guiden för att registrera data. Datatypen måste vara uri_folder i linje med definitionen för träningskomponenten.

    Skärmbild som visar lägg till data.

  5. Dra data till arbetsytan. Din pipeline bör se ut som följande skärmbild.

    Skärmbild som visar pipelineutkastet.

  6. Anslut data och komponenter genom att dra anslutningar på arbetsytan.

    Animering som visar hur du ansluter pipelinen.

  7. Dubbelklicka på en komponent. Du ser ett högerfönster där du kan konfigurera komponenten.

    Skärmbild som visar inställningarna för komponentparametern.

    För komponenter med primitiva typindata som tal, heltal, sträng och booleskt värde kan du ändra värdena för sådana indata i den detaljerade komponentfönstret under avsnittet Indata .

    Du kan också ändra utdatainställningarna (var komponentens utdata ska lagras) och körningsinställningarna (beräkningsmålet för att köra den här komponenten) i den högra rutan.

  8. Höj upp max_epocs indata för träningskomponenten till indata på pipelinenivå. På så sätt kan du tilldela ett annat värde till den här indatan varje gång innan du skickar pipelinen.

    Skärmbild som visar hur du höjer upp komponentindata till pipelineindata.

Kommentar

Anpassade komponenter och de klassiska designkomponenterna kan inte användas tillsammans.

Skicka pipeline

  1. Om du vill skicka pipelinen väljer du Konfigurera och skicka.

    Skärmbild som visar knappen Konfigurera och skicka.

  2. Sedan visas en stegvis guide. Följ guiden för att skicka pipelinejobbet.

Skärmbild som visar överföringsguiden.

I steget Grundläggande kan du konfigurera experimentet, jobbets visningsnamn, jobbbeskrivning osv.

I steget Indata och utdata kan du konfigurera indata/utdata som höjs upp till pipelinenivå. I föregående steg höjde vi max_epocs för träningskomponenten till pipelineindata, så du bör kunna se och tilldela värde till max_epocs här.

I Körningsinställningar kan du konfigurera standarddatalager och standardberäkning av pipelinen. Det är standarddatalager/beräkning för alla komponenter i pipelinen. Observera dock att om du anger en annan beräkning eller ett annat datalager för en komponent uttryckligen respekterar systemet inställningen för komponentnivå. Annars används standardvärdet för pipelinen.

Steget Granska + skicka är det sista steget för att granska alla konfigurationer innan du skickar. Guiden kommer ihåg konfigurationen för senaste gången om du skickar pipelinen.

När du har skickat pipelinejobbet visas ett meddelande längst upp med en länk till jobbinformationen. Du kan välja den här länken för att granska jobbinformationen.

Skärmbild som visar sändningsmeddelande.

Ange identitet i pipelinejobb

När du skickar ett pipelinejobb kan du ange identiteten för att få åtkomst till data under Run settings. Standardidentiteten är AMLToken, som inte använder någon identitet. En pipeline kan också stödja UserIdentity och Managed. För UserIdentityanvänds identiteten för jobbinskickare för att komma åt indata och skriva resultatet till utdatamappen. Om du anger Managedanvänder systemet den hanterade identiteten för att komma åt indata och skriva resultatet till utdatamappen.

Skärmbild som visar hur du anger identitet i pipelinejobbet.