Creación y ejecución de canalizaciones de aprendizaje automático mediante componentes de Azure Machine Learning Studio

SE APLICA A:Extensión de ML de la CLI de Azure v2 (actual)

En este artículo, aprenderá a crear y ejecutar canalizaciones de aprendizaje automático mediante Studio de Azure Machine Learning y sus componentes. Puede crear canalizaciones sin usar componentes, pero los componentes ofrecen una mejor flexibilidad y reutilización. Las canalizaciones de Azure Machine Learning se pueden definir en YAML y ejecutarse desde la CLI de Azure, creadas en Python o compuestas en azure Machine Learning Studio Designer con una interfaz de usuario de arrastrar y colocar. Este artículo se centra en la interfaz de usuario del Diseñador de Azure Machine Learning Studio.

Requisitos previos

Si no tiene una suscripción de Azure, cree una cuenta gratuita antes de empezar. Pruebe la versión gratuita o de pago de Azure Machine Learning.
Un área de trabajo de Azure Machine Learning. Creación de recursos para el área de trabajo.
Instalación y configuración de la extensión de la CLI de Azure para Machine Learning.

Clone el repositorio de ejemplos:

git clone https://github.com/Azure/azureml-examples --depth 1
cd azureml-examples/cli/jobs/pipelines-with-components/

Nota:

El diseñador admite dos tipos de componentes, componentes precompilados clásicos (v1) y componentes personalizados (v2). Estos dos tipos de componentes NO son compatibles.

Los componentes precompilados clásicos proporcionan componentes precompilados principalmente para el procesamiento de datos y las tareas tradicionales de aprendizaje automático, como la regresión y la clasificación. Los componentes precompilados clásicos siguen siendo compatibles, pero no tendrán ningún componente nuevo agregado. Además, la implementación de componentes precompilados clásicos (v1) no admite puntos de conexión en línea administrados (v2).

Los componentes personalizados le permiten ajustar su propio código como componente. Admite el uso compartido de componentes entre áreas de trabajo y la creación fluida entre las interfaces de Estudio, CLI v2 y SDK v2.

En el caso de los nuevos proyectos, se recomienda encarecidamente usar componentes personalizados, que son compatibles con Azure Machine Learning V2 y reciben nuevas actualizaciones.

Este artículo se aplica a componentes personalizados.

Registro de un componente en el área de trabajo

Para crear una canalización utilizando componentes en la interfaz de usuario del diseñador, primero debe registrar los componentes en su espacio de trabajo. Puede usar la interfaz de usuario, la CLI de Azure o el SDK para registrar componentes en el área de trabajo, de modo que pueda compartir y reutilizar el componente en el área de trabajo. Los componentes registrados admiten el control de versiones automático para que pueda actualizar el componente, pero asegúrese de que las canalizaciones que requieren una versión anterior siguen funcionando.

En el ejemplo siguiente se usa la interfaz de usuario para registrar componentes. Los archivos de origen del componente se encuentran en el cli/jobs/pipelines-with-components/basics/1b_e2e_registered_components directorio del azureml-examples repositorio. Debe clonar el repositorio.

En el área de trabajo de Azure Machine Learning, vaya a la página Componentes y seleccione Nuevo componente. La apariencia de la página Componentes difiere en función de si ha creado componentes anteriormente.

En este ejemplo se usa train.ymlen el directorio 1b_e2e_registered_components. El archivo YAML define el nombre, el tipo, la interfaz, incluidas las entradas y salidas, el código, el entorno y el comando de este componente. El código de este componente (train.py) está en ./train_src la carpeta . Este código describe la lógica de ejecución de este componente. Para obtener más información sobre el esquema de componentes, consulte la referencia del esquema YAML del componente de comandos.

Nota:

Para registrar componentes en la interfaz de usuario, code definidos en el archivo YAML del componente solo puede apuntar a la carpeta actual donde se encuentra el archivo YAML o las subcarpetas. Dado que la interfaz de usuario no puede reconocer el directorio primario, no se puede especificar ../.

additional_includes solo puede apuntar a la carpeta o subcarpeta actual.

Actualmente, la interfaz de usuario solo admite el registro de componentes con command tipo.
Seleccione Carpeta y, a continuación, vaya a la 1b_e2e_registered_components carpeta que se va a cargar.
Seleccione train.yml en el nombre del archivo Yaml.
Seleccione Siguiente y confirme los detalles de este componente. Después de confirmarlo, seleccione Crear para finalizar el proceso de registro.
Repita los pasos anteriores para registrar el componente Score y Eval mediante score.yml y eval.yml.
Después de registrar correctamente los tres componentes, puede ver los componentes en la interfaz de usuario de Studio.

Creación de una canalización mediante el componente registrado

Cree una nueva canalización en el Diseñador. Seleccione la opción Personalizado .
Seleccione el icono de lápiz para asignar un nombre descriptivo a la canalización.
En la biblioteca de recursos del Diseñador, puede ver las pestañas Datos, Modelo y Componentes . Seleccione Componentes. Puede ver los componentes registrados en la sección anterior. Si hay demasiados componentes, puede buscar con el nombre del componente.

Busque los componentes train, score y eval registrados en la sección anterior y arrástrelos al lienzo. De forma predeterminada, Designer usa la versión predeterminada del componente. Para cambiar a una versión específica, haga doble clic en el componente para abrir el panel de componentes.
En este ejemplo, use los datos de ejemplo en la carpeta de datos. Para registrar los datos en el área de trabajo, seleccione el icono agregar en la biblioteca de recursos y, a continuación, siga el asistente para registrar los datos. El tipo de datos debe alinearse uri_folder con la definición del componente de entrenamiento.
Arrastre los datos al lienzo. La canalización debe ser similar a la siguiente captura de pantalla.
Conecte los datos y los componentes arrastrando conexiones en el lienzo.
Haga doble clic en un componente (verá un panel derecho donde lo puede configurar).

En el caso de los componentes con entradas de tipo primitivo como "number", "integer", "string" y "boolean", puede cambiar los valores de estas entradas en el panel detallado del componente, en la sección Entradas.

También puede cambiar la configuración de salida (dónde almacenar la salida del componente) y la configuración de ejecución (destino de proceso para ejecutar este componente) en el panel derecho.
Promueva la entrada max_epocs del componente train a nivel de entrada de la canalización. Al hacerlo, puede asignar un valor diferente a esta entrada cada vez antes de enviar la canalización.

Nota:

Los componentes personalizados y los componentes precompilados clásicos del Diseñador no se pueden usar juntos.

Envío de la canalización

Para enviar la canalización, seleccione Configurar y enviar.
A continuación, verá un asistente paso a paso. Siga el asistente para enviar el trabajo de canalización.

En el paso Aspectos básicos, puede configurar el experimento, el nombre para mostrar el trabajo, la descripción del trabajo, etc.

En el paso Entradas& salidas, puede configurar las entradas o salidas que se promueven al nivel de canalización. En el paso anterior, promocionamos la max_epocs del componente de entrenamiento a la entrada de canalización, por lo que debería poder ver y asignar valor a max_epocs aquí.

En Configuración del entorno de ejecución, puede configurar el almacén de datos predeterminado y el proceso predeterminado en la canalización. Es el almacén de datos o proceso predeterminado de todos los componentes de la canalización. Tenga en cuenta que si establece un proceso o almacén de datos diferente para un componente explícitamente, el sistema respeta la configuración de nivel de componente. De lo contrario, usa el valor predeterminado de la canalización.

El paso Revisar y enviar es el último paso para revisar toda las opciones de configuración antes de enviar. El asistente recuerda la configuración de la última vez si alguna vez envía la canalización.

Después de enviar el trabajo de canalización, habrá un mensaje en la parte superior con un vínculo al detalle del trabajo. Puede seleccionar este vínculo para revisar los detalles del trabajo.

Especificación de la identidad en el trabajo de canalización

Al enviar un trabajo de canalización, puede especificar la identidad para acceder a los datos en Run settings. La identidad predeterminada es AMLToken, que no usa ninguna identidad. Una canalización también puede admitir UserIdentity y Managed. Para UserIdentity, se usa la identidad del remitente del trabajo para acceder a los datos de entrada y escribir el resultado en la carpeta de salida. Si especifica Managed, el sistema usa la identidad administrada para acceder a los datos de entrada y escribir el resultado en la carpeta de salida.

Use estos cuadernos de Jupyter en GitHub para explorar aún más canalizaciones de Machine Learning.
Aprenda cómo se usa la CLI v2 para crear canalizaciones mediante componentes.
Aprenda a usar SDK v2 para crear canalizaciones mediante componentes.

Comentarios

¿Le ha resultado útil esta página?

Last updated on 2026-01-27