Partager via


Transformer les données en exécutant un notebook

Utilisez l’activité Notebook pour exécuter les notebooks que vous créez dans Microsoft Fabric dans le cadre de vos pipelines de Data Factory. Les blocs-notes vous permettent d’exécuter des travaux Apache Spark pour les intégrer, nettoyer ou transformer vos données dans le cadre de vos flux de travail de données. Il est facile d’ajouter une activité Notebook à vos pipelines dans Fabric, et ce guide vous guide tout au long de chaque étape.

Prérequis

Pour commencer, vous devez remplir les conditions préalables suivantes :

Créer une activité de cahier

  1. Créez un nouveau pipeline dans votre espace de travail.

  2. Recherchez Notebook dans le volet Activités du pipeline et sélectionnez-le pour l'ajouter au canevas du pipeline.

    Screenshot de l’interface utilisateur Fabric avec le volet Activités et l’activité Notebook en surbrillance.

  3. Sélectionnez la nouvelle activité Notebook sur le canevas si elle n'est pas déjà sélectionnée.

    Capture d'écran montrant l'onglet Paramètres généraux de l'activité Notebook.

    Reportez-vous aux instructions relatives aux paramètres Général pour configurer l’onglet Paramètres Général .

Configurer les paramètres du bloc-notes

Sélectionnez l’onglet Paramètres.

Sous Connexion, sélectionnez la méthode d’authentification pour l’exécution du notebook et fournissez les informations d’identification requises.

Sélectionnez un bloc-notes existant dans la liste déroulante Notebook , puis spécifiez éventuellement les paramètres à passer au bloc-notes.

Capture d'écran montrant l'onglet Paramètres du notebook mettant en évidence l'onglet, où choisir un notebook et où ajouter des paramètres.

Utilisation de Fabric Workspace Identity (WI) dans l'activité de bloc-notes

  1. Créer l’identité de l’espace de travail

    Vous devez activer WI dans votre espace de travail (cela peut prendre un moment de chargement). Créez une identité d’espace de travail dans votre espace de travail Fabric. Notez que le WI doit être créé dans le même espace de travail que votre Pipeline.

    Consultez la documentation sur l’identité de l’espace de travail.

  2. Activer les paramètres au niveau du locataire

    Activez le paramètre de locataire suivant (il est désactivé par défaut): Les principaux de service peuvent appeler les API publiques de Fabric.

    Vous pouvez activer ce paramètre dans le portail d’administration Fabric. Pour plus d’informations sur ce paramètre, consultez l’article Activer l’authentification du principal de service pour les API d’administration.

  3. Accorder des autorisations d’espace de travail à l’identité de l’espace de travail

    Ouvrez l’espace de travail, sélectionnez Gérer l’accès et attribuez des autorisations à l’identité de l’espace de travail. L’accès contributeur est suffisant pour la plupart des scénarios. Si votre bloc-notes n’est pas dans le même espace de travail que votre pipeline, vous devez attribuer au WI que vous avez créé dans l’espace de travail de votre pipeline, au moins l’accès Contributeur à l’espace de travail de votre bloc-notes.

    Consultez la documentation sur Donner aux utilisateurs l’accès aux espaces de travail.

Définir la balise de session

Pour réduire le temps nécessaire à l’exécution de votre travail de bloc-notes, vous pourriez éventuellement définir une balise de session. La définition de la balise de session indique à Spark de réutiliser n’importe quelle session Spark existante, ce qui réduit le temps de démarrage. Toute valeur de chaîne arbitraire peut être utilisée pour la balise de session. Si aucune session n’existe, une nouvelle session est créée à l’aide de la valeur de balise.

Capture d’écran montrant l’onglet Paramètres du bloc-notes mettant en surbrillance l’onglet où il convient d’ajouter une balise de session.

Remarque

Pour pouvoir utiliser la balise de session, le mode haute concurrence pour le pipeline exécutant plusieurs blocs-notes doit être activé. Cette option se trouve sous le mode haute concurrence pour les paramètres Spark dans les paramètres de l’espace de travail

Capture d’écran montrant l’onglet Paramètres de l’espace de travail mettant en évidence où activer le mode de haute concurrence pour les pipelines exécutant plusieurs notebooks.

Enregistrer le pipeline, puis l'exécuter ou le planifier

Basculez vers l’onglet Accueil en haut de l’éditeur de pipeline et sélectionnez le bouton Enregistrer pour enregistrer votre pipeline. Sélectionnez Exécuter pour l’exécuter directement ou planifier des exécutions à des moments ou intervalles spécifiques. Pour plus d’informations sur les exécutions de pipeline, consultez : planifier des exécutions de pipeline.

Capture d'écran montrant l'onglet Accueil dans l'éditeur de pipeline avec le nom de l'onglet, les boutons Enregistrer, Exécuter et Planifier en surbrillance.

Après l’exécution, vous pouvez surveiller l’exécution du pipeline et afficher l’historique des exécutions à partir de l’onglet Sortie sous le canevas.

Problèmes connus