Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Avec une Data Science Virtual Machine (DSVM), vous pouvez créer vos ressources d’analyse sur un large éventail de plateformes de données. En plus des interfaces sur les plateformes de données distantes, la machine virtuelle DSVM fournit une instance locale pour le développement et le prototypage rapides.
DSVM prend en charge les outils de plateforme de données suivants :
SQL Server Developer Edition
| Category | Valeur |
|---|---|
| Qu’est-ce que c’est ? | Une instance de base de données relationnelle locale |
| Éditions DSVM prises en charge | Windows 2019, Linux (SQL Server 2019) |
| Utilisations classiques |
|
| Liens vers des exemples |
|
| Outils connexes sur la machine virtuelle DSVM |
|
Remarque
SQL Server Developer Edition ne peut être utilisé qu’à des fins de développement et de test. Vous avez besoin d’une licence ou de l’une des machines virtuelles SQL Server pour l’exécuter en production.
Remarque
La prise en charge de Machine Learning Server Standalone a pris fin le 1er juillet 2021. Elle a été supprimée des images DSVM le 30 juin 2021. Les déploiements existants continuent d’avoir accès au logiciel, mais la prise en charge a pris fin après le 1er juillet 2021.
Remarque
SQL Server Developer Edition a été supprimée des images DSVM en novembre 2021. Les déploiements existants continuent à avoir SQL Server Developer Edition installé. Dans les nouveaux déploiements, installez et utilisez SQL Server Developer Edition grâce au support Docker. Visitez Quickstart : Exécutez des images conteneur SQL Server avec Docker pour plus d’informations.
Windows
Programme d’installation
Le serveur de base de données est déjà préconfiguré et les services Windows liés à SQL Server (par exemple, SQL Server (MSSQLSERVER)) sont configurés pour s’exécuter automatiquement. La seule étape manuelle consiste à activer l’analytique dans la base de données via l’utilisation de Microsoft Machine Learning Server. Exécutez la commande suivante pour activer l’analytique en tant qu’action unique dans SQL Server Management Studio (SSMS). Exécutez cette commande après vous être connecté en tant qu’administrateur de la machine, avoir ouvert une nouvelle requête dans SSMS et sélectionné la base de données master :
CREATE LOGIN [%COMPUTERNAME%\SQLRUserGroup] FROM WINDOWS
(Remplacez %COMPUTERNAME% par le nom de votre machine virtuelle.)
Pour exécuter SQL Server Management Studio, vous pouvez rechercher « SQL Server Management Studio » dans la liste des programmes ou utiliser Windows Recherche pour rechercher et l’exécuter. Lorsque vous y êtes invité, sélectionnez Windows Authentification et utilisez le nom de l’ordinateur ou localhost dans le champ SQL Server Nom.
Comment l’utiliser et l’exécuter ?
Par défaut, le serveur de base de données avec l’instance de base de données par défaut s’exécute automatiquement. Vous pouvez utiliser des outils comme SQL Server Management Studio sur la machine virtuelle pour accéder à la base de données SQL Server localement. Les comptes administrateurs locaux ont un accès administrateur à la base de données.
En outre, DSVM est fourni avec des pilotes ODBC et JDBC pour la communication
- SQL Server
- bases de données Azure SQL
- Azure Synapse Analytics ressources provenant d’applications écrites dans plusieurs langues, notamment Python et Machine Learning Server.
Comment est-il configuré et installé sur la machine virtuelle DSVM ?
SQL Server est installé de la manière standard. Vous pouvez le trouver à C:\Program Files\Microsoft SQL Server. Vous trouverez l’instance in-database Machine Learning Server sur C:\Program Files\Microsoft SQL Server\MSSQL13.MSSQLSERVER\R_SERVICES. La machine virtuelle DSVM dispose également d’une instance autonome distincte Machine Learning Server, installée sur C:\Program Files\Microsoft\R Server\R_SERVER. Ces deux instances de serveur Machine Learning ne partagent pas de bibliothèques.
Ubuntu
Vous devez d’abord installer SQL Server Developer Edition sur une machine virtuelle Ubuntu DSVM avant de l’utiliser. Visitez Quickstart : Installez SQL Server et créez une base de données sur Ubuntu pour plus d’informations.
Apache Spark 2.x (autonome)
| Category | Valeur |
|---|---|
| Qu’est-ce que c’est ? | Une instance (nœud unique In-process) autonome de la plateforme populaire Apache Spark, un système pour le traitement des données et l’apprentissage automatique rapides et à grande échelle |
| Éditions DSVM prises en charge | Linux |
| Utilisations classiques |
|
| Liens vers des exemples | Exemple Jupyter :
Microsoft Machine Learning Server (contexte Spark) : /dsvm/samples/MRS/MRSSparkContextSample.R |
| Outils connexes sur la machine virtuelle DSVM |
|
Comment l’utiliser ?
Vous pouvez exécuter la commande spark-submit ou pyspark pour envoyer des travaux Spark sur la ligne de commande. Vous pouvez également créer un nouveau notebook Jupyter en utilisant le noyau Spark.
Pour utiliser Spark à partir de R, vous utilisez des bibliothèques telles que SparkR, Sparklyr et Microsoft Machine Learning Server, qui sont disponibles sur la machine virtuelle DSVM. Voir les liens vers les exemples dans le tableau précédent.
Programme d’installation
Avant d’exécuter dans un contexte Spark dans Microsoft Machine Learning Server sur l’édition DSVM Ubuntu Linux, vous devez effectuer une étape d’installation unique pour activer une instance Hadoop HDFS et Yarn à nœud unique local. Par défaut, les services Hadoop sont installés mais désactivés sur la DSVM. Pour les activer, exécutez ces commandes en tant que racine la première fois :
echo -e 'y\n' | ssh-keygen -t rsa -P '' -f ~hadoop/.ssh/id_rsa
cat ~hadoop/.ssh/id_rsa.pub >> ~hadoop/.ssh/authorized_keys
chmod 0600 ~hadoop/.ssh/authorized_keys
chown hadoop:hadoop ~hadoop/.ssh/id_rsa
chown hadoop:hadoop ~hadoop/.ssh/id_rsa.pub
chown hadoop:hadoop ~hadoop/.ssh/authorized_keys
systemctl start hadoop-namenode hadoop-datanode hadoop-yarn
Pour arrêter les services liés à Hadoop lorsque vous n’en avez plus besoin, exécutez systemctl stop hadoop-namenode hadoop-datanode hadoop-yarn.
Un exemple montrant comment développer et tester MRS dans un contexte Spark distant (l’instance Spark autonome sur DSVM) est fourni et disponible dans le répertoire /dsvm/samples/MRS.
Comment est-il configuré et installé sur la machine virtuelle DSVM ?
| Plateforme | Emplacement d’installation ($SPARK_HOME) |
|---|---|
| Linux | /dsvm/tools/spark-X.X.X-bin-hadoopX.X |
Les bibliothèques pour accéder aux données depuis Azure Blob Storage ou Azure Data Lake Storage, à l’aide des bibliothèques Microsoft MMLSpark d’apprentissage automatique, sont préinstallées dans $SPARK_HOME/jars. Ces fichiers JAR sont automatiquement chargés au lancement de Spark. Par défaut, Spark utilise des données situées sur le disque local.
L’instance Spark sur la machine virtuelle DSVM peut accéder aux données stockées dans le stockage Blob ou Azure Data Lake Storage. Vous devez d’abord créer et configurer le fichier core-site.xml en fonction du modèle situé dans $SPARK_HOME/conf/core-site.xml.template. Vous devez également disposer des informations d’identification appropriées pour accéder au stockage Blob et au Azure Data Lake Storage. Les fichiers de modèle utilisent des espaces réservés pour les configurations du Stockage Blob et d’Azure Data Lake Storage.
Pour plus d’informations sur la création d’informations d’identification de service Azure Data Lake Storage, visitez Authentication avec Azure Data Lake Storage Gen1. Après avoir entré les informations d’identification pour le stockage Blob ou Azure Data Lake Storage dans le fichier core-site.xml, vous pouvez référencer les données stockées dans ces sources via le préfixe d’URI de wasb:// ou de adl://.