Plateformes de données prises en charge sur le Data Science Virtual Machine

Avec une Data Science Virtual Machine (DSVM), vous pouvez créer vos ressources d’analyse sur un large éventail de plateformes de données. En plus des interfaces sur les plateformes de données distantes, la machine virtuelle DSVM fournit une instance locale pour le développement et le prototypage rapides.

DSVM prend en charge les outils de plateforme de données suivants :

SQL Server Developer Edition

Category	Valeur
Qu’est-ce que c’est ?	Une instance de base de données relationnelle locale
Éditions DSVM prises en charge	Windows 2019, Linux (SQL Server 2019)
Utilisations classiques	Développement local rapide avec un jeu de données plus petit Exécution de R en base de données
Liens vers des exemples	Un petit échantillon du jeu de données New York City est chargé dans la base de données SQL : `nyctaxi` Recherchez un exemple Jupyter qui montre Microsoft Machine Learning Server et l’analytique dans la base de données à l’adresse suivante : `~notebooks/SQL_R_Services_End_to_End_Tutorial.ipynb`
Outils connexes sur la machine virtuelle DSVM	SQL Server Management Studio Pilotes ODBC/JDBC pyodbc, RODBC

Remarque

SQL Server Developer Edition ne peut être utilisé qu’à des fins de développement et de test. Vous avez besoin d’une licence ou de l’une des machines virtuelles SQL Server pour l’exécuter en production.

Remarque

La prise en charge de Machine Learning Server Standalone a pris fin le 1er juillet 2021. Elle a été supprimée des images DSVM le 30 juin 2021. Les déploiements existants continuent d’avoir accès au logiciel, mais la prise en charge a pris fin après le 1er juillet 2021.

Remarque

SQL Server Developer Edition a été supprimée des images DSVM en novembre 2021. Les déploiements existants continuent à avoir SQL Server Developer Edition installé. Dans les nouveaux déploiements, installez et utilisez SQL Server Developer Edition grâce au support Docker. Visitez Quickstart : Exécutez des images conteneur SQL Server avec Docker pour plus d’informations.

Windows

Programme d’installation

Le serveur de base de données est déjà préconfiguré et les services Windows liés à SQL Server (par exemple, SQL Server (MSSQLSERVER)) sont configurés pour s’exécuter automatiquement. La seule étape manuelle consiste à activer l’analytique dans la base de données via l’utilisation de Microsoft Machine Learning Server. Exécutez la commande suivante pour activer l’analytique en tant qu’action unique dans SQL Server Management Studio (SSMS). Exécutez cette commande après vous être connecté en tant qu’administrateur de la machine, avoir ouvert une nouvelle requête dans SSMS et sélectionné la base de données master :

CREATE LOGIN [%COMPUTERNAME%\SQLRUserGroup] FROM WINDOWS

(Remplacez %COMPUTERNAME% par le nom de votre machine virtuelle.)

Pour exécuter SQL Server Management Studio, vous pouvez rechercher « SQL Server Management Studio » dans la liste des programmes ou utiliser Windows Recherche pour rechercher et l’exécuter. Lorsque vous y êtes invité, sélectionnez Windows Authentification et utilisez le nom de l’ordinateur ou localhost dans le champ SQL Server Nom.

Comment l’utiliser et l’exécuter ?

Par défaut, le serveur de base de données avec l’instance de base de données par défaut s’exécute automatiquement. Vous pouvez utiliser des outils comme SQL Server Management Studio sur la machine virtuelle pour accéder à la base de données SQL Server localement. Les comptes administrateurs locaux ont un accès administrateur à la base de données.

En outre, DSVM est fourni avec des pilotes ODBC et JDBC pour la communication

SQL Server
bases de données Azure SQL
Azure Synapse Analytics ressources provenant d’applications écrites dans plusieurs langues, notamment Python et Machine Learning Server.

Comment est-il configuré et installé sur la machine virtuelle DSVM ?

SQL Server est installé de la manière standard. Vous pouvez le trouver à C:\Program Files\Microsoft SQL Server. Vous trouverez l’instance in-database Machine Learning Server sur C:\Program Files\Microsoft SQL Server\MSSQL13.MSSQLSERVER\R_SERVICES. La machine virtuelle DSVM dispose également d’une instance autonome distincte Machine Learning Server, installée sur C:\Program Files\Microsoft\R Server\R_SERVER. Ces deux instances de serveur Machine Learning ne partagent pas de bibliothèques.

Ubuntu

Vous devez d’abord installer SQL Server Developer Edition sur une machine virtuelle Ubuntu DSVM avant de l’utiliser. Visitez Quickstart : Installez SQL Server et créez une base de données sur Ubuntu pour plus d’informations.

Apache Spark 2.x (autonome)

Category	Valeur
Qu’est-ce que c’est ?	Une instance (nœud unique In-process) autonome de la plateforme populaire Apache Spark, un système pour le traitement des données et l’apprentissage automatique rapides et à grande échelle
Éditions DSVM prises en charge	Linux
Utilisations classiques	Développement rapide d’applications Spark/PySpark localement avec un jeu de données plus petit et un déploiement ultérieur sur de grands clusters Spark tels que Azure HDInsight Tester le contexte Spark du serveur Microsoft Machine Learning Utiliser SparkML ou la bibliothèque Microsoft open source MMLSpark pour générer des applications ML
Liens vers des exemples	Exemple Jupyter : ~/notebooks/SparkML/pySpark ~/notebooks/MMLSpark Microsoft Machine Learning Server (contexte Spark) : /dsvm/samples/MRS/MRSSparkContextSample.R
Outils connexes sur la machine virtuelle DSVM	PySpark, Scala Jupyter (noyaux Spark/PySpark) Microsoft Machine Learning Server, SparkR, Sparklyr Apache Drill

Comment l’utiliser ?

Vous pouvez exécuter la commande spark-submit ou pyspark pour envoyer des travaux Spark sur la ligne de commande. Vous pouvez également créer un nouveau notebook Jupyter en utilisant le noyau Spark.

Pour utiliser Spark à partir de R, vous utilisez des bibliothèques telles que SparkR, Sparklyr et Microsoft Machine Learning Server, qui sont disponibles sur la machine virtuelle DSVM. Voir les liens vers les exemples dans le tableau précédent.

Programme d’installation

Avant d’exécuter dans un contexte Spark dans Microsoft Machine Learning Server sur l’édition DSVM Ubuntu Linux, vous devez effectuer une étape d’installation unique pour activer une instance Hadoop HDFS et Yarn à nœud unique local. Par défaut, les services Hadoop sont installés mais désactivés sur la DSVM. Pour les activer, exécutez ces commandes en tant que racine la première fois :

echo -e 'y\n' | ssh-keygen -t rsa -P '' -f ~hadoop/.ssh/id_rsa
cat ~hadoop/.ssh/id_rsa.pub >> ~hadoop/.ssh/authorized_keys
chmod 0600 ~hadoop/.ssh/authorized_keys
chown hadoop:hadoop ~hadoop/.ssh/id_rsa
chown hadoop:hadoop ~hadoop/.ssh/id_rsa.pub
chown hadoop:hadoop ~hadoop/.ssh/authorized_keys
systemctl start hadoop-namenode hadoop-datanode hadoop-yarn

Pour arrêter les services liés à Hadoop lorsque vous n’en avez plus besoin, exécutez systemctl stop hadoop-namenode hadoop-datanode hadoop-yarn.

Un exemple montrant comment développer et tester MRS dans un contexte Spark distant (l’instance Spark autonome sur DSVM) est fourni et disponible dans le répertoire /dsvm/samples/MRS.

Comment est-il configuré et installé sur la machine virtuelle DSVM ?

Plateforme	Emplacement d’installation ($SPARK_HOME)
Linux	/dsvm/tools/spark-X.X.X-bin-hadoopX.X

Les bibliothèques pour accéder aux données depuis Azure Blob Storage ou Azure Data Lake Storage, à l’aide des bibliothèques Microsoft MMLSpark d’apprentissage automatique, sont préinstallées dans $SPARK_HOME/jars. Ces fichiers JAR sont automatiquement chargés au lancement de Spark. Par défaut, Spark utilise des données situées sur le disque local.

L’instance Spark sur la machine virtuelle DSVM peut accéder aux données stockées dans le stockage Blob ou Azure Data Lake Storage. Vous devez d’abord créer et configurer le fichier core-site.xml en fonction du modèle situé dans $SPARK_HOME/conf/core-site.xml.template. Vous devez également disposer des informations d’identification appropriées pour accéder au stockage Blob et au Azure Data Lake Storage. Les fichiers de modèle utilisent des espaces réservés pour les configurations du Stockage Blob et d’Azure Data Lake Storage.

Pour plus d’informations sur la création d’informations d’identification de service Azure Data Lake Storage, visitez Authentication avec Azure Data Lake Storage Gen1. Après avoir entré les informations d’identification pour le stockage Blob ou Azure Data Lake Storage dans le fichier core-site.xml, vous pouvez référencer les données stockées dans ces sources via le préfixe d’URI de wasb:// ou de adl://.

Commentaires

Cette page a-t-elle été utile ?

Last updated on 2026-04-10

Plateformes de données prises en charge sur le Data Science Virtual Machine

SQL Server Developer Edition

Windows

Programme d’installation

Comment l’utiliser et l’exécuter ?

Comment est-il configuré et installé sur la machine virtuelle DSVM ?

Ubuntu

Apache Spark 2.x (autonome)

Comment l’utiliser ?

Programme d’installation

Comment est-il configuré et installé sur la machine virtuelle DSVM ?

Commentaires

Ressources supplémentaires