Data Science Virtual Machine 지원되는 데이터 플랫폼

DSVM(Data Science Virtual Machine)을 사용하면 광범위한 데이터 플랫폼에 대해 분석 리소스를 빌드할 수 있습니다. 원격 데이터 플랫폼에 대 한 인터페이스를 외에도 DSVM 신속 하 게 개발 및 프로토타입 생성에 대 한 로컬 인스턴스를 제공합니다.

DSVM은 다음과 같은 데이터 플랫폼 도구를 지원합니다.

SQL Server 개발자 에디션 (Developer Edition)

범주
이것은 무엇인가요? 로컬 관계형 데이터베이스 인스턴스
지원되는 DSVM 버전 Windows 2019, Linux(SQL Server 2019)
일반적인 사용 용도
  • 더 작은 데이터 세트로 신속한 로컬 개발
  • In-database R을 실행
샘플에 대한 링크
  • 뉴욕 시 데이터 세트의 작은 샘플이 다음 SQL 데이터베이스로 로드됩니다.
    nyctaxi
  • 다음에서 Microsoft Machine Learning 서버 및 데이터베이스 내 분석을 보여 주는 Jupyter 샘플을 찾습니다.
    ~notebooks/SQL_R_Services_End_to_End_Tutorial.ipynb
DSVM의 관련 도구
  • SQL Server Management Studio (SQL 서버 관리 스튜디오)
  • ODBC/JDBC 드라이버
  • pyodbc, RODBC

참고 사항

SQL Server Developer Edition은 개발 및 테스트 목적으로만 사용할 수 있습니다. 프로덕션 환경에서 실행하려면 라이선스 또는 SQL Server VM 중 하나가 필요합니다.

참고 사항

Machine Learning Server 독립 실행형에 대한 지원은 2021년 7월 1일에 종료되었습니다. 2021년 6월 30일에 DSVM 이미지에서 제거되었습니다. 기존 배포는 소프트웨어에 계속 액세스할 수 있지만 지원은 2021년 7월 1일 이후에 종료되었습니다.

참고 사항

SQL Server Developer Edition은 2021년 11월에 DSVM 이미지에서 제거되었습니다. 기존 배포에는 SQL Server Developer Edition이 계속 설치되어 있습니다. 새 배포에서 SQL Server Developer Edition에 액세스하려면 Docker 지원을 통해 설치하고 사용합니다. 자세한 내용은 Quickstart: Run SQL Server 컨테이너 이미지를 Docker로 실행을 참조하십시오.

Windows

설정

데이터베이스 서버가 이미 미리 구성되어 있으며 SQL Server 관련된 Windows 서비스(예: SQL Server (MSSQLSERVER))가 자동으로 실행되도록 설정됩니다. 유일한 수동 단계는 Microsoft Machine Learning Server를 사용하여 데이터베이스 내 분석을 사용하도록 설정하는 것입니다. 다음 명령을 실행하여 SSMS(SQL Server Management Studio)에서 일회성 작업으로 분석을 사용하도록 설정합니다. 컴퓨터 관리자로 로그인한 후 이 명령을 실행하고 SSMS에서 새 쿼리를 열고 master 데이터베이스를 선택합니다.

CREATE LOGIN [%COMPUTERNAME%\SQLRUserGroup] FROM WINDOWS 

(%COMPUTERNAME%을 VM 이름으로 바꿉니다.)

SQL Server Management Studio 실행하려면 프로그램 목록에서 "SQL Server Management Studio"을 검색하거나 Windows 검색을 사용하여 찾아서 실행할 수 있습니다. 자격 증명을 묻는 메시지가 표시되면 Windows 인증을 선택하고 localhost 필드에서 컴퓨터 이름 또는 사용합니다.

사용 및 실행 방법

기본 데이터베이스 인스턴스가 설치된 데이터베이스 서버는 기본적으로 자동 실행됩니다. VM의 SQL Server Management Studio 같은 도구를 사용하여 로컬로 SQL Server 데이터베이스에 액세스할 수 있습니다. 로컬 관리자 계정에는 데이터베이스에 대한 관리자 액세스 권한이 있습니다.

또한 DSVM에는 통신할 수 있는 ODBC 및 JDBC 드라이버가 함께 제공됨

  • SQL Server
  • Azure SQL 데이터베이스
  • Azure Synapse Analytics 리소스를 Python 및 Machine Learning Server를 포함한 여러 언어로 작성된 애플리케이션에서 사용할 수 있습니다.

DSVM에서 구성 및 설치 방법

SQL Server 표준 방식으로 설치됩니다. C:\Program Files\Microsoft SQL Server 에서 찾을 수 있습니다. 데이터베이스 내 Machine Learning 서버 인스턴스는 C:\Program Files\Microsoft SQL Server\MSSQL13.MSSQLSERVER\R_SERVICES 찾을 수 있습니다. DSVM에는 C:\Program Files\Microsoft\R Server\R_SERVER 설치된 별도의 독립 실행형 Machine Learning Server 인스턴스도 있습니다. 이 두 Machine Learning 서버 인스턴스는 라이브러리를 공유하지 않습니다.

Ubuntu

먼저 Ubuntu DSVM에 SQL Server Developer Edition을 설치해야 합니다. 자세한 내용은 Quickstart: SQL Server를 설치하고 Ubuntu에서 데이터베이스를 생성하기를 참조하십시오.

Apache Spark 2.x (독립 실행형)

범주
이것은 무엇인가요? 빠른 대규모 데이터 처리 및 기계 학습을 위한 시스템인, 많이 사용되는 Apache Spark 플랫폼의 독립 실행형(단일 노드 In Process) 인스턴스
지원되는 DSVM 버전 Linux
일반적인 사용 용도
  • 더 작은 데이터 세트를 사용하여 로컬에서 Spark/PySpark 애플리케이션을 빠르게 개발하고, 이후 Azure HDInsight와 같은 대규모 Spark 클러스터에 배포합니다.
  • Microsoft Machine Learning 서버 Spark 컨텍스트 테스트
  • SparkML 또는 Microsoft 오픈 소스 MMLSpark 라이브러리를 사용하여 ML 애플리케이션 빌드
샘플에 대한 링크 Jupyter 샘플:
  • ~/notebooks/SparkML/pySpark
  • ~/notebooks/MMLSpark

Microsoft Machine Learning Server (Spark 컨텍스트): /dsvm/samples/MRS/MRSSparkContextSample.R

DSVM의 관련 도구
  • PySpark, Scala
  • Jupyter (Spark/PySpark 커널)
  • Microsoft Machine Learning Server, SparkR, Sparklyr
  • Apache 드릴

사용 방법

spark-submit 또는 pyspark 명령을 실행하여 명령줄에서 Spark 작업을 제출할 수 있습니다. Spark 커널로 새 Notebook을 만들어 Jupyter Notebook을 만들 수도 있습니다.

R에서 Spark를 사용하려면 DSVM에서 사용할 수 있는 SparkR, Sparklyr 및 Microsoft Machine Learning Server와 같은 라이브러리를 사용합니다. 위 표의 샘플 링크를 참조하세요.

설정

Ubuntu Linux DSVM 버전의 Microsoft Machine Learning Server에서 Spark 컨텍스트에서 실행하기 전에 로컬 단일 노드 Hadoop HDFS 및 Yarn 인스턴스를 사용하도록 설정하는 일회성 설정 단계를 완료해야 합니다. 기본적으로 Hadoop 서비스는 설치되지만 DSVM에서 사용하지 않도록 설정됩니다. 이를 사용하도록 설정하려면 처음에 루트로 다음 명령을 실행합니다.

echo -e 'y\n' | ssh-keygen -t rsa -P '' -f ~hadoop/.ssh/id_rsa
cat ~hadoop/.ssh/id_rsa.pub >> ~hadoop/.ssh/authorized_keys
chmod 0600 ~hadoop/.ssh/authorized_keys
chown hadoop:hadoop ~hadoop/.ssh/id_rsa
chown hadoop:hadoop ~hadoop/.ssh/id_rsa.pub
chown hadoop:hadoop ~hadoop/.ssh/authorized_keys
systemctl start hadoop-namenode hadoop-datanode hadoop-yarn

Hadoop 관련 서비스가 더 이상 필요하지 않을 때 중지하려면 systemctl stop hadoop-namenode hadoop-datanode hadoop-yarn을 실행합니다.

원격 Spark 컨텍스트(DSVM의 독립 실행형 Spark 인스턴스)에서 MRS를 개발하고 테스트하는 방법을 보여 주는 샘플은 /dsvm/samples/MRS 디렉터리에서 사용할 수 있습니다.

DSVM에서 구성 및 설치 방법

플랫폼 설치 위치($SPARK_HOME)
Linux /dsvm/tools/spark-X.X.X-bin-hadoopX.X

Microsoft MMLSpark 기계 학습 라이브러리를 사용하여 Azure Blob Storage 또는 Azure Data Lake Storage 데이터에 액세스하는 라이브러리는 $SPARK_HOME/jars에 미리 설치됩니다. 이러한 JAR은 Spark가 시작될 때 자동으로 로드됩니다. 기본적으로 Spark는 로컬 디스크에 있는 데이터를 사용합니다.

DSVM의 Spark 인스턴스는 Blob Storage 또는 Azure Data Lake Storage 저장된 데이터에 액세스할 수 있습니다. 먼저 $SPARK_HOME/conf/core-site.xml.template에 있는 템플릿을 기반으로 core-site.xml 파일을 만들고 구성해야 합니다. Blob Storage 및 Azure Data Lake Storage 액세스하려면 적절한 자격 증명도 있어야 합니다. 템플릿 파일은 Blob Storage 및 Azure Data Lake Storage 구성에 자리 표시자를 사용합니다.

Azure Data Lake Storage 서비스 자격 증명을 만드는 방법에 대한 자세한 내용은 Azure Data Lake Storage Gen1을 참조하세요. core-site.xml 파일에 Blob Storage 또는 Azure Data Lake Storage 대한 자격 증명을 입력한 후 wasb:// 또는 adl:// URI 접두사를 통해 해당 원본에 저장된 데이터를 참조할 수 있습니다.