DSVM(Data Science Virtual Machine)을 사용하면 광범위한 데이터 플랫폼에 대해 분석 리소스를 빌드할 수 있습니다. 원격 데이터 플랫폼에 대 한 인터페이스를 외에도 DSVM 신속 하 게 개발 및 프로토타입 생성에 대 한 로컬 인스턴스를 제공합니다.
DSVM은 다음과 같은 데이터 플랫폼 도구를 지원합니다.
SQL Server 개발자 에디션 (Developer Edition)
| 범주 | 값 |
|---|---|
| 이것은 무엇인가요? | 로컬 관계형 데이터베이스 인스턴스 |
| 지원되는 DSVM 버전 | Windows 2019, Linux(SQL Server 2019) |
| 일반적인 사용 용도 |
|
| 샘플에 대한 링크 |
|
| DSVM의 관련 도구 |
|
참고 사항
SQL Server Developer Edition은 개발 및 테스트 목적으로만 사용할 수 있습니다. 프로덕션 환경에서 실행하려면 라이선스 또는 SQL Server VM 중 하나가 필요합니다.
참고 사항
Machine Learning Server 독립 실행형에 대한 지원은 2021년 7월 1일에 종료되었습니다. 2021년 6월 30일에 DSVM 이미지에서 제거되었습니다. 기존 배포는 소프트웨어에 계속 액세스할 수 있지만 지원은 2021년 7월 1일 이후에 종료되었습니다.
참고 사항
SQL Server Developer Edition은 2021년 11월에 DSVM 이미지에서 제거되었습니다. 기존 배포에는 SQL Server Developer Edition이 계속 설치되어 있습니다. 새 배포에서 SQL Server Developer Edition에 액세스하려면 Docker 지원을 통해 설치하고 사용합니다. 자세한 내용은 Quickstart: Run SQL Server 컨테이너 이미지를 Docker로 실행을 참조하십시오.
Windows
설정
데이터베이스 서버가 이미 미리 구성되어 있으며 SQL Server 관련된 Windows 서비스(예: SQL Server (MSSQLSERVER))가 자동으로 실행되도록 설정됩니다. 유일한 수동 단계는 Microsoft Machine Learning Server를 사용하여 데이터베이스 내 분석을 사용하도록 설정하는 것입니다. 다음 명령을 실행하여 SSMS(SQL Server Management Studio)에서 일회성 작업으로 분석을 사용하도록 설정합니다. 컴퓨터 관리자로 로그인한 후 이 명령을 실행하고 SSMS에서 새 쿼리를 열고 master 데이터베이스를 선택합니다.
CREATE LOGIN [%COMPUTERNAME%\SQLRUserGroup] FROM WINDOWS
(%COMPUTERNAME%을 VM 이름으로 바꿉니다.)
SQL Server Management Studio 실행하려면 프로그램 목록에서 "SQL Server Management Studio"을 검색하거나 Windows 검색을 사용하여 찾아서 실행할 수 있습니다. 자격 증명을 묻는 메시지가 표시되면 Windows 인증을 선택하고 localhost 필드에서 컴퓨터 이름 또는 사용합니다.
사용 및 실행 방법
기본 데이터베이스 인스턴스가 설치된 데이터베이스 서버는 기본적으로 자동 실행됩니다. VM의 SQL Server Management Studio 같은 도구를 사용하여 로컬로 SQL Server 데이터베이스에 액세스할 수 있습니다. 로컬 관리자 계정에는 데이터베이스에 대한 관리자 액세스 권한이 있습니다.
또한 DSVM에는 통신할 수 있는 ODBC 및 JDBC 드라이버가 함께 제공됨
- SQL Server
- Azure SQL 데이터베이스
- Azure Synapse Analytics 리소스를 Python 및 Machine Learning Server를 포함한 여러 언어로 작성된 애플리케이션에서 사용할 수 있습니다.
DSVM에서 구성 및 설치 방법
SQL Server 표준 방식으로 설치됩니다.
C:\Program Files\Microsoft SQL Server 에서 찾을 수 있습니다. 데이터베이스 내 Machine Learning 서버 인스턴스는 C:\Program Files\Microsoft SQL Server\MSSQL13.MSSQLSERVER\R_SERVICES 찾을 수 있습니다. DSVM에는 C:\Program Files\Microsoft\R Server\R_SERVER 설치된 별도의 독립 실행형 Machine Learning Server 인스턴스도 있습니다. 이 두 Machine Learning 서버 인스턴스는 라이브러리를 공유하지 않습니다.
Ubuntu
먼저 Ubuntu DSVM에 SQL Server Developer Edition을 설치해야 합니다. 자세한 내용은 Quickstart: SQL Server를 설치하고 Ubuntu에서 데이터베이스를 생성하기를 참조하십시오.
Apache Spark 2.x (독립 실행형)
| 범주 | 값 |
|---|---|
| 이것은 무엇인가요? | 빠른 대규모 데이터 처리 및 기계 학습을 위한 시스템인, 많이 사용되는 Apache Spark 플랫폼의 독립 실행형(단일 노드 In Process) 인스턴스 |
| 지원되는 DSVM 버전 | Linux |
| 일반적인 사용 용도 |
|
| 샘플에 대한 링크 | Jupyter 샘플:
Microsoft Machine Learning Server (Spark 컨텍스트): /dsvm/samples/MRS/MRSSparkContextSample.R |
| DSVM의 관련 도구 |
|
사용 방법
spark-submit 또는 pyspark 명령을 실행하여 명령줄에서 Spark 작업을 제출할 수 있습니다. Spark 커널로 새 Notebook을 만들어 Jupyter Notebook을 만들 수도 있습니다.
R에서 Spark를 사용하려면 DSVM에서 사용할 수 있는 SparkR, Sparklyr 및 Microsoft Machine Learning Server와 같은 라이브러리를 사용합니다. 위 표의 샘플 링크를 참조하세요.
설정
Ubuntu Linux DSVM 버전의 Microsoft Machine Learning Server에서 Spark 컨텍스트에서 실행하기 전에 로컬 단일 노드 Hadoop HDFS 및 Yarn 인스턴스를 사용하도록 설정하는 일회성 설정 단계를 완료해야 합니다. 기본적으로 Hadoop 서비스는 설치되지만 DSVM에서 사용하지 않도록 설정됩니다. 이를 사용하도록 설정하려면 처음에 루트로 다음 명령을 실행합니다.
echo -e 'y\n' | ssh-keygen -t rsa -P '' -f ~hadoop/.ssh/id_rsa
cat ~hadoop/.ssh/id_rsa.pub >> ~hadoop/.ssh/authorized_keys
chmod 0600 ~hadoop/.ssh/authorized_keys
chown hadoop:hadoop ~hadoop/.ssh/id_rsa
chown hadoop:hadoop ~hadoop/.ssh/id_rsa.pub
chown hadoop:hadoop ~hadoop/.ssh/authorized_keys
systemctl start hadoop-namenode hadoop-datanode hadoop-yarn
Hadoop 관련 서비스가 더 이상 필요하지 않을 때 중지하려면 systemctl stop hadoop-namenode hadoop-datanode hadoop-yarn을 실행합니다.
원격 Spark 컨텍스트(DSVM의 독립 실행형 Spark 인스턴스)에서 MRS를 개발하고 테스트하는 방법을 보여 주는 샘플은 /dsvm/samples/MRS 디렉터리에서 사용할 수 있습니다.
DSVM에서 구성 및 설치 방법
| 플랫폼 | 설치 위치($SPARK_HOME) |
|---|---|
| Linux | /dsvm/tools/spark-X.X.X-bin-hadoopX.X |
Microsoft MMLSpark 기계 학습 라이브러리를 사용하여 Azure Blob Storage 또는 Azure Data Lake Storage 데이터에 액세스하는 라이브러리는 $SPARK_HOME/jars에 미리 설치됩니다. 이러한 JAR은 Spark가 시작될 때 자동으로 로드됩니다. 기본적으로 Spark는 로컬 디스크에 있는 데이터를 사용합니다.
DSVM의 Spark 인스턴스는 Blob Storage 또는 Azure Data Lake Storage 저장된 데이터에 액세스할 수 있습니다. 먼저 $SPARK_HOME/conf/core-site.xml.template에 있는 템플릿을 기반으로 core-site.xml 파일을 만들고 구성해야 합니다. Blob Storage 및 Azure Data Lake Storage 액세스하려면 적절한 자격 증명도 있어야 합니다. 템플릿 파일은 Blob Storage 및 Azure Data Lake Storage 구성에 자리 표시자를 사용합니다.
Azure Data Lake Storage 서비스 자격 증명을 만드는 방법에 대한 자세한 내용은 Azure Data Lake Storage Gen1을 참조하세요. core-site.xml 파일에 Blob Storage 또는 Azure Data Lake Storage 대한 자격 증명을 입력한 후 wasb:// 또는 adl:// URI 접두사를 통해 해당 원본에 저장된 데이터를 참조할 수 있습니다.