다음을 통해 공유


Azure Data Factory 또는 Synapse Analytics에서 Hadoop Pig 작업을 사용하여 데이터 변환

적용 대상: Azure Data Factory Azure Synapse Analytics

Microsoft Fabric의 데이터 팩토리는 더 간단한 아키텍처, 기본 제공 AI 및 새로운 기능을 갖춘 차세대 Azure 데이터 팩토리입니다. 데이터 통합을 접하는 경우 Fabric Data Factory부터 시작합니다. 기존 ADF 워크로드는 Fabric 업그레이드하여 데이터 과학, 실시간 분석 및 보고 전반에 걸쳐 새로운 기능에 액세스할 수 있습니다.

Data Factory 파이프라인 의 HDInsight Pig 활동은 사용자 자체 또는 요청 시에 제공되는 HDInsight 클러스터에서 Pig 쿼리를 실행합니다. 이 문서는 데이터 변환 및 지원되는 변환 활동의 일반적인 개요를 표시하는 데이터 변환 활동 문서에서 작성합니다.

자세한 내용은 이 문서를 읽기 전에 Azure Data Factory 또는 Synapse Analytics 소개를 읽고 Tutorial: 데이터 변환을 수행합니다.

UI를 사용하여 파이프라인에 HDInsight Pig 작업 추가

HDInsight Pig 작업을 파이프라인에 사용하려면 다음 단계를 완료합니다.

  1. 파이프라인 활동 창에서 Pig 를 검색하고 Pig 작업을 파이프라인 캔버스로 끌어옵니다.

  2. 아직 선택하지 않았다면 캔버스에서 신규 Pig 활동을 선택하십시오.

  3. HDI 클러스터 탭을 선택하여 MapReduce 작업을 실행하는 데 사용할 HDInsight 클러스터에 연결된 새 서비스를 선택하거나 만듭니다.

    Apache Pig 작업을 위한 UI를 표시합니다.

  4. Script 탭을 선택하여 스크립트가 호스트되는 Azure Storage 위치에 새 스크립트 연결된 서비스를 선택하거나 만듭니다. 실행할 클래스 이름과 스토리지 위치 내의 파일 경로를 지정합니다. 디버깅 구성, 스크립트에 전달될 인수 및 매개 변수를 비롯한 고급 세부 정보를 구성할 수도 있습니다.

    Pig 활동의 스크립트 탭에 대한 UI를 표시합니다.

구문

{
    "name": "Pig Activity",
    "description": "description",
    "type": "HDInsightPig",
    "linkedServiceName": {
        "referenceName": "MyHDInsightLinkedService",
        "type": "LinkedServiceReference"
    },
    "typeProperties": {
        "scriptLinkedService": {
            "referenceName": "MyAzureStorageLinkedService",
            "type": "LinkedServiceReference"
        },
        "scriptPath": "MyAzureStorage\\PigScripts\\MyPigScript.pig",
        "getDebugInfo": "Failure",
        "arguments": [
            "SampleHadoopJobArgument1"
        ],
        "defines": {
            "param1": "param1Value"
        }
    }   
}

구문 세부 정보

속성 설명 필수
이름 작업의 이름
설명 작업이 무엇에 사용되는지 설명하는 텍스트입니다. 아니요
종류 Hive 작업의 경우 작업 유형은 HDinsightPig입니다.
연결된서비스명 연결된 서비스로 등록된 HDInsight 클러스터에 대한 참조입니다. 이 연결된 서비스에 대한 자세한 내용은 컴퓨팅 연결 서비스 문서를 참조하세요.
scriptLinkedService 실행할 Pig 스크립트를 저장하는 데 사용되는 Azure Storage 연결된 서비스에 대한 참조입니다. 여기에서는 Azure Blob StorageADLS Gen2 연결된 서비스만 지원됩니다. 이 연결된 서비스를 지정하지 않으면 HDInsight 연결된 서비스에 정의된 Azure Storage 연결된 서비스가 사용됩니다. 아니요
스크립트 경로 scriptLinkedService에서 참조하는 Azure Storage 저장된 스크립트 파일의 경로를 제공합니다. 파일 이름은 대/소문자를 구분합니다. 아니요
getDebugInfo 로그 파일이 scriptLinkedService에서 지정한 HDInsight 클러스터(또는)에서 사용하는 Azure Storage 복사되는 시기를 지정합니다. 허용되는 값: None, Always 또는 Failure. 기본값은 None입니다. 아니요
인수 Hadoop 작업에 대한 인수 배열을 지정합니다. 인수는 각 작업에 대한 명령줄 인수로 전달됩니다. 아니요
정의한다 Pig 스크립트 내에서 참조하기 위해 매개 변수를 키/값 쌍으로 지정합니다. 아니요

다른 방법으로 데이터를 변환하는 방법을 설명하는 다음 문서를 참조하세요.