다음을 통해 공유


Azure Data Factory 또는 Synapse Analytics에서 Hadoop 스트리밍 작업을 사용하여 데이터 변환

적용 대상: Azure Data Factory Azure Synapse Analytics

Microsoft Fabric의 데이터 팩토리는 더 간단한 아키텍처, 기본 제공 AI 및 새로운 기능을 갖춘 차세대 Azure 데이터 팩토리입니다. 데이터 통합을 접하는 경우 Fabric Data Factory부터 시작합니다. 기존 ADF 워크로드는 Fabric 업그레이드하여 데이터 과학, 실시간 분석 및 보고 전반에 걸쳐 새로운 기능에 액세스할 수 있습니다.

Azure Data Factory 또는 Synapse Analytics 파이프라인의 HDInsight 스트리밍 작업은 사용자 전용 또는 요청 시 HDInsight 클러스터에서 Hadoop 스트리밍 프로그램을 실행합니다. 이 문서는 데이터 변환 및 지원되는 변환 활동의 일반적인 개요를 표시하는 데이터 변환 활동 문서에서 작성합니다.

자세한 내용은 Azure Data FactorySynapse Analytics 소개 문서를 읽고 이 문서를 읽기 전에 Tutorial: 데이터 변환을 수행합니다.

UI를 사용하여 파이프라인에 HDInsight 스트리밍 작업 추가

HDInsight 스트리밍 작업을 파이프라인에 사용하려면 다음 단계를 완료합니다.

  1. 파이프라인 작업 창에서 스트리밍을 검색하고 스트리밍 작업을 파이프라인 캔버스로 드래그합니다.

  2. 아직 선택하지 않은 경우 캔버스에서 새 스트리밍 작업을 선택합니다.

  3. 스트리밍 작업을 실행하는 데 사용할 HDInsight 클러스터에 대한 새 연결된 서비스를 선택하거나 만들려면 HDI 클러스터 탭을 선택합니다.

    스트리밍 작업에 대한 UI를 표시합니다.

  4. 파일 탭을 선택하여 스트리밍 작업의 매퍼 및 리듀서 이름을 지정하고, 작업에 대한 매퍼, 리듀서, 입력 및 출력 파일을 Azure Storage 계정에 대한 새 연결된 서비스를 선택하거나 만듭니다. 디버깅 구성, 인수 및 작업에 전달할 매개 변수를 비롯한 고급 세부 정보를 구성할 수도 있습니다.

    스트리밍 작업에 대한 파일 탭의 UI를 표시합니다.

JSON 샘플

{
    "name": "Streaming Activity",
    "description": "Description",
    "type": "HDInsightStreaming",
    "linkedServiceName": {
        "referenceName": "MyHDInsightLinkedService",
        "type": "LinkedServiceReference"
    },
    "typeProperties": {
        "mapper": "MyMapper.exe",
        "reducer": "MyReducer.exe",
        "combiner": "MyCombiner.exe",
        "fileLinkedService": {
            "referenceName": "MyAzureStorageLinkedService",
            "type": "LinkedServiceReference"
        },
        "filePaths": [
            "<containername>/example/apps/MyMapper.exe",
            "<containername>/example/apps/MyReducer.exe",
            "<containername>/example/apps/MyCombiner.exe"
        ],
        "input": "wasb://<containername>@<accountname>.blob.core.windows.net/example/input/MapperInput.txt",
        "output": "wasb://<containername>@<accountname>.blob.core.windows.net/example/output/ReducerOutput.txt",
        "commandEnvironment": [
            "CmdEnvVarName=CmdEnvVarValue"
        ],
        "getDebugInfo": "Failure",
        "arguments": [
            "SampleHadoopJobArgument1"
        ],
        "defines": {
            "param1": "param1Value"
        }
    }
}

구문 세부 정보

속성 설명 필수
이름 작업의 이름
설명 작업이 무엇에 사용되는지 설명하는 텍스트입니다. 아니요
종류 Hadoop 스트리밍 작업의 경우 작업 유형은 HDInsightStreaming입니다.
연결된서비스명 연결된 서비스로 등록된 HDInsight 클러스터에 대한 참조입니다. 이 연결된 서비스에 대한 자세한 내용은 컴퓨팅 연결 서비스 문서를 참조하세요.
매퍼 mapper 실행 파일의 이름을 지정합니다.
reducer reducer 실행 파일의 이름을 지정합니다.
결합기 combiner 실행 파일의 이름을 지정합니다. 아니요
fileLinkedService 실행할 매퍼, 결합자 및 리듀서 프로그램을 저장하는 데 사용하는 Azure Storage 연결된 서비스에 대한 참조입니다. 여기에서는 Azure Blob StorageADLS Gen2 연결된 서비스만 지원됩니다. 이 연결된 서비스를 지정하지 않으면 HDInsight 연결된 서비스에 정의된 Azure Storage 연결된 서비스가 사용됩니다. 아니요
파일 경로 fileLinkedService에서 참조하는 Azure Storage 저장된 Mapper, Combiner 및 Reducer 프로그램에 대한 경로 배열을 제공합니다. 경로는 대/소문자를 구분합니다.
입력 Mapper에 대한 입력 파일의 WASB 경로를 지정합니다.
출력 Reducer에 대한 출력 파일의 WASB 경로를 지정합니다.
getDebugInfo 로그 파일이 scriptLinkedService에서 지정한 HDInsight 클러스터(또는)에서 사용하는 Azure Storage 복사되는 시기를 지정합니다. 허용되는 값: None, Always 또는 Failure. 기본값은 None입니다. 아니요
인수 Hadoop 작업에 대한 인수 배열을 지정합니다. 인수는 각 작업에 대한 명령줄 인수로 전달됩니다. 아니요
정의한다 Hive 스크립트 내에서 참조하기 위해 매개 변수를 키/값 쌍으로 지정합니다. 아니요

다른 방법으로 데이터를 변환하는 방법을 설명하는 다음 문서를 참조하세요.