CSV 파서 데이터 처리 개념

CSV(쉼표로 구분된 값) 파일은 테이블 구조화된 형식으로 데이터를 저장하는 데 사용되는 쉼표로 구분된 텍스트 파일입니다.

CSV 파서 DAG 를 사용하면 고객이 OSDU® WKS(잘 알려진 스키마)와 일치하지 않는 스키마인 사용자 지정 스키마를 기반으로 Microsoft Azure Data Manager for Energy 인스턴스에 데이터를 로드할 수 있습니다. 고객은 데이터를 로드하기 전에 스키마 서비스를 사용하여 사용자 지정 스키마를 만들고 등록해야 합니다.

CSV 파서 DAG는 데이터 로드에 대한 ELT(로드 및 변환 추출) 접근 방식을 구현합니다. 즉, 데이터는 먼저 원본 시스템에서 CSV 형식으로 추출되고 에너지용 Azure Data Manager 인스턴스에 로드됩니다. 그런 다음 매핑 서비스를 사용하여 OSDU® 잘 알려진 스키마로 변환할 수 있습니다.

CSV 수집은 무엇을 합니까?

CSV 파서 DAG를 사용하면 고객이 CSV 데이터를 Microsoft Azure Data Manager for Energy 인스턴스로 로드할 수 있습니다. CSV 파일의 각 행을 구문 분석하고 스토리지 메타데이터 레코드를 만듭니다. schema validation CSV 데이터가 등록된 사용자 지정 스키마를 준수하는지 확인합니다. 스키마 데이터 유형 정의에 따라 열에서 type coercion이(가) 자동으로 수행됩니다. 출처, 엔터티 유형 및 데이터의 자연 키를 연결하여 형성된 문자열을 Base64로 인코딩하여 CSV 레코드의 각 행에 대해 unique id을 생성합니다. 단위 서비스를 사용하여 선언된 참조 프레임 정보를 적절한 영속 가능한 참조로 변환함으로써 unit conversion를 수행합니다. FoR(참조 프레임) 정보가 포함된 스키마에 따라 공간 인식 열에 대해 CRS conversion를 수행합니다. 원본 스키마에 선언된 대로 메타데이터를 만듭니다 relationships . 마침내, Storage 서비스를 사용해 메타데이터 레코드를 persists 합니다.

CSV 파서 수집 구성 요소

CSV 파서 DAG 워크플로는 다음 서비스로 구성됩니다.

  • 파일 서비스는 Azure Data Manager for Energy 인스턴스의 파일 관리를 용이하게 합니다. 이를 통해 사용자는 데이터 플랫폼에서 파일을 안전하게 업로드, 검색 및 다운로드할 수 있습니다.
  • 스키마 서비스를 사용하면 Azure Data Manager for Energy 인스턴스에서 스키마를 쉽게 관리할 수 있습니다. 사용자가 데이터 플랫폼에서 스키마를 만들고, 가져오고, 검색할 수 있습니다.
  • Storage Service 는 데이터 플랫폼에 수집된 도메인 엔터티에 대한 메타데이터 정보의 스토리지를 용이하게 합니다. 또한 다운스트림 서비스에서 수집된 메타데이터 레코드에 대한 작업을 수행할 수 있도록 하는 스토리지 레코드 변경 이벤트도 발생합니다.
  • 단위 서비스는 단위의 관리 및 변환을 용이하게 합니다.
  • 워크플로 서비스는 Azure Data Manager for Energy 인스턴스에서 워크플로를 쉽게 관리할 수 있도록 합니다. Airflow 오케스트레이션 엔진 위에 구축된 래퍼 서비스입니다.

CSV 수집 구성 요소 다이어그램

CSV 수집 구성 요소 다이어그램의 스크린샷.

CSV 파서 수집 워크플로

CSV 파서 DAG 워크플로를 실행하려면 사용자에게 유효한 권한 부여 토큰과 검색, 스토리지, 스키마, 파일 서비스, 권한 부여, 법률 및 워크플로에 대한 적절한 액세스 권한이 있어야 합니다.

아래 워크플로 다이어그램은 CSV 파서 DAG 워크플로: CSV 수집 시퀀스 다이어그램의 스크린샷을 보여 줍니다.

CSV 파서 DAG 워크플로를 실행하려면 먼저 워크플로 서비스를 사용하여 스키마를 만들고 등록해야 합니다. 스키마가 만들어지면 사용자는 파일 서비스를 사용하여 CSV 파일을 Microsoft Azure Data Manager for Energy 인스턴스에 업로드하고 파일 제네릭 종류의 스토리지 레코드도 만듭니다. 그런 다음 파일 서비스는 워크플로 서비스를 사용하여 CSV 파서 워크플로를 트리거하는 동안 사용되는 파일 ID를 사용자에게 제공합니다. 워크플로 서비스는 사용자가 CSV 파서 워크플로 실행의 상태를 추적하는 데 사용할 수 있는 실행 ID를 제공합니다.

OSDU®는 오픈 그룹의 상표입니다.

다음 단계

CSV 파서 자습서로 이동하여 CSV 파서가 데이터를 처리하는 방법을 배워보세요.