OneLake는 Microsoft Fabric 단일 통합 데이터 레이크입니다. 모든 Fabric 워크로드는 OneLake를 통해 데이터를 읽고 쓰므로 어디서나 데이터를 사용하려면 데이터를 한 번만 로드하면 됩니다. 다음과 같은 여러 가지 방법으로 OneLake로 데이터를 가져올 수 있습니다.
- 레이크하우스 또는 웨어하우스에 직접 파일을 업로드합니다.
- 파이프라인, 데이터 흐름 또는 스트리밍 환경을 사용하여 데이터를 수집합니다.
- 바로 가기 또는 미러링을 사용하여 외부 데이터에 연결합니다.
이 빠른 시작에서는 데이터를 OneLake에 두 가지 방법으로 가져옵니다. 즉, CSV 파일을 레이크하우스에 업로드하고 복사하지 않고 동일한 데이터를 다시 가리키는 두 번째 레이크하우스에서 OneLake 바로 가기를 만듭니다. 완료되면 쿼리 가능한 델타 테이블과 바로 가기가 있으며, 둘 다 OneLake를 통해 모든 Fabric 엔진에서 사용할 수 있습니다.
사전 요구 사항
- Fabric 라이선스. 또는 무료 Fabric 평가판 등록합니다.
- Fabric 작업 영역입니다.
레이크하우스 만들기
레이크하우스, 웨어하우스 또는 이벤트하우스와 같은 Fabric 항목을 만들 때 해당 항목은 사용자 대신 OneLake에 스토리지를 프로비전합니다. 이 빠른 시작에서는 비구조적 또는 반구조적 데이터에 대한 파일 영역(파일)과 구조화된 쿼리 가능한 데이터에 대한 델타 테이블 영역(테이블)을 모두 제공하는 Lakehouse를 만듭니다. 두 영역 모두 OneLake에 저장되고 다른 Fabric 워크로드에 즉시 액세스할 수 있습니다.
Fabric 포털 로그인하고 작업 영역을 선택합니다.
새 항목선택합니다.
새 항목 창에서 Lakehouse를 검색하여 선택합니다.
이름(예:
DataLakehouse)을 입력한 다음 만들기를 선택합니다.레이크하우스는 빈 테이블 및 파일 섹션을 표시하는 탐색기 보기로 열립니다. 두 섹션 모두 이미 OneLake를 기반으로 하며 콘텐츠를 사용할 준비가 되었습니다.
예제 데이터 업로드
이 빠른 시작에서는 공개적으로 사용 가능한 Fabric 샘플 데이터 세트의 Dim_Products.csv 사용합니다. 샘플 커피 소매업체의 작은 제품 정보 테이블입니다.
- 브라우저를 열고 https://fabrictutorialdata.blob.core.windows.net/sampledata/Coffee/Dim_Products.csv으로 이동합니다.
- 메시지가 표시되면 파일을
Dim_Products.csv컴퓨터의 폴더에 저장합니다.
이 섹션에서는 OneLake에 원시 소스 데이터가 저장되도록 Dim_Products.csv을(를) Files에 업로드합니다. 레이크하우스의 파일 영역은 OneLake의 범용 스토리지 영역입니다. 도착하는 형식에 관계없이 원시 데이터의 랜딩 존으로 간주합니다. 먼저 스키마를 정의할 필요 없이 CSV, JSON, Parquet, 이미지, 로그 또는 그 밖의 어떤 데이터든 바로 추가할 수 있습니다.
레이크하우스 탐색기에서 파일을 마우스로 가리키고, 더 많은 옵션(...) 메뉴를 선택한 다음,파일 업로드> 선택합니다.
파일 업로드 창에서 폴더 아이콘을 선택하고 컴퓨터에서
Dim_Products.csv찾습니다.업로드를 선택한 다음 업로드 창을 닫습니다.
파일 폴더를 선택하여 해당 내용을 확인하고 표시되는지
Dim_Products.csv확인합니다.해당 데이터를 보려면 선택합니다
Dim_Products.csv.
이제 파일이 OneLake에 있지만 원시 CSV로 SQL 또는 Spark가 테이블로 쿼리할 수 있는 것은 아닙니다.
델타 테이블에 파일 로드
Fabric은 OneLake에서 Delta Lake를 테이블 형식의 표준으로 채택합니다. Tables 영역에 파일을 로드할 때 Fabric 원본 파일을 읽고, 스키마를 유추하고, 데이터를 델타 테이블로 씁니다. 이 시점부터 모든 Fabric 엔진은 데이터를 다시 복사하거나 변환하지 않고도 동일한 테이블을 쿼리할 수 있습니다.
레이크하우스 탐색기에서 파일 폴더를 엽니다.
파일 위에 마우스를 올리고 추가 옵션(...) 메뉴를 선택한 다음 테이블에 로드>새 테이블을 선택합니다.
테이블로 로드 대화 상자에서 테이블 이름을 입력
dim_products하고, 기본값을 유지하고, 로드를 선택합니다.로드가 완료되면 테이블을 확장하고 행을 미리 보려면 선택합니다
dim_products. 파일의 원시 CSV는 변경되지 않으며dim_products이 테이블에서 빌드된 새 델타 테이블입니다.
dim_products위에 마우스를 올리고 추가 옵션(...) 메뉴를 선택한 다음 속성을 선택합니다.프로퍼티 화면에는 다른 엔진에서 이 테이블을 참조하는 데 사용할 수 있는 URL 및 Azure ABFS(Blob File System) 경로를 포함하여 테이블에 대한 다양한 세부 정보가 표시됩니다.
두 번째 레이크하우스의 바로 가기를 사용해 데이터 재사용
업로드 및 로드는 OneLake로 데이터를 가져오는 한 가지 방법입니다. 다른 주요 패턴은 복제하지 않고 이미 다른 위치에 있는 데이터를 참조하는 것입니다. 바로 가기란 다른 레이크하우스나 다른 Fabric 작업 영역, 또는 Azure Data Lake Storage나 Amazon S3 같은 Fabric 외부의 지원되는 원본에 저장된 데이터를 참조하는 OneLake 내 포인터입니다. 데이터가 복사되지 않습니다. 원본 위치에 유지되지만 로컬인 것처럼 OneLake를 통해 읽을 수 있습니다. 원본에 대한 모든 업데이트는 바로 가기를 통해 즉시 표시되므로 데이터 복사본을 유지할 필요가 없습니다.
이 섹션에서는 두 번째 레이크하우스를 만들고 그 바로 가기를 첫 번째 레이크하우스의 dim_products 테이블에 다시 추가합니다. 이는 한 팀이 큐레이팅된 데이터를 소유하고 다른 팀 또는 프로젝트가 자신의 작업 영역에서 바로 가기를 통해 사용하는 팀이 일반적으로 작동하는 방식을 반영합니다.
- 작업 영역에서 새 항목을 선택합니다.
- 새 항목 창에서 Lakehouse를 검색하여 선택합니다.
- 이름(예:
ShortcutLakehouse)을 입력한 다음 만들기를 선택합니다. - 새 레이크하우스 탐색기에서 테이블을 마우스로 가리키고 더 많은 옵션(...) 메뉴를 선택한 다음 새 바로 가기를 선택합니다.
- 새 바로 가기 페이지의 내부 원본 아래에서 Microsoft OneLake을 선택합니다.
- 데이터 원본 브라우저에서 이 빠른 시작을 위해 만든 첫 번째 레이크하우스를 선택한 다음, 다음을 선택합니다.
-
테이블을 확장하고 테이블을 선택한 다음 다음을
dim_products선택합니다. - 선택 영역을 검토하고 만들기를 선택합니다.
-
ShortcutLakehouse에서 Tables를 확장한 다음dim_products에 바로 가기 아이콘(테이블 아이콘 위의 작은 링크 이미지)이 표시되는지 확인합니다. 행을 미리 보려면 선택합니다. 테이블은 원래 레이크하우스와 동일하지만 데이터가 복사되지 않았습니다. -
dim_products테이블 위에 마우스를 올린 다음, 추가 옵션(...)을 선택하고 바로 가기 관리를 선택합니다. 바로 가기 관리 창에서 원래 데이터가 저장되는 바로 가기 대상을 포함하여 바로 가기 세부 정보를 볼 수 있습니다.
자원을 정리하세요
다른 OneLake 빠른 시작을 계속 진행할 계획이 없다면, Fabric 용량에 OneLake 스토리지 요금이 부과되지 않도록 레이크하우스를 삭제하세요.
- 작업 영역에서 삭제하려는 레이크하우스를 마우스로 가리킵니다.
- 레이크하우스 옆에 있는 추가 옵션(...) 메뉴를 선택하고 삭제를 선택하고 삭제를 확인합니다.
레이크하우스를 삭제하면 업로드된 파일, dim_products 델타 테이블 및 바로 가기와 같은 내용도 제거됩니다.