Condividi tramite


Accedere ai dati di Cosmos DB con mirroring da Lakehouse in Microsoft Fabric

Microsoft Fabric Lakehouse è una piattaforma di architettura dei dati per l'archiviazione, la gestione e l'analisi di dati strutturati e non strutturati in un'unica posizione. In questa guida si accede a Cosmos DB con mirroring nei dati di Microsoft Fabric in una lakehouse. Quindi, si utilizza un notebook per eseguire una query di base sulla data specifica.

Prerequisiti

  • Autorizzazioni di collaboratore dell'area di lavoro Fabric

    • Gli utenti con autorizzazioni di visualizzazione non possono creare un collegamento OneLake in una Lakehouse.

Aprire l'endpoint di analisi SQL per il database

Per iniziare, accedere all'endpoint di analisi SQL per Cosmos DB nel database di Infrastruttura per assicurarsi che il mirroring sia stato eseguito correttamente almeno una volta.

  1. Aprire il portale Fabric (https://app.fabric.microsoft.com).

  2. Navigare al database Cosmos DB esistente.

    Importante

    Per questa guida, il database Cosmos DB esistente include già il set di dati di esempio già caricato. Gli esempi di query rimanenti in questa guida presuppongono che si stia usando lo stesso set di dati per questo database.

  3. Nella barra dei menu selezionare l'elenco Cosmos DB e quindi selezionare Endpoint SQL.

    Screenshot dell'opzione di selezione dell'endpoint nella barra dei menu per un database in Cosmos DB in Fabric.

  4. Dopo aver eseguito correttamente il passaggio all'endpoint di analisi SQL, questo passaggio di spostamento conferma che il mirroring è stato eseguito almeno una volta.

Connettere un database a una lakehouse di dati

Usare quindi Lakehouse per estendere il numero di strumenti che è possibile usare per analizzare i dati di Cosmos DB. In questo passaggio, crea un lakehouse e connettilo ai dati mirrorati.

  1. Passare alla home page del portale di Fabric.

  2. Selezionare l'opzione Crea.

    Screenshot dell'opzione

  3. Se l'opzione per creare un account Lakehouse non è inizialmente disponibile, selezionare Visualizza tutto.

  4. Nella categoria Ingegneria dati selezionare Lakehouse.

    Screenshot dell'opzione per creare in modo specifico una lakehouse nel portale di Fabric.

  5. Assegnare al lakehouse un nome univoco e quindi selezionare Crea.

    Screenshot della finestra di dialogo per assegnare un nome a una nuova lakehouse nel portale di Fabric.

  6. Nel menu del lakehouse appena creato selezionare l'opzione Recupera dati e quindi selezionare Nuovo collegamento.

  7. Seguire le istruzioni sequenziali nelle varie finestre di dialogo Nuova scorciatoia per selezionare il database Cosmos DB specchiato esistente e quindi selezionare la tabella di destinazione.

    Importante

    Questa guida presuppone che si selezioni la tabella SampleData disponibile quando si esegue il mirroring di un database Cosmos DB con il set di dati di esempio precaricato.

Eseguire una query Spark in un notebook

Infine, utilizzare Spark all'interno di un notebook per scrivere query Python sui dati replicati connessi al lakehouse. Per questo ultimo passaggio, creare un notebook e quindi eseguire una query Spark di base usando la sintassi del linguaggio Transact SQL (T-SQL).

  1. Nel menu lakehouse selezionare la categoria Apri notebook e quindi selezionare Nuovo notebook.

  2. Nel notebook appena creato creare una nuova cella PySpark (Python).

  3. Testare una query SQL usando una combinazione delle funzioni display e spark.sql in PySpark. Immettere questo codice nella cella.

    display(spark.sql("""
    SELECT countryOfOrigin AS geography, COUNT(*) AS itemCount
    FROM SampleData
    GROUP BY countryOfOrigin
    ORDER BY itemCount DESC
    LIMIT 5
    """))
    

    Importante

    Questa query usa i dati trovati nel set di dati di esempio. Per altre informazioni, vedere Set di dati di esempio.

  4. Esegui la cella del notebook.

  5. Osservare l'output dell'esecuzione della cella del notebook. I risultati sono presentati in formato tabellare.

    geography itemCount
    Francia 47
    Egitto 47
    Brasile 44
    Nigeria 43
    India 40

    Screenshot dell'interfaccia del notebook con una singola cella e risultati della query in formato tabulare.