Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Microsoft Fabric Lakehouse è una piattaforma di architettura dei dati per l'archiviazione, la gestione e l'analisi di dati strutturati e non strutturati in un'unica posizione. In questa guida si accede a Cosmos DB con mirroring nei dati di Microsoft Fabric in una lakehouse. Quindi, si utilizza un notebook per eseguire una query di base sulla data specifica.
Prerequisiti
Una capacità di Fabric esistente
- Se non si ha capacità di Fabric, attivare una versione di prova di Fabric.
Un database Cosmos DB esistente in Fabric
- Se non ne è già disponibile uno, creare un nuovo database Cosmos DB in Fabric.
Contenitore esistente con dati
- Se non è già disponibile, è consigliabile caricare il contenitore di dati di esempio.
Autorizzazioni di collaboratore dell'area di lavoro Fabric
- Gli utenti con autorizzazioni di visualizzazione non possono creare un collegamento OneLake in una Lakehouse.
Aprire l'endpoint di analisi SQL per il database
Per iniziare, accedere all'endpoint di analisi SQL per Cosmos DB nel database di Infrastruttura per assicurarsi che il mirroring sia stato eseguito correttamente almeno una volta.
Aprire il portale Fabric (https://app.fabric.microsoft.com).
Navigare al database Cosmos DB esistente.
Importante
Per questa guida, il database Cosmos DB esistente include già il set di dati di esempio già caricato. Gli esempi di query rimanenti in questa guida presuppongono che si stia usando lo stesso set di dati per questo database.
Nella barra dei menu selezionare l'elenco Cosmos DB e quindi selezionare Endpoint SQL.
Dopo aver eseguito correttamente il passaggio all'endpoint di analisi SQL, questo passaggio di spostamento conferma che il mirroring è stato eseguito almeno una volta.
Connettere un database a una lakehouse di dati
Usare quindi Lakehouse per estendere il numero di strumenti che è possibile usare per analizzare i dati di Cosmos DB. In questo passaggio, crea un lakehouse e connettilo ai dati mirrorati.
Passare alla home page del portale di Fabric.
Selezionare l'opzione Crea.
Se l'opzione per creare un account Lakehouse non è inizialmente disponibile, selezionare Visualizza tutto.
Nella categoria Ingegneria dati selezionare Lakehouse.
Assegnare al lakehouse un nome univoco e quindi selezionare Crea.
Nel menu del lakehouse appena creato selezionare l'opzione Recupera dati e quindi selezionare Nuovo collegamento.
Seguire le istruzioni sequenziali nelle varie finestre di dialogo Nuova scorciatoia per selezionare il database Cosmos DB specchiato esistente e quindi selezionare la tabella di destinazione.
Importante
Questa guida presuppone che si selezioni la tabella SampleData disponibile quando si esegue il mirroring di un database Cosmos DB con il set di dati di esempio precaricato.
Eseguire una query Spark in un notebook
Infine, utilizzare Spark all'interno di un notebook per scrivere query Python sui dati replicati connessi al lakehouse. Per questo ultimo passaggio, creare un notebook e quindi eseguire una query Spark di base usando la sintassi del linguaggio Transact SQL (T-SQL).
Nel menu lakehouse selezionare la categoria Apri notebook e quindi selezionare Nuovo notebook.
Nel notebook appena creato creare una nuova cella PySpark (Python).
Testare una query SQL usando una combinazione delle funzioni
displayespark.sqlin PySpark. Immettere questo codice nella cella.display(spark.sql(""" SELECT countryOfOrigin AS geography, COUNT(*) AS itemCount FROM SampleData GROUP BY countryOfOrigin ORDER BY itemCount DESC LIMIT 5 """))Importante
Questa query usa i dati trovati nel set di dati di esempio. Per altre informazioni, vedere Set di dati di esempio.
Esegui la cella del notebook.
Osservare l'output dell'esecuzione della cella del notebook. I risultati sono presentati in formato tabellare.
geographyitemCountFrancia 47 Egitto 47 Brasile 44 Nigeria 43 India 40