Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
In diesem Artikel wird das Erstellen eines Datenprofils mithilfe der Databricks-Benutzeroberfläche veranschaulicht. Sie können auch die API verwenden.
Gehen Sie wie folgt vor, um auf die Databricks-Benutzeroberfläche zuzugreifen:
Klicken Sie in der linken Randleiste des Arbeitsbereichs auf das
Öffnen Sie den Katalog-Explorer.
Navigieren Sie zu der Tabelle, die Sie profilieren möchten.
Klicken Sie auf die Registerkarte "Qualität ".
Wenn die Anomalieerkennung für dieses Schema nicht aktiviert ist, klicken Sie auf "Aktivieren".
Wenn die Anomalieerkennung für dieses Schema aktiviert ist, klicken Sie auf "Konfigurieren".
Klicken Sie im Dialogfeld "Datenqualitätsüberwachung" im Feld "Datenprofilerstellung" auf "Konfigurieren".
Wählen Sie im Dialogfeld den Profiltyp aus. In den folgenden Abschnitten werden die Profiltypoptionen und die zusätzlichen Auswahlmöglichkeiten für jeden Typ beschrieben.
Profilerstellung
Wählen Sie im Dropdownmenü " Profiltyp " den Typ des Profils aus, das Sie erstellen möchten. Die Profiltypen werden in der Tabelle angezeigt.
| Profiltyp | Beschreibung |
|---|---|
| Zeitreihenprofil | Eine Tabelle, die Werte enthält, die im Laufe der Zeit gemessen werden. Diese Tabelle enthält eine Zeitstempelspalte. |
| Momentaufnahmeprofil | Jede von Delta verwaltete Tabelle, externe Tabelle, Ansicht, materialisierte Ansicht oder Streaming-Tabelle. Die maximale Tabellengröße für ein Momentaufnahmeprofil beträgt 4 TB. Verwenden Sie für größere Tabellen stattdessen Zeitreihenprofile. |
| Ableitungsprofil | Eine Tabelle mit vorhergesagten Werten, die von einer Machine Learning-Klassifizierung oder einem Regressionsmodell ausgegeben werden. Diese Tabelle enthält einen Zeitstempel, eine Modell-ID, Modelleingaben (Features), eine Spalte mit Modellvorhersagen und optionale Spalten, die eindeutige Beobachtungs-IDs und Boden-Wahrheitsbezeichnungen enthalten. Sie kann auch Metadaten enthalten, z. B. demografische Informationen, die nicht als Eingabe für das Modell verwendet werden, aber für Fairness- und Bias-Untersuchungen oder andere Aufgaben nützlich sein können. |
Wenn Sie TimeSeries oder Inference auswählen, sind zusätzliche Parameter erforderlich und werden in den folgenden Abschnitten beschrieben.
Hinweis
- Wenn Sie zum ersten Mal eine Zeitreihe oder ein Rückschlussprofil erstellen, analysiert das Profil nur Daten aus den 30 Tagen vor der Erstellung. Nachdem das Profil erstellt wurde, werden alle neuen Daten verarbeitet.
- Monitore, die in materialisierten Ansichten definiert sind, unterstützen keine inkrementelle Verarbeitung.
Tipp
Für TimeSeries und Inference Profile empfiehlt es sich, Änderungsdatenfeeds (CDF) in Ihrer Tabelle zu aktivieren. Wenn CDF aktiviert ist, werden nur neu angefügte Daten verarbeitet, anstatt die gesamte Tabelle bei jeder Aktualisierung erneut zu verarbeiten. Dadurch wird die Ausführung effizienter und die Kosten reduziert, während Sie die Profilerstellung auf viele Tabellen skalieren.
TimeSeries Profil
Für ein TimeSeries Profil müssen Sie die folgenden Auswahl treffen:
- Geben Sie die metrischen Granularitäten an, die bestimmen, wie die Daten in Fenstern über die Zeit partitioniert werden.
- Geben Sie die Spalte "Zeitstempel" an, die Spalte in der Tabelle, die den Zeitstempel enthält. Der Datentyp der Zeitstempelspalte muss entweder
TIMESTAMPoder ein Typ sein, der mithilfe derto_timestampPySpark-Funktion in Zeitstempel konvertiert werden kann.
Inference Profil
Für ein Inference Profil müssen Sie zusätzlich zu den Granularitäten und dem Zeitstempel die folgenden Auswahlen treffen:
- Wählen Sie den Problemtyp aus, entweder Klassifizierung oder Regression.
- Geben Sie die Spalte "Vorhersage" an, die die vorhergesagten Werte des Modells enthält.
- Geben Sie optional die Beschriftungsspalte an, die die Grundwahrheit für Modellvorhersagen enthält.
- Geben Sie die Spalte "Modell-ID" an, die die ID des Modells enthält, das für die Vorhersage verwendet wird.
Fortgeschrittene Optionen
Im Abschnitt "Erweiterte Optionen " können Sie den Zeitplan festlegen, E-Mail-Benachrichtigungen hinzufügen, benutzerdefinierte Metriken und Slicing-Ausdrücke hinzufügen und die Standardprofilkonfiguration ändern.
Zeitplan
Wenn Sie ein Profil einrichten möchten, das auf geplanter Basis ausgeführt werden soll, wählen Sie "Planmäßig aktualisieren" aus, und wählen Sie die Häufigkeit und Die Uhrzeit für die Ausführung des Profils aus. Wenn das Profil nicht automatisch ausgeführt werden soll, wählen Sie "Manuell aktualisieren" aus. Wenn Sie "Manuell aktualisieren" auswählen, können Sie die Metriken später auf der Registerkarte "Qualität " aktualisieren.
Benachrichtigungen
Um E-Mail-Benachrichtigungen für ein Profil einzurichten, geben Sie die E-Mail ein, die benachrichtigt werden soll, und wählen Sie die zu aktivierenden Benachrichtigungen aus. Bis zu 5 E-Mails werden pro Benachrichtigungsereignistyp unterstützt.
Metriken
Im Abschnitt "Metriken " können Sie die folgenden Standardeinstellungen ändern:
Schemaname der Metriktabellen: Das Unity-Katalogschema, in dem die vom Profil erstellten Metriktabellen gespeichert werden. Dieser Speicherort muss sich im Format {catalog} befinden. {schema}. Standardmäßig ist dies auf denselben Schemaspeicherort wie die profilierte Tabelle festgelegt. Sie können einen anderen Speicherort angeben.
Ressourcenverzeichnis: Der absolute Pfad zu einem vorhandenen Verzeichnis zum Speichern von Datenprofilressourcen. Standardmäßig werden Objekte im Standardverzeichnis "/Users/{user_name}/databricks_lakehouse_monitoring/{table_name}" gespeichert. Wenn Sie einen anderen Speicherort in diesem Feld eingeben, werden Objekte unter "/{table_name}" im von Ihnen angegebenen Verzeichnis erstellt. Dieses Verzeichnis kann sich überall im Arbeitsbereich befinden. Für Profile, die innerhalb einer Organisation freigegeben werden sollen, können Sie einen Pfad im Verzeichnis "/Shared/" verwenden.
Dieses Feld darf nicht leer bleiben.
Sie können auch die folgenden Einstellungen angeben:
- Name der Basistabelle des Unity-Katalogs: Name einer Tabelle oder Ansicht, die Basisplandaten für den Vergleich enthält.
-
Metrik-Slicing-Ausdrücke: Mit Slicing-Ausdrücken können Sie Teilmengen der Tabelle zusätzlich zur gesamten Tabelle definieren. Klicken Sie zum Erstellen eines Slicing-Ausdrucks auf "Ausdruck hinzufügen" , und geben Sie die Ausdrucksdefinition ein. Der Ausdruck
"col_2 > 10"generiert z. B. zwei Segmente: eine fürcol_2 > 10und eine fürcol_2 <= 10. Ein weiteres Beispiel: Der Ausdruck"col_1"generiert einen Teil für jeden eindeutigen Wert incol_1. Die Daten werden nach jedem Ausdruck unabhängig gruppiert, was zu einem separaten Segment für jedes Prädikat und seine Ergänzungen führt. -
Benutzerdefinierte Metriken: Benutzerdefinierte Metriken werden in den Metriktabellen wie jeder integrierten Metrik angezeigt.
Klicken Sie zum Konfigurieren einer benutzerdefinierten Metrik auf "Benutzerdefinierte Metrik hinzufügen".
- Geben Sie einen Namen für die benutzerdefinierte Metrik ein.
- Wählen Sie den benutzerdefinierten Metriktyp aus. Wählen Sie aus:
Aggregate, ,DerivedoderDrift. - Wählen Sie in der Dropdownliste in Eingabespalten die Spalten aus, auf die die Metrik angewendet werden soll.
- Wählen Sie im Feld "Ausgabetyp " den Spark-Datentyp der Metrik aus.
- Geben Sie im Feld "Definition " SQL-Code ein, der die benutzerdefinierte Metrik definiert.
Bearbeiten von Profileinstellungen in der Benutzeroberfläche
Nachdem Sie ein Profil erstellt haben, können Sie Änderungen an den Einstellungen des Profils vornehmen, indem Sie auf der Registerkarte "Qualität" auf "Konfigurieren" klicken.
Klicken Sie im Abschnitt "Datenprofilerstellung " des Dialogfelds auf "Konfigurieren".
Aktualisieren und Anzeigen von Profilergebnissen in der Benutzeroberfläche
Wenn Sie das Profil manuell ausführen möchten, klicken Sie auf "Aktualisierungsverlauf anzeigen". Ein Dialogfeld mit allen vorherigen Profilen wird geöffnet. Klicken Sie auf "Metriken aktualisieren", um eine Profilaktualisierung auszulösen.
Um den Aktualisierungsverlauf anzuzeigen, müssen Sie den Databricks-Arbeitsbereich verwenden, aus dem Datenprofilierung aktiviert wurde.
Informationen zu den Statistiken, die in Profilmetriken gespeichert sind, finden Sie unter Monitor-Metriktabellen. Metriktabellen sind Unity-Katalogtabellen. Sie können sie in Notizbüchern oder im SQL-Abfrage-Explorer abfragen und im Katalog-Explorer anzeigen.
Steuern des Zugriffs auf Profilausgaben
Die durch ein Profil erstellten Metriktabellen und das Dashboard gehören dem Benutzer, der das Profil erstellt hat. Sie können Unity-Katalogberechtigungen verwenden, um den Zugriff auf Metriktabellen zu steuern. Um Dashboards innerhalb eines Arbeitsbereichs freizugeben, klicken Sie oben rechts im Dashboard auf die Schaltfläche " Freigeben ".
Löschen eines Profils aus der Benutzeroberfläche
Um ein Profil aus der Benutzeroberfläche zu löschen, folgen Sie den Anweisungen in den Profileinstellungen bearbeiten auf der Benutzeroberfläche , um das Dialogfeld "Profil aktualisieren " zu öffnen. Wählen Sie im Dropdownmenü "Aktualisieren " die Option "Löschen" aus.