Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Note
Diese Seite behandelt die neue Version der Informationsextraktion. Informationen zur vorherigen Version finden Sie unter Verwendung der Informationsextraktion (veraltet)
Die Informationsextraktion wandelt unstrukturierte Dokumente und Text mithilfe eines definierten Schemas in wichtige, strukturierte Erkenntnisse um. Auf diese Weise können Sie Informationen verwenden, die in unstrukturierten Text, PDFs, Bildern oder Tabellen direkt für Analysen, Berichte oder nachgeschaltete Agents und Anwendungen eingebettet sind.
Beispiele für die Informationsextraktion sind:
- Extraktion rechtlicher Parteien und Bedingungen aus Verträgen.
- Extrahieren von Positionen und Zahlungsbedingungen aus Rechnungen.
- Wichtige Details aus Krankenakten und Notizen entnehmen.
Die Informationsextraktion basiert auf der KI-Funktion ai_extract. Die Informationsextraktion verfügt über eine visuelle Benutzeroberfläche zum Anpassen und Optimieren der Funktion mit einem definierten Schema für die Extraktion.
Die Informationsextraktion verwendet Standardspeicher zum Speichern temporärer Datentransformationen, Modellprüfpunkte und interner Metadaten, die jeder Agent nutzt. Wenn Sie einen Agent löschen, entfernt Databricks alle daten, die dem Agent zugeordnet sind, aus dem Standardspeicher.
Anforderungen
- Ein Arbeitsbereich, der Folgendes umfasst:
- Serverloses Rechnen aktiviert Siehe Serverlose Computeanforderungen.
- Unity-Katalog aktiviert. Weitere Informationen finden Sie unter Aktivieren eines Arbeitsbereichs für Unity Catalog.
- Zugriff auf eine serverlose Nutzungsrichtlinie mit einem Budget größer als null.
- Diese Funktion ist nur in einigen Regionen verfügbar, siehe Verfügbarkeit der KI-Funktion.
- Für Arbeitsbereiche mit dem Add-On "Erweiterte Sicherheit und Compliance"
- Informationen zur regionalen Unterstützung für
ai_extractfinden Sie im entsprechenden Compliance-Standard. - Informationen zum Aktivieren in Ihrem Arbeitsbereich finden Sie unter "Verwalten Azure Databricks Vorschauen".
- Informationen zur regionalen Unterstützung für
- Möglichkeit zum Verwenden der
ai_extractSQL-Funktion. - Unstrukturierte Daten, aus denen Sie Informationen extrahieren möchten. Die Daten müssen sich in einem Unity-Katalogvolume oder einer Tabelle befinden.
- Um Ihren Agent zu erstellen, müssen Sie mindestens eine Datei in Ihrem Unity-Katalogvolume oder 1 Zeile in Ihrer Tabelle haben.
Erstellen eines Informationsextraktions-Agents
Wechseln Sie zum Agents im linken Navigationsbereich Ihres Arbeitsbereichs. Klicken Sie auf Agenten erstellen>Informationsextraktion.
Schritt 1. Wählen Sie die Daten aus, um Informationen daraus zu extrahieren.
Wählen Sie auf der Seite "Mit Ihren Daten beginnen " die Dateien oder Daten aus, aus der Sie Informationen extrahieren möchten. Sie können eine der folgenden Aktionen ausführen:
- Ziehen Sie eine oder mehrere Dateien in den Uploadbereich, oder klicken Sie, um nach Dateien zu suchen, die hochgeladen werden sollen.
- Klicken Sie auf "Volume auswählen ", um ein Unity-Katalogvolume mit unterstützten Dateitypen auszuwählen.
- Klicken Sie auf "Tabelle auswählen", um eine Unity-Katalogtabelle auszuwählen, die Textdaten enthält.
Wenn Sie eine Tabelle auswählen, wählen Sie die Spalte aus, aus der die zu extrahierenden Daten enthalten sind. Sie müssen eine Spalte mit einem unterstützten Typ auswählen, z. B. STRING oder VARIANT, bevor Sie fortfahren können. Wenn die Tabelle keine unterstützten Spalten enthält, wählen Sie eine andere Tabelle aus.
Klicken Sie auf "Agent erstellen". Diese Schaltfläche ist erst aktiviert, nachdem Sie eine gültige Datenquelle und für eine Tabelle eine unterstützte Spalte ausgewählt haben.
Schritt 2. Konfigurieren und Verfeinern des Extraktionsschemas
Nachdem Die Informationsextraktion Ihre Daten verarbeitet hat, konfigurieren und verfeinern Sie die Daten, die Sie aus Ihren Dokumenten extrahieren möchten.
Definieren Sie unter "Konfiguration" Ihr Extraktionsschema. Dafür stehen verschiedene Möglichkeiten zur Verfügung:
- Geben Sie natürliche Sprache ein, die die Informationen beschreibt, die Sie extrahieren möchten, und klicken Sie auf "Schema generieren". Die Informationsextraktion generiert automatisch ein JSON-Schema mit Feldnamen und Definitionen für Sie. Bearbeiten Sie diese Beschreibungen nach Bedarf.
- Alternativ können Sie auf "Oder, manuell definieren" klicken, um das Schema manuell festzulegen:
- Klicken Sie auf "Feld hinzufügen".
- Geben Sie Ihren Feldnamen, -typ und -beschreibung ein.
- Klicken Sie auf Bestätigen.
- Wiederholen Sie diesen Vorgang für jedes Feld, das Sie extrahieren möchten.
- Klicken Sie auf "Extraktion speichern und ausführen".
- Sie können auch auf JSON klicken, um das JSON-Schema direkt zu bearbeiten. Klicken Sie nach Abschluss auf "Änderungen übernehmen" .
Jedes Mal, wenn Sie Ihr Schema aktualisieren und auf "Extraktion speichern und ausführen" klicken, aktualisiert die Informationsextraktion den Extraktions-Agent, führt die Extraktion aus und zeigt die Ergebnisse für jede Eingabe an.
Überprüfen Sie auf der linken Seite das analysierte Dokument und die Extraktion des Agents. Iterieren Sie die Extraktionsergebnisse auf zwei Arten. Geben Sie zunächst Feedback in natürlicher Sprache für eine oder mehrere Eingaben ein, wodurch Ihre Beschreibungen automatisch angepasst werden, wenn Sie Speichern und Extraktion ausführen drücken. Zweitens sollten Sie die Schemabeschreibungen manuell überarbeiten, die wirksam werden, wenn Sie die Extraktion speichern und ausführen.
Verwenden Sie Versionen zum Vergleichen oder Wiederherstellen einer vorherigen Konfiguration. Klicken Sie auf "Versionen", und klicken Sie dann auf " Vergleichen ", um die Schemadefinition einer früheren Version mit der aktuellen Version zu vergleichen. Klicken Sie auf "Wiederherstellen ", um eine frühere Version wiederherzustellen.
Schritt 3: Verwenden Sie Ihren Extraktionsagenten
Nachdem Sie mit der Leistung des Agents zufrieden sind, verwenden Sie den Agent, um Informationen zu extrahieren.
Klicken Sie oben rechts auf "Agent verwenden ". Sie können zwischen Folgendem auswählen:
-
Führen Sie in SQL aus, um den Agent zum Extrahieren von Informationen aus allen Daten zu verwenden. Dadurch wird eine SQL-Abfrage geöffnet, die
ai_extractverwendet, um Informationen aus Ihrem Volume oder Ihrer Tabelle mithilfe des definierten Schemas zu extrahieren. Weitere Informationen zur Verwendungai_extractin SQL-Abfragen finden Sie unterai_extractFunktion. - Erstellen Sie eine Spark Declarative Pipeline , um eine ETL-Pipeline bereitzustellen, die in geplanten Intervallen ausgeführt wird, um Ihren Agent für neue Daten aufzurufen. Dadurch werden Lakeflow Spark Declarative Pipelines erstellt, die eine Streamingtabelle mit Ihren extrahierten Daten aktualisieren. Sie können den Zeitplan der Pipeline so konfigurieren, dass sie ausgeführt wird, wenn neue Daten eintreffen. Weitere Informationen zu Lakeflow Spark Declarative Pipelines finden Sie unter Lakeflow Spark Declarative Pipelines.
Einschränkungen
- Siehe Einschränkungen
- Informationsextraktions-Agents weisen eine maximale Kontextlänge von 128k-Token auf.
- Union-Schematypen werden nicht unterstützt.