Informationsextraktion

Note

Diese Seite behandelt die neue Version der Informationsextraktion. Informationen zur vorherigen Version finden Sie unter Verwendung der Informationsextraktion (veraltet)

Die Informationsextraktion wandelt unstrukturierte Dokumente und Text mithilfe eines definierten Schemas in wichtige, strukturierte Erkenntnisse um. Auf diese Weise können Sie Informationen verwenden, die in unstrukturierten Text, PDFs, Bildern oder Tabellen direkt für Analysen, Berichte oder nachgeschaltete Agents und Anwendungen eingebettet sind.

Beispiele für die Informationsextraktion sind:

  • Extraktion rechtlicher Parteien und Bedingungen aus Verträgen.
  • Extrahieren von Positionen und Zahlungsbedingungen aus Rechnungen.
  • Wichtige Details aus Krankenakten und Notizen entnehmen.

Die Informationsextraktion basiert auf der KI-Funktion ai_extract. Die Informationsextraktion verfügt über eine visuelle Benutzeroberfläche zum Anpassen und Optimieren der Funktion mit einem definierten Schema für die Extraktion.

Die Informationsextraktion verwendet Standardspeicher zum Speichern temporärer Datentransformationen, Modellprüfpunkte und interner Metadaten, die jeder Agent nutzt. Wenn Sie einen Agent löschen, entfernt Databricks alle daten, die dem Agent zugeordnet sind, aus dem Standardspeicher.

Anforderungen

Erstellen eines Informationsextraktions-Agents

Wechseln Sie zum Symbol Agents im linken Navigationsbereich Ihres Arbeitsbereichs. Klicken Sie auf Agenten erstellen>Informationsextraktion.

Schritt 1. Wählen Sie die Daten aus, um Informationen daraus zu extrahieren.

  1. Wählen Sie auf der Seite "Mit Ihren Daten beginnen " die Dateien oder Daten aus, aus der Sie Informationen extrahieren möchten. Sie können eine der folgenden Aktionen ausführen:

    • Ziehen Sie eine oder mehrere Dateien in den Uploadbereich, oder klicken Sie, um nach Dateien zu suchen, die hochgeladen werden sollen.
    • Klicken Sie auf "Volume auswählen ", um ein Unity-Katalogvolume mit unterstützten Dateitypen auszuwählen.
    • Klicken Sie auf "Tabelle auswählen", um eine Unity-Katalogtabelle auszuwählen, die Textdaten enthält.
  2. Wenn Sie eine Tabelle auswählen, wählen Sie die Spalte aus, aus der die zu extrahierenden Daten enthalten sind. Sie müssen eine Spalte mit einem unterstützten Typ auswählen, z. B. STRING oder VARIANT, bevor Sie fortfahren können. Wenn die Tabelle keine unterstützten Spalten enthält, wählen Sie eine andere Tabelle aus.

  3. Klicken Sie auf "Agent erstellen". Diese Schaltfläche ist erst aktiviert, nachdem Sie eine gültige Datenquelle und für eine Tabelle eine unterstützte Spalte ausgewählt haben.

Schritt 2. Konfigurieren und Verfeinern des Extraktionsschemas

Nachdem Die Informationsextraktion Ihre Daten verarbeitet hat, konfigurieren und verfeinern Sie die Daten, die Sie aus Ihren Dokumenten extrahieren möchten.

  1. Definieren Sie unter "Konfiguration" Ihr Extraktionsschema. Dafür stehen verschiedene Möglichkeiten zur Verfügung:

    • Geben Sie natürliche Sprache ein, die die Informationen beschreibt, die Sie extrahieren möchten, und klicken Sie auf "Schema generieren". Die Informationsextraktion generiert automatisch ein JSON-Schema mit Feldnamen und Definitionen für Sie. Bearbeiten Sie diese Beschreibungen nach Bedarf.
    • Alternativ können Sie auf "Oder, manuell definieren" klicken, um das Schema manuell festzulegen:
      1. Klicken Sie auf "Feld hinzufügen".
      2. Geben Sie Ihren Feldnamen, -typ und -beschreibung ein.
      3. Klicken Sie auf Bestätigen.
      4. Wiederholen Sie diesen Vorgang für jedes Feld, das Sie extrahieren möchten.
      5. Klicken Sie auf "Extraktion speichern und ausführen".
    • Sie können auch auf JSON klicken, um das JSON-Schema direkt zu bearbeiten. Klicken Sie nach Abschluss auf "Änderungen übernehmen" .

    Jedes Mal, wenn Sie Ihr Schema aktualisieren und auf "Extraktion speichern und ausführen" klicken, aktualisiert die Informationsextraktion den Extraktions-Agent, führt die Extraktion aus und zeigt die Ergebnisse für jede Eingabe an.

  2. Überprüfen Sie auf der linken Seite das analysierte Dokument und die Extraktion des Agents. Iterieren Sie die Extraktionsergebnisse auf zwei Arten. Geben Sie zunächst Feedback in natürlicher Sprache für eine oder mehrere Eingaben ein, wodurch Ihre Beschreibungen automatisch angepasst werden, wenn Sie Speichern und Extraktion ausführen drücken. Zweitens sollten Sie die Schemabeschreibungen manuell überarbeiten, die wirksam werden, wenn Sie die Extraktion speichern und ausführen.

  3. Verwenden Sie Versionen zum Vergleichen oder Wiederherstellen einer vorherigen Konfiguration. Klicken Sie auf "Versionen", und klicken Sie dann auf " Vergleichen ", um die Schemadefinition einer früheren Version mit der aktuellen Version zu vergleichen. Klicken Sie auf "Wiederherstellen ", um eine frühere Version wiederherzustellen.

Schritt 3: Verwenden Sie Ihren Extraktionsagenten

Nachdem Sie mit der Leistung des Agents zufrieden sind, verwenden Sie den Agent, um Informationen zu extrahieren.

Klicken Sie oben rechts auf "Agent verwenden ". Sie können zwischen Folgendem auswählen:

  • Führen Sie in SQL aus, um den Agent zum Extrahieren von Informationen aus allen Daten zu verwenden. Dadurch wird eine SQL-Abfrage geöffnet, die ai_extract verwendet, um Informationen aus Ihrem Volume oder Ihrer Tabelle mithilfe des definierten Schemas zu extrahieren. Weitere Informationen zur Verwendung ai_extract in SQL-Abfragen finden Sie unter ai_extract Funktion.
  • Erstellen Sie eine Spark Declarative Pipeline , um eine ETL-Pipeline bereitzustellen, die in geplanten Intervallen ausgeführt wird, um Ihren Agent für neue Daten aufzurufen. Dadurch werden Lakeflow Spark Declarative Pipelines erstellt, die eine Streamingtabelle mit Ihren extrahierten Daten aktualisieren. Sie können den Zeitplan der Pipeline so konfigurieren, dass sie ausgeführt wird, wenn neue Daten eintreffen. Weitere Informationen zu Lakeflow Spark Declarative Pipelines finden Sie unter Lakeflow Spark Declarative Pipelines.

Einschränkungen

  • Informationsextraktions-Agents weisen eine maximale Kontextlänge von 128k-Token auf.
  • Union-Schematypen werden nicht unterstützt.