Benutzerdefinierte Dokumentintelligenzmodelle

Dieser Inhalt gilt für:Häkchenv4.0 (GA) | Frühere Versionen:blaues Häkchenv3.1 (GA)rotes Häkchenv3.0 (wird eingestellt)rotes Häkchenv2.1 (wird eingestellt)

Dieser Inhalt gilt für:checkmarkv3.1 (GA) | Neueste Version:purple-checkmarkv4.0 (GA) | Frühere Versionen:blue-checkmarkv3.0blue-checkmarkv2.1

Dieser Inhalt gilt für:red-checkmarkv3.0 (wird eingestellt) | Neueste Versionen:purple-checkmarkv4.0 (GA)purple-checkmarkv3.1 | Vorherige Version:blue-checkmarkv2.1 (wird eingestellt)

Dieser Inhalt gilt für:red-checkmarkv2.1 | Neueste Version:blue-checkmarkv4.0 (GA)

Document Intelligence verwendet erweiterte Maschinelle Lerntechnologie, um Dokumente zu identifizieren, Informationen aus Formularen und Dokumenten zu erkennen und zu extrahieren und die extrahierten Daten in einer strukturierten JSON-Ausgabe zurückzugeben. Mit Document Intelligence können Sie Dokumentanalysemodelle verwenden, sei es vordefinierte/vortrainierte Modelle oder von Ihnen trainierte, eigenständige benutzerdefinierte Modelle.

Benutzerdefinierte Modelle enthalten jetzt benutzerdefinierte Klassifizierungsmodelle für Szenarien, in denen Sie den Dokumenttyp identifizieren müssen, bevor Sie das Extraktionsmodell aufrufen. Klassifizierermodelle stehen ab der 2023-07-31 (GA) API zur Verfügung. Ein Klassifizierungsmodell kann mit einem benutzerdefinierten Extraktionsmodell kombiniert werden, um Felder aus Formularen und Dokumenten zu analysieren und zu extrahieren, die für Ihr Unternehmen spezifisch sind. Eigenständige benutzerdefinierte Extraktionsmodelle können kombiniert werden, um zusammengesetzte Modelle zu erstellen.

Benutzerdefinierte Dokumentmodelltypen

Benutzerdefinierte Dokumentmodelle können eines von zwei Typen, benutzerdefinierten Vorlagen oder benutzerdefinierten Formularen und benutzerdefinierten neuralen oder benutzerdefinierten Dokumentmodellen sein. Der Beschriftungs- und Schulungsprozess für beide Modelle ist identisch, aber die Modelle unterscheiden sich wie folgt:

Benutzerdefinierte Extraktionsmodelle

Um ein benutzerdefiniertes Extraktionsmodell zu erstellen, bezeichnen Sie ein Dataset von Dokumenten mit den Werten, die Extrahiert werden sollen, und trainieren Sie das Modell für das bezeichnete Dataset. Sie benötigen nur fünf Beispiele für denselben Formular- oder Dokumenttyp, um zu beginnen.

Benutzerdefiniertes neurales Modell

Wichtig

Die Dokumentintelligenz-API v4.0 2024-11-30 (GA) unterstützt benutzerdefinierte neuronale Modelle für überlappende Felder, Signaturerkennung und Konfidenz auf Tabellen-, Zeilen- und Zellebene.

Das benutzerdefinierte neurale Modell (benutzerdefiniertes Dokument) verwendet Deep Learning-Modelle und Basismodell, das auf einer großen Sammlung von Dokumenten trainiert wurde. Dieses Modell wird dann fein abgestimmt oder an Ihre Daten angepasst, wenn Sie das Modell mit einem beschrifteten Dataset trainieren. Benutzerdefinierte neurale Modelle unterstützen das Extrahieren von Schlüsseldatenfeldern aus strukturierten, halbstrukturierten und unstrukturierten Dokumenten. Wenn Sie zwischen den beiden Modelltypen wählen, beginnen Sie mit einem neuralen Modell, um festzustellen, ob es Ihren funktionalen Anforderungen entspricht. Mit V4.0 unterstützt das benutzerdefinierte neurale Modell Signaturerkennung, Tabellenvertrauenssicherheit und überlappende Felder. Weitere Informationen zu benutzerdefinierten Dokumentmodellen finden Sie unter neuralen Modellen .

Benutzerdefiniertes Vorlagenmodell

Die benutzerdefinierte Vorlage oder das benutzerdefinierte Formularmodell basiert auf einer konsistenten visuellen Vorlage, um die beschrifteten Daten zu extrahieren. Abweichungen in der visuellen Struktur Ihrer Dokumente wirken sich auf die Genauigkeit Ihres Modells aus. Strukturierte Formulare wie Fragebögen oder Anwendungen sind Beispiele für konsistente visuelle Vorlagen.

Ihr Schulungssatz besteht aus strukturierten Dokumenten, bei denen die Formatierung und das Layout statisch und konstant von einer Dokumentinstanz zur nächsten sind. Benutzerdefinierte Vorlagenmodelle unterstützen Schlüsselwertpaare, Auswahlmarken, Tabellen, Signaturfelder und Regionen. Vorlagenmodelle können mit Dokumenten in jeder der unterstützten Sprachen trainiert werden. Weitere Informationen finden Sie unterbenutzerdefinierte Vorlagenmodelle.

Wenn die Sprache Ihrer Dokumente und Extraktionsszenarien benutzerdefinierte neurale Modelle unterstützt, empfehlen wir, benutzerdefinierte neurale Modelle über Vorlagenmodelle für eine höhere Genauigkeit zu verwenden.

Tipp

Um zu bestätigen, dass Ihre Schulungsdokumente eine konsistente visuelle Vorlage darstellen, entfernen Sie alle vom Benutzer eingegebenen Daten aus jedem Formular in der Gruppe. Wenn die leeren Formulare in der Darstellung identisch sind, stellen sie eine konsistente visuelle Vorlage dar.

Weitere Informationen finden Sie unterInterpretieren und Verbessern der Genauigkeit und Zuverlässigkeit für benutzerdefinierte Modelle.

Eingabeanforderungen

  • Für optimale Ergebnisse stellen Sie ein klares Foto oder einen qualitativ hochwertigen Scan pro Dokument bereit.

  • Unterstützte Dateiformate:

    Modell PDF Bild:
    jpeg/jpg, , , pngbmptiffheif
    Microsoft Office:
    Word (docx), Excel (xlsx), PowerPoint (pptx)
    Lesen
    Gestaltung
    Allgemeines Dokument
    Vorkonfiguriert
    Benutzerdefinierte Extraktion
    Benutzerdefinierte Klassifizierung

    ✱ Microsoft Office Dateien werden derzeit für andere Modelle oder Versionen nicht unterstützt.

  • Für PDF und TIFF können bis zu 2.000 Seiten verarbeitet werden (mit einem kostenlosen Abonnement werden nur die ersten beiden Seiten verarbeitet).

  • Die Dateigröße für die Analyse von Dokumenten ist 500 MB für die kostenpflichtige Stufe (S0) und 4 MB für die kostenlose Stufe (F0) vorgesehen.

  • Bildabmessungen müssen zwischen 50 x 50 Pixel und 10.000 Pixel x 10.000 Pixel betragen.

  • Wenn Ihre PDF-Dateien kennwortgesperrt sind, müssen Sie die Sperre vor der Übermittlung entfernen.

  • Die mindeste Höhe des zu extrahierenden Texts beträgt 12 Pixel für ein Bild von 1024 x 768 Pixeln. Diese Abmessung entspricht etwa einem Text mit 8 Punkt bei 150 Punkten pro Zoll.

  • Für benutzerdefinierte Modellschulungen beträgt die maximale Anzahl von Seiten für Schulungsdaten 500 für das benutzerdefinierte Vorlagenmodell und 50.000 für das benutzerdefinierte neurale Modell.

  • Bei der Schulung des benutzerdefinierten Extraktionsmodells beträgt die Gesamtgröße der Trainingsdaten 50 MB für das Vorlagenmodell und 1 GB für das neurale Modell.

  • Bei der Schulung des benutzerdefinierten Klassifizierungsmodells beträgt 1 GB die Gesamtgröße von Schulungsdaten maximal 10.000 Seiten.

Optimale Schulungsdaten

Schulungseingabedaten bilden die Grundlage für jedes Machine Learning-Modell. Es bestimmt die Qualität, Genauigkeit und Leistung des Modells. Daher ist es wichtig, die bestmöglichen Schulungseingabedaten für Ihr Document Intelligence-Projekt zu erstellen. Wenn Sie das benutzerdefinierte Dokumentintelligenzmodell verwenden, stellen Sie Eigene Schulungsdaten bereit. Hier sind einige Tipps, mit denen Sie Ihre Modelle effektiv trainieren können:

  • Verwenden Sie nach Möglichkeit textbasierte anstelle bildbasierter PDF-Dateien. Eine Möglichkeit zum Identifizieren eines Bilds*basierter PDF-Datei besteht darin, einen bestimmten Text im Dokument auszuwählen. Wenn Sie nur das gesamte Bild des Texts markieren können, ist das Dokument bildbasiert, nicht textbasiert.

  • Organisieren Sie Ihre Schulungsdokumente mithilfe eines Unterordners für jedes Format (JPEG/JPG, PNG, BMP, PDF oder TIFF).

  • Verwenden Sie Formulare, bei denen alle verfügbaren Felder ausgefüllt sind.

  • Verwenden Sie Formulare mit unterschiedlichen Werten in jedem Feld.

  • Verwenden Sie ein größeres Dataset (mehr als fünf Schulungsdokumente), wenn Ihre Bilder von geringer Qualität sind.

  • Ermitteln Sie, ob Sie ein einzelnes Modell oder mehrere Modelle verwenden müssen, die in ein einzelnes Modell zusammengesetzt sind.

  • Erwägen Sie das Segmentieren Ihres Datasets in Ordner, wobei jeder Ordner eine eindeutige Vorlage ist. Trainieren Sie ein Modell pro Ordner, und verfassen Sie die resultierenden Modelle in einem einzelnen Endpunkt. Die Modellgenauigkeit kann verringert werden, wenn Sie verschiedene Formate mit einem einzelnen Modell analysiert haben.

  • Ziehen Sie das Segmentieren Ihres Datasets in Betracht, um mehrere Modelle zu trainieren, wenn Ihr Formular Variationen mit Formaten und Seitenumbrüchen aufweist. Benutzerdefinierte Formulare basieren auf einer konsistenten visuellen Vorlage.

  • Stellen Sie sicher, dass Sie über ein ausgewogenes Dataset verfügen, indem Sie Formate, Dokumenttypen und Struktur berücksichtigen.

Buildmodus

Der build custom model Vorgang fügt Unterstützung für die Vorlage und neurale benutzerdefinierte Modelle hinzu. In früheren Versionen der REST-API und Clientbibliotheken wird nur ein einzelner Buildmodus unterstützt, der jetzt als Vorlagenmodus bezeichnet wird.

  • Vorlagenmodelle akzeptieren nur Dokumente, die dieselbe grundlegende Seitenstruktur aufweisen – eine einheitliche visuelle Darstellung – oder dieselbe relative Positionierung von Elementen innerhalb des Dokuments.

  • Neurale Modelle unterstützen Dokumente, die dieselben Informationen haben, aber unterschiedliche Seitenstrukturen. Beispiele für diese Dokumente sind US-W2-Formulare, die dieselben Informationen enthalten, sich jedoch im Erscheinungsbild von Unternehmen zu Unternehmen unterscheiden.

Diese Tabelle enthält Links zu den SDK-Referenzen und Codebeispielen für die Programmiersprache für den Buildmodus in GitHub:

Programmiersprache SDK-Referenz Codebeispiel
C#/.NET DocumentBuildMode Struct Sample_BuildCustomModelAsync
Java DocumentBuildMode-Klasse BuildDocumentModel
Javascript DocumentBuildMode-Typ buildModel.js
Python DocumentBuildMode Enum

Modell-Eigenschaften vergleichen

In der folgenden Tabelle werden benutzerdefinierte Vorlagen und benutzerdefinierte neurale Features verglichen:

Feature Benutzerdefinierte Vorlage (Formular) Benutzerdefiniertes neurales (Dokument)
Dokumentstruktur Vorlage, Formular und Struktur Strukturiert, halbstrukturiert und unstrukturiert
Schulungszeit 1 bis 5 Minuten 30 Minuten bis 12 Stunden*
Datenextraktion Schlüsselwertpaare, Tabellen, Auswahlmarkierungen, Koordinaten und Signaturen Schlüsselwertpaare, Auswahlzeichen und Tabellen
Überlappende Felder Nicht unterstützt Unterstützt
Dokumentvariationen Erfordert ein Modell pro Variation Verwendet ein einzelnes Modell für alle Variationen.
Sprachunterstützung Benutzerdefinierte Vorlage für die Sprachunterstützung Sprachunterstützung für benutzerdefinierte neuronale Netze

*-Die Standardschulungszeit beträgt 30 Minuten. Aktivieren Sie das kostenpflichtige Training, um ein Modell länger als 30 Minuten zu trainieren. Weitere Details finden Sie unter Trainingsunterstützung für benutzerdefinierte neuronale Netze

Benutzerdefiniertes Klassifizierungsmodell

Die Dokumentklassifizierung ist ein neues Szenario, das von document Intelligence mit der 2023-07-31 V3.1 GA-API unterstützt wird. Die Dokumentklassifizierer-API unterstützt Klassifizierungs- und Aufteilungsszenarien. Trainieren Sie ein Klassifizierungsmodell, um die verschiedenen Typen von Dokumenten zu identifizieren, die Ihre Anwendung unterstützt. Die Eingabedatei für das Klassifizierungsmodell kann mehrere Dokumente enthalten und jedes Dokument innerhalb eines zugeordneten Seitenbereichs klassifiziert. Weitere Informationen finden Sie unterbenutzerdefinierte Klassifizierungsmodelle .

Hinweis

Das v4.0 2024-11-30 (GA) Dokumentklassifizierungsmodell unterstützt Office-Dokumenttypen für die Klassifizierung. Diese API-Version führt auch eine inkrementelle Schulung für das Klassifizierungsmodell ein.

Benutzerdefinierte Modelltools

Document Intelligence v3.1 und höher unterstützen die folgenden Tools, Anwendungen und Bibliotheken, Programme und Bibliotheken:

Feature Ressourcen Modell-ID
Benutzerdefiniertes Modell Document Intelligence Studio
REST API
C#SDK
Python SDK
custom-model-id

Lebenszyklus des benutzerdefinierten Modells

Der Lebenszyklus eines benutzerdefinierten Modells hängt von der API-Version ab, die zum Trainieren verwendet wird. Wenn es sich bei der API-Version um eine allgemeine Verfügbarkeitsversion (GA) handelt, weist das benutzerdefinierte Modell denselben Lebenszyklus wie diese Version auf. Das benutzerdefinierte Modell ist für die Ableitung nicht verfügbar, wenn die API-Version veraltet ist. Wenn es sich bei der API-Version um eine Vorschauversion handelt, hat das benutzerdefinierte Modell denselben Lebenszyklus wie die Vorschauversion der API.

Document Intelligence v2.1 unterstützt die folgenden Tools, Anwendungen und Bibliotheken:

Hinweis

Benutzerdefinierte Modelltypen benutzerdefinierte neurale und benutzerdefinierte Vorlage sind mit Document Intelligence-Version v3.1- und v3.0-APIs verfügbar.

Feature Ressourcen
Benutzerdefiniertes Modell Tool zur Etikettierung von Dokumentenintelligenz
REST API
Client-Bibliothek-SDK
Docker-Container "Document-Intelligence"

Erstellen eines benutzerdefinierten Modells

Extrahieren Sie Daten aus Ihren spezifischen oder eindeutigen Dokumenten mithilfe von benutzerdefinierten Modellen. Sie benötigen die folgenden Ressourcen:

  • Ein Azure-Abonnement. Sie können eine kostenlos erstellen.

  • Eine Document Intelligence-Instanz im Azure-Portal. Sie können das kostenlose Preisniveau (F0) verwenden, um den Dienst zu testen. Nachdem Ihre Ressource bereitgestellt wurde, wählen Sie "Zur Ressource wechseln " aus, um Ihren Schlüssel und Endpunkt abzurufen.

    Screenshot, der die Schlüssel und den Endpunktspeicherort im Azure-Portal zeigt.

Beispieletikettierungswerkzeug

Tipp

  • Für eine verbesserte Oberfläche und erweiterte Modellqualität probieren Sie die Document Intelligence v3.0 Studio aus.
  • Das v3.0 Studio unterstützt jedes Modell, das mit v2.1 bezeichneten Daten trainiert wurde.
  • Detaillierte Informationen zur Migration von v2.1 zu v3.0 finden Sie im API-Migrationshandbuch.
  • Sehen Sie sich unsere SDK-Schnellstarts zur REST API oder C#, Java, JavaScript oder Python an, um mit der Arbeit mit der Version v3.0 zu beginnen.
  • Das Tool für Dokumentintelligenz-Beispielbezeichnungen ist ein Open Source Tool, mit dem Sie die neuesten Features der Funktionen der Dokumentintelligenz und der optischen Zeichenerkennung (OCR) testen können.

  • Probieren Sie den Schnellstart des Tools 'Beispielkennzeichnung' aus, um mit dem Erstellen und Verwenden eines benutzerdefinierten Modells zu beginnen.

Document Intelligence Studio

Hinweis

Document Intelligence Studio ist mit v3.1- und v3.0-APIs verfügbar.

  1. Wählen Sie auf der Startseite von Document Intelligence Studiobenutzerdefinierte Extraktionsmodelle aus.

  2. Wählen Sie unter "Meine Projekte" die Option "Projekt erstellen" aus.

  3. Füllen Sie die Projektdetailsfelder aus.

  4. Konfigurieren Sie die Dienstressource, indem Sie Ihr Speicherkonto und Den BLOB-Container hinzufügen, um Ihre Schulungsdatenquelle zu verbinden.

  5. Überprüfen und erstellen Sie Ihr Projekt.

  6. Fügen Sie Ihre Beispieldokumente zum Bezeichnen, Erstellen und Testen Ihres benutzerdefinierten Modells hinzu.

Eine ausführliche exemplarische Vorgehensweise zum Erstellen Ihres ersten benutzerdefinierten Extraktionsmodells finden Sie unterErstellen eines benutzerdefinierten Extraktionsmodells.

Zusammenfassung der benutzerdefinierten Modellextraktion

In dieser Tabelle werden die unterstützten Datenextraktionsbereiche verglichen:

Modell Formularfelder Auswahlmarkierungen Strukturierte Felder (Tabellen) Signatur Regionsbezeichnung Überlappende Felder
Benutzerdefinierte Vorlage n/a
Benutzerdefiniertes neuronales Modell *

Tabellensymbole:
✔ — Unterstützt
**n/a – Zurzeit nicht verfügbar;
*-Verhält sich je nach Modell unterschiedlich. Bei Vorlagenmodellen werden synthetische Daten zur Schulungszeit generiert. Bei neuralen Modellen wird vorhandener Text, der in der Region erkannt wird, ausgewählt.

Tipp

Um zwischen den beiden Modelltypen zu wählen, beginnen Sie mit einem benutzerdefinierten neuralen Modell, wenn es Ihren funktionalen Anforderungen entspricht. Weitere Informationen zu benutzerdefinierten neuronalen Modellen finden Sie unter Benutzerdefinierte neuronale Modelle.

Optionen für die Entwicklung benutzerdefinierter Modelle

In der folgenden Tabelle werden die Features beschrieben, die mit den zugehörigen Tools und Clientbibliotheken zur Verfügung stehen. Stellen Sie als bewährte Methode sicher, dass Sie die hier aufgeführten kompatiblen Tools verwenden.

Dokumenttyp REST-API SDK Beschriftungs- und Testmodelle
Benutzerdefinierte Vorlage v 4.0 v3.1 v3.0 Dokumentintelligenz 3.1 Document Intelligence SDK Document Intelligence Studio
Benutzerdefiniertes neuronales Netz v4.0 v3.1 v3.0 Dokumentintelligenz 3.1 Document Intelligence SDK Document Intelligence Studio
Benutzerdefiniertes Formular v2.1 Document Intelligence 2.1 GA-API Document Intelligence SDK Beispielwerkzeug für Kennzeichnung

Hinweis

Benutzerdefinierte Vorlagenmodelle, die mit der 3.0-API trainiert wurden, haben einige Verbesserungen gegenüber der 2.1-API, die sich aus Verbesserungen am OCR-Modul ergibt. Datasets, die zum Trainieren eines benutzerdefinierten Vorlagenmodells mit der 2.1-API verwendet werden, können weiterhin zum Trainieren eines neuen Modells mit der 3.0-API verwendet werden.

  • Ein deutliches Foto oder ein qualitativ hochwertiger Scan pro Dokument sollte für optimale Ergebnisse bereitgestellt werden.

  • Unterstützte Dateiformate sind JPEG/JPG, PNG, BMP, TIFF und PDF (eingebettet oder gescannt). Text eingebettete PDF-Dateien sind am besten geeignet, um die Möglichkeit von Fehlern bei der Zeichenextraktion und -position zu beseitigen.

  • PDF- und TIFF-Dateien können bis zu 2.000 Seiten verarbeitet werden. Bei einem kostenlosen Tarifabonnement werden nur die ersten beiden Seiten verarbeitet.

  • Die Dateigröße muss kleiner als 500 MB für die kostenpflichtige Stufe (S0) und 4 MB für die kostenlose Stufe (F0) sein.

  • Bildabmessungen müssen zwischen 50 x 50 Pixel und 10.000 x 10.000 Pixel betragen.

  • PDF-Größe ist bis zu 17 Zoll x 17 Zoll, entsprechend Legal-Format oder A3-Papierformat oder kleiner.

  • Die Gesamtgröße der Schulungsdaten beträgt 500 Seiten oder weniger.

  • PDF-Dateien, die kennwortgesperrt sind, müssen vor der Übermittlung die Kennwortsperre entfernt haben.

    Tipp

    Schulungsdaten:

    • Verwenden Sie nach Möglichkeit textbasierte PDF-Dokumente anstelle bildbasierter Dokumente. Gescannte PDF-Dateien werden als Bilder behandelt.
    • Geben Sie nur eine einzelne Instanz des Formulars pro Dokument an.
    • Verwenden Sie für ausgefüllte Formulare Beispiele, in denen alle felder ausgefüllt sind.
    • Verwenden Sie Formulare mit unterschiedlichen Werten in jedem Feld.
    • Wenn Ihre Formularbilder von geringerer Qualität sind, verwenden Sie ein größeres Dataset. Verwenden Sie beispielsweise 10 bis 15 Bilder.

Unterstützte Sprachen und Gebietsschemas

Eine vollständige Liste der unterstützten Sprachen finden Sie auf unserer Seite "Sprachunterstützung – benutzerdefinierte Modelle".

Nächste Schritte