Was ist das Dokumentintelligenz-Layoutmodell?

Dieser Inhalt gilt für:Häkchenv4.0 (GA) | Frühere Versionen:blaues Häkchenv3.1 (GA)rotes Häkchenv3.0 (wird eingestellt)rotes Häkchenv2.1 (wird eingestellt)

Das Layoutmodell Azure Document Intelligence in Foundry Tools ist eine erweiterte Dokumentanalyse-API basierend auf maschinellem Lernen. Das Modell ist in der Document Intelligence-Cloud verfügbar. Sie können es verwenden, um Dokumente in verschiedenen Formaten zu übernehmen und strukturierte Datendarstellungen der Dokumente zurückzugeben. Das Modell kombiniert eine verbesserte Version der leistungsstarken Funktionen für die optische Zeichenerkennung (OCR) mit Deep Learning-Modellen zum Extrahieren von Text, Tabellen, Auswahlzeichen und Dokumentstruktur.

Layoutanalyse der Dokumentstruktur

Die Layoutanalyse der Dokumentstruktur ist der Prozess der Analyse eines Dokuments, um interessante Bereiche und ihre Beziehungen zu extrahieren. Ziel ist es, Text- und Strukturelemente von der Seite zu extrahieren, um bessere Semantikverständnismodelle zu erstellen. Es gibt zwei Arten von Rollen in einem Dokumentlayout:

  • Geometrische Rollen: Text, Tabellen, Abbildungen und Auswahlzeichen sind Beispiele für geometrische Rollen.
  • Logische Rollen: Titel, Überschriften und Fußzeilen sind Beispiele für logische Rollen von Texten.

Die folgende Abbildung zeigt die typischen Komponenten in einer Abbildung einer Beispielseite.

Abbildung, die ein Beispiel für ein Dokumentlayout zeigt.

Entwicklungsoptionen

Document Intelligence v4.0: 2024-11-30 (GA) unterstützt die folgenden Tools, Anwendungen und Bibliotheken.

Feature Ressourcen Modell-ID
Layoutmodell Document Intelligence Studio
REST-API
C#SDK
Python SDK
Java SDK
JavaScript SDK
prebuilt-layout

Unterstützte Sprachen

Eine vollständige Liste der unterstützten Sprachen finden Sie unter Sprachunterstützung: Dokumentanalysemodelle.

Unterstützte Dateitypen

Document Intelligence v4.0: 2024-11-30 (GA)-Layoutmodell unterstützt die folgenden Dateiformate:

Modell PDF Bild:
JPEG/JPG, PNG, BMP, TIFF, HEIF
Office:
Word (DOCX), Excel (XLS), PowerPoint (PPTX), HTML
Gestaltung

Eingabeanforderungen

  • Fotos und Scans: Um optimale Ergebnisse zu erzielen, stellen Sie ein klares Foto oder eine qualitativ hochwertige Überprüfung pro Dokument bereit.
  • PDFs und TIFFs: Für PDFs und TIFFs können bis zu 2.000 Seiten verarbeitet werden. (Bei einem kostenlosen Abonnement werden nur die ersten beiden Seiten verarbeitet.)
  • Kennwortsperrungen: Wenn Ihre PDF-Dateien kennwortgesperrt sind, müssen Sie die Sperre vor der Übermittlung entfernen.
  • Dateigröße: Die Dateigröße für die Analyse von Dokumenten beträgt 500 MB für die kostenpflichtige Stufe (S0) und 4 MB für die kostenlose Stufe (F0).
  • Bildabmessungen: Die Bildabmessungen müssen zwischen 50 Pixel x 50 Pixel und 10.000 Pixel x 10.000 Pixel betragen.
  • Texthöhe: Die minimale Höhe des zu extrahierenden Texts beträgt 12 Pixel für ein Bild von 1024 x 768 Pixeln. Diese Dimension entspricht einem 8-Punkt-Text bei 150 Punkten pro Zoll.
  • Schulung für benutzerdefinierte Modelle: Die maximale Anzahl von Seiten für Schulungsdaten beträgt 500 für das benutzerdefinierte Vorlagenmodell und 50.000 für das benutzerdefinierte neurale Modell.
  • Schulung des benutzerdefinierten Extraktionsmodells: Die Gesamtgröße der Schulungsdaten beträgt 50 MB für das Vorlagenmodell und 1 GB für das neurale Modell.
  • Schulung des benutzerdefinierten Klassifizierungsmodells: Die Gesamtgröße der Schulungsdaten beträgt 1 GB mit maximal 10.000 Seiten. Für 2024-11-30 (GA) beträgt die Gesamtgröße der Schulungsdaten 2 GB mit maximal 10.000 Seiten.
  • Office-Dateitypen (DOCX, XLSX, PPTX):Die maximale Zeichenfolgenlängenbeschränkung beträgt 8 Millionen Zeichen.

Weitere Informationen zur Modellnutzung, zu Kontingenten und Dienstgrenzwerten finden Sie unter Dienstgrenzwerte.

Erste Schritte mit dem Layoutmodell

Erfahren Sie, wie Daten, einschließlich Text, Tabellen, Tabellenüberschriften, Auswahlzeichen und Strukturinformationen, mithilfe von Dokumentintelligenz aus Dokumenten extrahiert werden. Sie benötigen die folgenden Ressourcen:

  • Ein Azure-Abonnement. Sie können eine kostenlos erstellen.

  • Eine Document Intelligence-Instanz im Azure-Portal. Sie können das kostenlose Preisniveau (F0) verwenden, um den Dienst zu testen. Nachdem Ihre Ressource bereitgestellt wurde, wählen Sie "Zur Ressource wechseln " aus, um Ihren Schlüssel und Endpunkt abzurufen.

    Screenshot, der die Schlüssel und den Endpunktspeicherort im Azure-Portal zeigt.

Nachdem Sie Ihren Schlüssel und Endpunkt abgerufen haben, verwenden Sie die folgenden Entwicklungsoptionen, um Ihre Document Intelligence-Anwendungen zu erstellen und bereitzustellen.

Datenextraktion

Das Layoutmodell extrahiert Strukturelemente aus Ihren Dokumenten. Die folgenden Strukturelemente werden im restlichen Teil dieses Artikels beschrieben, zusammen mit Anleitungen zum Extrahieren dieser Elemente aus der Dokumenteingabe:

Führen Sie die Beispiellayoutdokumentanalyse in Document Intelligence Studio aus. Wechseln Sie dann zur Registerkarte "Ergebnisse", und greifen Sie auf die vollständige JSON-Ausgabe zu.

Screenshot: Ergebnisse auf der Registerkarte „JSON-Ausgabe“ in Dokument Intelligenz Studio

Seiten

Die pages Auflistung ist eine Liste von Seiten innerhalb des Dokuments. Jede Seite wird sequenziell innerhalb des Dokuments dargestellt und enthält den Ausrichtungswinkel, der angibt, ob die Seite gedreht wird, und die Breite und Höhe (Dimensionen in Pixeln). Die Seiteneinheiten in der Modellausgabe werden berechnet, wie in der folgenden Tabelle dargestellt.

Dateiformat Berechnete Seiteneinheit Gesamtseiten
Bilder (JPEG/JPG, PNG, BMP, HEIF) Jedes Bild = 1 Seiteneinheit. Gesamtanzahl der Bilder
PDF Jede Seite in der PDF = 1 Seiteneinheit. Gesamtanzahl der Seiten in der PDF-Datei
TIFF Jedes Bild in der TIFF = 1 Seiteneinheit. Gesamtbilder im TIFF
Word-Dokument (DOCX) Bis zu 3.000 Zeichen = 1 Seiteneinheit. Eingebettete oder verknüpfte Bilder werden nicht unterstützt. Gesamtseiten mit bis zu 3.000 Zeichen pro Seite
Excel (XLSX) Jedes Arbeitsblatt = 1 Seiteneinheit. Eingebettete oder verknüpfte Bilder werden nicht unterstützt. Gesamtanzahl der Arbeitsblätter
PowerPoint (PPTX) Jede Folie = 1 Seiteneinheit. Eingebettete oder verknüpfte Bilder werden nicht unterstützt. Gesamtanzahl der Folien
HTML Bis zu 3.000 Zeichen = 1 Seiteneinheit. Eingebettete oder verknüpfte Bilder werden nicht unterstützt. Gesamtseiten mit bis zu 3.000 Zeichen pro Seite
# Analyze pages.
for page in result.pages:
print(f"----Analyzing layout from page #{page.page_number}----")
print(f"Page has width: {page.width} and height: {page.height}, measured with unit: {page.unit}")

Extrahieren ausgewählter Seiten

Verwenden Sie für große mehrseitige Dokumente den pages Abfrageparameter, um bestimmte Seitenzahlen oder Seitenbereiche für die Textextraktion anzugeben.

Absätze

Das Layoutmodell extrahiert alle identifizierten Textblöcke in der paragraphs Auflistung als Objekt der obersten Ebene unter analyzeResults. Jeder Eintrag in dieser Sammlung stellt einen Textblock dar und enthält den extrahierten Text als content und die begrenzenden Koordinaten polygon. Die spans Informationen weisen auf das Textfragment innerhalb der Eigenschaft der obersten Ebene content hin, die den vollständigen Text aus dem Dokument enthält.


"paragraphs": [
    {
        "spans": [],
        "boundingRegions": [],
        "content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
    }
]

Absatzrollen

Die neue Seitenobjekterkennung basierend auf maschinellem Lernen extrahiert logische Rollen wie Titel, Abschnittsüberschriften, Seitenkopfzeilen, Seitenfußzeilen und vieles mehr. Das Dokumentintelligenz-Layoutmodell weist bestimmten Textblöcken in der paragraphs-Sammlung ihre jeweilige, vom Modell vorhergesagte Rolle oder Typ zu.

Es ist am besten, Absatzrollen mit unstrukturierten Dokumenten zu verwenden, um das Layout des extrahierten Inhalts für eine umfangreichere semantische Analyse zu verstehen. Die folgenden Absatzrollen werden unterstützt.

Vorhergesagte Rolle Beschreibung Unterstützte Dateitypen
title Die Hauptüberschriften auf der Seite PDF, Bild, DOCX, PPTX, XLSX, HTML
sectionHeading Eine oder mehrere Unterüberschriften auf der Seite PDF, Bild, DOCX, XLSX, HTML
footnote Text am unteren Rand der Seite PDF, Bild
pageHeader Text am oberen Rand der Seite PDF, Bild, DOCX
pageFooter Text am unteren Rand der Seite PDF, Bild, DOCX, PPTX, HTML
pageNumber Seitenzahl PDF, Bild
{
    "paragraphs": [
                {
                    "spans": [],
                    "boundingRegions": [],
                    "role": "title",
                    "content": "NEWS TODAY"
                },
                {
                    "spans": [],
                    "boundingRegions": [],
                    "role": "sectionHeading",
                    "content": "Mirjam Nilsson"
                }
    ]
}

Text, Zeilen und Wörter

Das Dokumentlayoutmodell in Document Intelligence extrahiert Druck- und handschriftlichen Text als lines und words. Die styles-Sammlung enthält alle handschriftlichen Formatvorlagen für Zeilen (sofern erkannt) sowie die Spannen, die auf den zugeordneten Text verweisen. Dieses Feature gilt für unterstützte handschriftliche Sprachen.

Für Microsoft Word, Excel, PowerPoint und HTML extrahiert das Layoutmodell Document Intelligence v4.0 2024-11-30 (GA) den gesamten eingebetteten Text wie folgt. Texte werden als Wörter und Absätze extrahiert. Eingebettete Bilder werden nicht unterstützt.

# Analyze lines.
if page.lines:
    for line_idx, line in enumerate(page.lines):
    words = get_words(page, line)
    print(
        f"...Line # {line_idx} has word count {len(words)} and text '{line.content}' "
        f"within bounding polygon '{line.polygon}'"
    )

    # Analyze words.
    for word in words:
        print(f"......Word '{word.content}' has a confidence of {word.confidence}")

Handschriftlicher Stil für Textzeilen

Die Antwort enthält, ob sich jede Textzeile in einem handschriftlichen Stil befindet oder nicht, zusammen mit einem Konfidenzwert. Weitere Informationen finden Sie unter Unterstützung von handschriftlichen Sprachen. Das folgende Beispiel zeigt einen Beispiel-JSON-Codeausschnitt.

"styles": [
{
    "confidence": 0.95,
    "spans": [
    {
        "offset": 509,
        "length": 24
    }
    "isHandwritten": true
    ]
}

Wenn Sie die Add-On-Funktion "Schriftart/Formatvorlage" aktivieren, erhalten Sie auch das Schriftart-/Formatvorlagenergebnis als Teil des styles Objekts.

Auswahlmarkierungen

Das Layoutmodell extrahiert auch Auswahlzeichen aus Dokumenten. Extrahierte Auswahlmarkierungen werden in der pages Auflistung für jede Seite angezeigt. Sie enthalten das Begrenzungs-polygon, confidence und den Auswahl-state (selected/unselected). Die Textdarstellung (d. h. :selected: und :unselected) wird ebenfalls als Teil des Startindexes (offset) eingeschlossen, und length verweist auf die oberste Eigenschaft content, die den Volltext des Dokuments enthält.

# Analyze selection marks.
if page.selection_marks:
    for selection_mark in page.selection_marks:
        print(
            f"Selection mark is '{selection_mark.state}' within bounding polygon "
            f"'{selection_mark.polygon}' and has a confidence of {selection_mark.confidence}"
        )

Tabellen

Das Extrahieren von Tabellen ist eine wichtige Voraussetzung für die Verarbeitung von Dokumenten, die große Datenmengen enthalten, die in der Regel als Tabellen formatiert sind. Das Layoutmodell extrahiert Tabellen im pageResults Abschnitt der JSON-Ausgabe. Extrahierte Tabelleninformationen umfassen die Anzahl der Spalten und Zeilen, die Zeilenspanne und die Spaltenspanne.

Jede Zelle mit ihrem Begrenzungspolygon wird zusammen mit der Information ausgegeben, ob der Bereich als columnHeader erkannt wurde oder nicht. Das Modell unterstützt das Extrahieren von Tabellen, die gedreht werden. Jede Tabellenzelle enthält die Zeilen- und Spaltenindizes sowie die Begrenzungspolygonkoordinaten. Für den Zellentext gibt das Modell die span-Informationen aus, die den Startindex (offset) enthalten. Das Modell gibt auch den length innerhalb des übergeordneten Inhalts aus, der den Volltext aus dem Dokument enthält.

Folgende Faktoren sollten Sie bei der Verwendung der Extraktionsfunktion von Dokument Intelligenz berücksichtigen:

  • Sind die Daten, die Sie extrahieren möchten, als Tabelle dargestellt, und ist die Tabellenstruktur aussagekräftig?
  • Können die Daten in ein zweidimensionales Raster passen, wenn sich die Daten nicht in einem Tabellenformat befinden?
  • Umfassen Ihre Tabellen mehrere Seiten? Wenn ja, müssen Sie nicht alle Seiten beschriften, indem Sie die PDF-Datei in Seiten aufteilen, bevor Sie sie an Dokumentintelligenz senden. Nach der Analyse verarbeiten Sie die Seiten in eine einzige Tabelle.
  • Siehe Tabellarische Felder , wenn Sie benutzerdefinierte Modelle erstellen. Dynamische Tabellen weisen eine variable Anzahl von Zeilen für jede Spalte auf. Feste Tabellen weisen eine konstante Anzahl von Zeilen für jede Spalte auf.

Hinweis

Die Tabellenanalyse wird nicht unterstützt, wenn die Eingabedatei XLSX ist. Für 2024-11-30 (GA) decken die Begrenzungsregionen für Abbildungen und Tabellen nur den Kerninhalt ab und schließen die zugeordneten Beschriftungen und Fußnoten aus.

if result.tables:
    for table_idx, table in enumerate(result.tables):
        print(f"Table # {table_idx} has {table.row_count} rows and " f"{table.column_count} columns")
        if table.bounding_regions:
            for region in table.bounding_regions:
                print(f"Table # {table_idx} location on page: {region.page_number} is {region.polygon}")
        # Analyze cells.
        for cell in table.cells:
            print(f"...Cell[{cell.row_index}][{cell.column_index}] has text '{cell.content}'")
            if cell.bounding_regions:
                for region in cell.bounding_regions:
                print(f"...content on page {region.page_number} is within bounding polygon '{region.polygon}'")

Ausgabeantwort in Markdown-Format

Die Layout-API kann den extrahierten Text im Markdown-Format ausgeben. outputContentFormat=markdown Geben Sie das Ausgabeformat in Markdown an. Der Markdown-Inhalt wird als Teil des content Abschnitts ausgegeben.

Hinweis

Bei v4.0 2024-11-30 (GA) wird die Darstellung von Tabellen in HTML-Tabellen geändert, um das Rendern von Elementen wie zusammengeführten Zellen und Multirow-Headern zu ermöglichen. Eine weitere verwandte Änderung besteht darin, die Unicode-Kontrollkästchenzeichen ☒ und ☐ für Auswahlzeichen anstelle und :selected::unselected:zu verwenden. Dieses Update bedeutet, dass der Inhalt von Auswahlmarkierungsfeldern :selected: enthält, obwohl sich ihre Spannen auf Unicode-Zeichen in der Spanne der obersten Ebene beziehen. Eine vollständige Definition von Markdown-Elementen finden Sie im Markdown-Ausgabeformat.

document_intelligence_client = DocumentIntelligenceClient(endpoint=endpoint, credential=AzureKeyCredential(key))
poller = document_intelligence_client.begin_analyze_document(
    "prebuilt-layout",
    AnalyzeDocumentRequest(url_source=url),
    output_content_format=ContentFormat.MARKDOWN,
)

Zahlen

Abbildungen (Diagramme und Bilder) in Dokumenten spielen eine entscheidende Rolle bei der Ergänzung und Verbesserung des Textinhalts. Sie bieten visuelle Darstellungen, die das Verständnis komplexer Informationen unterstützen. Das figures vom Layoutmodell erkannte Objekt weist wichtige Eigenschaften auf:

  • boundingRegions: Die räumlichen Positionen der Abbildung auf den Dokumentseiten, einschließlich der Seitenzahl und der Polygonkoordinaten, die die Begrenzung der Abbildung umrissen.
  • spans: Die Text-Spans, die sich auf die Abbildung beziehen und deren Offsets und Längen innerhalb des Textes des Dokuments angeben. Diese Verbindung hilft bei der Zuordnung der Figur zu ihrem relevanten textbezogenen Kontext.
  • elements: Die Bezeichner für Textelemente oder Absätze im Dokument, die mit der Abbildung zusammenhängen oder beschreiben.
  • caption: Die Beschreibung, falls vorhanden.

Wenn output=figures während des anfänglichen Analysevorgangs angegeben wird, generiert der Dienst zugeschnittene Bilder für alle erkannten Abbildungen, auf die über /analyeResults/{resultId}/figures/{figureId} zugegriffen werden kann. Der FigureId Wert ist die ID, die in jedem Abbildungsobjekt enthalten ist und folgt einer nicht dokumentierten Konvention von {pageNumber}.{figureIndex}, wobei figureIndex auf jeder Seite auf eins zurückgesetzt wird.

Für v4.0 2024-11-30 (GA) decken die Begrenzungsregionen für Abbildungen und Tabellen nur den Kerninhalt ab und schließen die zugeordneten Beschriftungen und Fußnoten aus.

# Analyze figures.
if result.figures:
    for figures_idx,figures in enumerate(result.figures):
        print(f"Figure # {figures_idx} has the following spans:{figures.spans}")
        for region in figures.bounding_regions:
            print(f"Figure # {figures_idx} location on page:{region.page_number} is within bounding polygon '{region.polygon}'")

Abschnitte

Die hierarchische Dokumentstrukturanalyse ist entscheidend bei der Organisation, Verständnis und Verarbeitung umfangreicher Dokumente. Dieser Ansatz ist entscheidend für die semantische Segmentierung langer Dokumente, um das Verständnis zu steigern, die Navigation zu erleichtern und den Abruf von Informationen zu verbessern. Das Aufkommen der abrufverstärkten Generation (RAG) in der dokumentgenerativen KI unterstreicht die Bedeutung der hierarchischen Dokumentstrukturanalyse.

Das Layoutmodell unterstützt Abschnitte und Unterabschnitte in der Ausgabe, die die Beziehung von Abschnitten und Objekten innerhalb jedes Abschnitts identifiziert. Die hierarchische Struktur wird in elements für jeden Abschnitt beibehalten. Sie können die Ausgabeantwort auf das Markdown-Format verwenden, um die Abschnitte und Unterabschnitte in Markdown auf einfache Weise abzurufen.

document_intelligence_client = DocumentIntelligenceClient(endpoint=endpoint, credential=AzureKeyCredential(key))
poller = document_intelligence_client.begin_analyze_document(
    "prebuilt-layout",
    AnalyzeDocumentRequest(url_source=url),
    output_content_format=ContentFormat.MARKDOWN,
)

Dieser Inhalt gilt für:checkmarkv3.1 (GA) | Neueste Version:purple-checkmarkv4.0 (GA) | Frühere Versionen:blue-checkmarkv3.0blue-checkmarkv2.1

Dieser Inhalt gilt für:red-checkmarkv3.0 (wird eingestellt) | Neueste Versionen:purple-checkmarkv4.0 (GA)purple-checkmarkv3.1 | Vorherige Version:blue-checkmarkv2.1 (wird eingestellt)

Important

Azure Document Intelligence v3.0-API (2022-08-31) endet am 30. März 2029. Um Produktionsunterbrechungen zu vermeiden, verwenden Sie Azure Document Intelligence 2024-11-30 v4.0 für alle neuen Entwicklungen, und migrieren Sie vorhandene Workloads vor diesem Datum zu Azure Document Intelligence 2024-11-30 v4.0. Anleitungen zur Migration finden Sie im Dokumentintelligenzmigrationshandbuch.

Dieser Inhalt gilt für:red-checkmarkv2.1 | Neueste Version:blue-checkmarkv4.0 (GA)

Das Dokumentintelligenz-Layoutmodell ist eine erweiterte Dokumentanalyse-API. Das Modell basiert auf maschinellem Lernen und ist in der Document Intelligence-Cloud verfügbar. Sie können es verwenden, um Dokumente in verschiedenen Formaten zu übernehmen und strukturierte Datendarstellungen der Dokumente zurückzugeben. Es kombiniert eine verbesserte Version der leistungsstarken OCR-Funktionen mit Deep Learning-Modellen. Sie können ihn verwenden, um Text, Tabellen, Auswahlzeichen und Dokumentstruktur zu extrahieren.

Dokumentlayoutanalyse

Die Layoutanalyse der Dokumentstruktur ist der Prozess der Analyse eines Dokuments, um interessante Bereiche und ihre Beziehungen zu extrahieren. Ziel ist es, Text- und Strukturelemente von der Seite zu extrahieren, um bessere Semantikverständnismodelle zu erstellen. Es gibt zwei Arten von Rollen in einem Dokumentlayout:

  • Geometrische Rollen: Text, Tabellen, Abbildungen und Auswahlzeichen sind Beispiele für geometrische Rollen.
  • Logische Rollen: Titel, Überschriften und Fußzeilen sind Beispiele für logische Rollen von Texten.

Die folgende Abbildung zeigt die typischen Komponenten in einer Abbildung einer Beispielseite.

Abbildung, die ein Beispiel für ein Dokumentlayout zeigt.

Unterstützte Sprachen und Gebietsschemas

Eine vollständige Liste der unterstützten Sprachen finden Sie unter Sprachunterstützung: Dokumentanalysemodelle.

Document Intelligence v2.1 unterstützt die folgenden Tools, Anwendungen und Bibliotheken.

Feature Ressourcen
Layoutmodell • Tool zur Etikettierung von Document Intelligence
• SDK der Clientbibliothek
Docker-Container für Document Intelligence

Eingabeleitfaden

Unterstützte Dateiformate:

Modell PDF Bild:
JPEG/JPG, PNG, BMP, TIFF, HEIF
Office:
Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML
Lesen
Gestaltung
Allgemeines Dokument
Vorkonfiguriert
Benutzerdefinierte Extraktion
Benutzerdefinierte Klassifizierung
  • Fotos und Scans: Um optimale Ergebnisse zu erzielen, stellen Sie ein klares Foto oder eine qualitativ hochwertige Überprüfung pro Dokument bereit.
  • PDFs und TIFFs: Für PDFs und TIFFs können bis zu 2.000 Seiten mit einem kostenlosen Abonnement verarbeitet werden. Nur die ersten beiden Seiten werden verarbeitet.
  • Dateigröße: Die Dateigröße für die Analyse von Dokumenten beträgt 500 MB für die kostenpflichtige Stufe (S0) und 4 MB für die kostenlose Stufe (F0).
  • Bildabmessungen: Die Bildabmessungen müssen zwischen 50 Pixel x 50 Pixel und 10.000 Pixel x 10.000 Pixel betragen.
  • Kennwortsperrungen: Wenn Ihre PDF-Dateien kennwortgesperrt sind, müssen Sie die Sperre vor der Übermittlung entfernen.
  • Texthöhe: Die minimale Höhe des zu extrahierenden Texts beträgt 12 Pixel für ein Bild von 1024 x 768 Pixeln. Diese Dimension entspricht einem 8-Punkt-Text bei 150 Punkten pro Zoll.
  • Schulung für benutzerdefinierte Modelle: Die maximale Anzahl von Seiten für Schulungsdaten beträgt 500 für das benutzerdefinierte Vorlagenmodell und 50.000 für das benutzerdefinierte neurale Modell.
  • Schulung des benutzerdefinierten Extraktionsmodells: Die Gesamtgröße der Schulungsdaten beträgt 50 MB für das Vorlagenmodell und 1 GB für das neurale Modell.
  • Schulung des benutzerdefinierten Klassifizierungsmodells: Die Gesamtgröße der Schulungsdaten beträgt 1 GB mit maximal 10.000 Seiten. Für 2024-11-30 (GA) beträgt die Gesamtgröße der Schulungsdaten 2 GB mit maximal 10.000 Seiten.
  • Office-Dateitypen (DOCX, XLSX, PPTX):Die maximale Zeichenfolgenlängenbeschränkung beträgt 8 Millionen Zeichen.

Eingabeleitfaden

  • Unterstützte Dateiformate: JPEG, PNG, PDF und TIFF.
  • Unterstützte Seitenanzahl: Für PDF und TIFF werden bis zu 2.000 Seiten verarbeitet. Für Abonnenten der kostenlosen Ebene werden nur die ersten beiden Seiten verarbeitet.
  • Unterstützte Dateigröße: Die Dateigröße muss kleiner als 50 MB sein, und die Abmessungen müssen mindestens 50 x 50 Pixel und höchstens 10.000 x 10.000 Pixel betragen.

Beginnen

Mithilfe der Dokumentintelligenz können Sie Daten wie Text, Tabellen, Tabellenüberschriften, Auswahlzeichen und Strukturinformationen aus Dokumenten extrahieren. Sie benötigen die folgenden Ressourcen:

  • Ein Azure-Abonnement. Sie können eine kostenlos erstellen.
  • Eine Document Intelligence-Instanz im Azure-Portal. Sie können das kostenlose Preisniveau (F0) verwenden, um den Dienst zu testen. Nachdem Ihre Ressource bereitgestellt wurde, wählen Sie "Zur Ressource wechseln " aus, um Ihren Schlüssel und Endpunkt abzurufen.

Screenshot, der die Schlüssel und den Endpunktspeicherort im Azure-Portal zeigt.

Nachdem Sie Ihren Schlüssel und Endpunkt abgerufen haben, können Sie die folgenden Entwicklungsoptionen verwenden, um Ihre Document Intelligence-Anwendungen zu erstellen und bereitzustellen.

Hinweis

Document Intelligence Studio ist mit v3.0-APIs und höheren Versionen verfügbar.

REST-API

Dokument Intelligenz-Tool für die Beschriftung von Beispielen

  1. Wechseln Sie zum Dokumentintelligenz-Beispielbezeichnungstool.

  2. Wählen Sie auf der Startseite des Beispieltools " Layout verwenden" aus, um Text, Tabellen und Auswahlzeichen abzurufen.

    Screenshot: Verbindungseinstellungen für den Layoutprozess in Dokument Intelligenz

  3. Fügen Sie im Feld "Document Intelligence-Dienstendpunkt " den Endpunkt ein, den Sie mit Ihrem Document Intelligence-Abonnement erhalten haben.

  4. Fügen Sie im Schlüsselfeld den Schlüssel ein, den Sie aus Ihrer Document Intelligence-Ressource abgerufen haben.

  5. Wählen Sie im Feld "Quelle " im Dropdownmenü die URL aus. Sie können das Beispieldokument verwenden:

  6. Wählen Sie "Layout ausführen" aus. Das "Document Intelligence Sample Labeling Tool" ruft die Analyze-Layout-API auf, um das Dokument zu analysieren.

    Screenshot des Dropdownbereichs

  7. Zeigen Sie die Ergebnisse an. Sehen Sie sich den hervorgehobenen extrahierten Text, erkannte Auswahlzeichen und erkannte Tabellen an.

    Screenshot der Verbindungseinstellungen für das Dokumentintelligenz-Beispielbezeichnungstool.

Document Intelligence v2.1 unterstützt die folgenden Tools, Anwendungen und Bibliotheken.

Feature Ressourcen
Layout-API • Tool zur Etikettierung von Document Intelligence
• SDK der Clientbibliothek
Docker-Container für Document Intelligence

Extrahieren von Daten

Das Layoutmodell extrahiert Strukturelemente aus Ihren Dokumenten. Die Strukturelemente werden hier beschrieben, und die folgenden Anleitungen zeigen Ihnen, wie Sie sie aus der Dokumenteingabe extrahieren.

Extrahieren von Daten

Das Layoutmodell extrahiert Strukturelemente aus Ihren Dokumenten. Die Strukturelemente werden hier beschrieben, und die folgenden Anleitungen zeigen Ihnen, wie Sie sie aus der Dokumenteingabe extrahieren.

Seite

Die pages Auflistung ist eine Liste von Seiten innerhalb des Dokuments. Jede Seite wird sequenziell innerhalb des Dokuments dargestellt und enthält den Ausrichtungswinkel, der angibt, ob die Seite gedreht wird, sowie die Breite und Höhe (Abmessungen in Pixeln). Die Seiteneinheiten in der Modellausgabe werden berechnet, wie in der folgenden Tabelle dargestellt.

Dateiformat Berechnete Seiteneinheit Gesamtseiten
Bilder (JPEG/JPG, PNG, BMP, HEIF) Jedes Bild = 1 Seiteneinheit. Gesamtanzahl der Bilder
PDF Jede Seite in der PDF = 1 Seiteneinheit. Gesamtanzahl der Seiten in der PDF-Datei
TIFF Jedes Bild in der TIFF = 1 Seiteneinheit. Gesamtbilder im TIFF
Word-Dokument (DOCX) Bis zu 3.000 Zeichen = 1 Seiteneinheit. Eingebettete oder verknüpfte Bilder werden nicht unterstützt. Gesamtseiten mit bis zu 3.000 Zeichen pro Seite
Excel (XLSX) Jedes Arbeitsblatt = 1 Seiteneinheit. Eingebettete oder verknüpfte Bilder werden nicht unterstützt. Gesamtanzahl der Arbeitsblätter
PowerPoint (PPTX) Jede Folie = 1 Seiteneinheit. Eingebettete oder verknüpfte Bilder werden nicht unterstützt. Gesamtanzahl der Folien
HTML Bis zu 3.000 Zeichen = 1 Seiteneinheit. Eingebettete oder verknüpfte Bilder werden nicht unterstützt. Gesamtseiten mit bis zu 3.000 Zeichen pro Seite
"pages": [
    {
        "pageNumber": 1,
        "angle": 0,
        "width": 915,
        "height": 1190,
        "unit": "pixel",
        "words": [],
        "lines": [],
        "spans": []
    }
]
# Analyze pages.
for page in result.pages:
    print(f"----Analyzing layout from page #{page.page_number}----")
    print(
        f"Page has width: {page.width} and height: {page.height}, measured with unit: {page.unit}"
    )

Extrahieren ausgewählter Seiten aus Dokumenten

Verwenden Sie für große mehrseitige Dokumente den pages Abfrageparameter, um bestimmte Seitenzahlen oder Seitenbereiche für die Textextraktion anzugeben.

Absatz

Das Layoutmodell extrahiert alle identifizierten Textblöcke in der paragraphs Auflistung als Objekt der obersten Ebene unter analyzeResults. Jeder Eintrag in dieser Sammlung stellt einen Textblock dar und enthält den extrahierten Text als content sowie die Koordinaten des Begrenzungspolygons (polygon). Die span Informationen weisen auf das Textfragment innerhalb der Eigenschaft der obersten Ebene content hin, die den vollständigen Text aus dem Dokument enthält.


"paragraphs": [
    {
        "spans": [],
        "boundingRegions": [],
        "content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
    }
]

Absatzrolle

Die neue Seitenobjekterkennung basierend auf maschinellem Lernen extrahiert logische Rollen wie Titel, Abschnittsüberschriften, Seitenkopfzeilen, Seitenfußzeilen und vieles mehr. Das Dokumentintelligenz-Layoutmodell weist bestimmten Textblöcken in der paragraphs-Sammlung ihre jeweilige, vom Modell vorhergesagte Rolle oder Typ zu. Es ist am besten, Absatzrollen mit unstrukturierten Dokumenten zu verwenden, um das Layout des extrahierten Inhalts für eine umfangreichere semantische Analyse zu verstehen. Die folgenden Absatzrollen werden unterstützt.

Vorhergesagte Rolle Beschreibung Unterstützte Dateitypen
title Die Hauptüberschriften auf der Seite PDF, Bild, DOCX, PPTX, XLSX, HTML
sectionHeading Eine oder mehrere Unterüberschriften auf der Seite PDF, Bild, DOCX, XLSX, HTML
footnote Text am unteren Rand der Seite PDF, Bild
pageHeader Text am oberen Rand der Seite PDF, Bild, DOCX
pageFooter Text am unteren Rand der Seite PDF, Bild, DOCX, PPTX, HTML
pageNumber Seitenzahl PDF, Bild
{
    "paragraphs": [
                {
                    "spans": [],
                    "boundingRegions": [],
                    "role": "title",
                    "content": "NEWS TODAY"
                },
                {
                    "spans": [],
                    "boundingRegions": [],
                    "role": "sectionHeading",
                    "content": "Mirjam Nilsson"
                }
    ]
}

Text, Zeile und Wort

Das Dokumentlayoutmodell in Document Intelligence extrahiert Druck- und handschriftlichen Text als Zeilen und Wörter. Die styles Sammlung umfasst jeden handschriftlichen Stil für Zeilen, falls dieser zusammen mit den zugehörigen Spannen erkannt wird, die auf den zugeordneten Text verweisen. Dieses Feature gilt für unterstützte handschriftliche Sprachen.

Für Word, Excel, PowerPoint und HTML extrahiert das Layoutmodell Document Intelligence v4.0 2024-11-30 (GA) den gesamten eingebetteten Text wie folgt. Texte werden als Wörter und Absätze extrahiert. Eingebettete Bilder werden nicht unterstützt.

"words": [
    {
        "content": "While",
        "polygon": [],
        "confidence": 0.997,
        "span": {}
    },
],
"lines": [
    {
        "content": "While healthcare is still in the early stages of its Al journey, we",
        "polygon": [],
        "spans": [],
    }
]
# Analyze lines.
for line_idx, line in enumerate(page.lines):
    words = line.get_words()
    print(
        f"...Line # {line_idx} has word count {len(words)} and text '{line.content}' "
        f"within bounding polygon '{format_polygon(line.polygon)}'"
    )

    # Analyze words.
    for word in words:
        print(
            f"......Word '{word.content}' has a confidence of {word.confidence}"
        )

Handschriftlicher Stil

Die Antwort enthält die Klassifizierung, ob jede Textzeile handschriftlich formatiert ist oder nicht, zusammen mit einer Konfidenzbewertung. Weitere Informationen finden Sie unter Unterstützung von handschriftlichen Sprachen. Das folgende Beispiel zeigt einen Beispiel-JSON-Codeausschnitt.

"styles": [
{
    "confidence": 0.95,
    "spans": [
    {
        "offset": 509,
        "length": 24
    }
    "isHandwritten": true
    ]
}

Wenn Sie die Add-On-Funktion "Schriftart/Formatvorlage" aktivieren, erhalten Sie auch das Schriftart-/Formatvorlagenergebnis als Teil des styles Objekts.

Auswahlzeichen

Das Layoutmodell extrahiert auch Auswahlzeichen aus Dokumenten. Extrahierte Auswahlmarkierungen werden in der pages Auflistung für jede Seite angezeigt. Sie enthalten das Begrenzungs-polygon, confidence und den Auswahl-state (selected/unselected). Die Textdarstellung (d. h. :selected: und :unselected) wird ebenfalls als Teil des Startindexes (offset) eingeschlossen, und length verweist auf die oberste Eigenschaft content, die den Volltext des Dokuments enthält.

{
    "selectionMarks": [
        {
            "state": "unselected",
            "polygon": [],
            "confidence": 0.995,
            "span": {
                "offset": 1421,
                "length": 12
            }
        }
    ]
}
# Analyze selection marks.
for selection_mark in page.selection_marks:
    print(
        f"Selection mark is '{selection_mark.state}' within bounding polygon "
        f"'{format_polygon(selection_mark.polygon)}' and has a confidence of {selection_mark.confidence}"
    )

Tabelle

Das Extrahieren von Tabellen ist eine wichtige Voraussetzung für die Verarbeitung von Dokumenten, die große Datenmengen enthalten, die in der Regel als Tabellen formatiert sind. Das Layoutmodell extrahiert Tabellen im pageResults Abschnitt der JSON-Ausgabe. Extrahierte Tabelleninformationen umfassen die Anzahl der Spalten und Zeilen, die Zeilenspanne und die Spaltenspanne. Jede Zelle mit ihrem Begrenzungspolygon wird zusammen mit der Information ausgegeben, ob der Bereich als columnHeader erkannt wurde oder nicht.

Das Modell unterstützt das Extrahieren von Tabellen, die gedreht werden. Jede Tabellenzelle enthält die Zeilen- und Spaltenindizes sowie die Begrenzungspolygonkoordinaten. Für den Zellentext gibt das Modell die span-Informationen aus, die den Startindex (offset) enthalten. Das Modell gibt auch den length innerhalb des übergeordneten Inhalts aus, der den Volltext aus dem Dokument enthält.

Folgende Faktoren sollten Sie bei der Verwendung der Extraktionsfunktion von Dokument Intelligenz berücksichtigen:

  • Sind die Daten, die Sie extrahieren möchten, als Tabelle dargestellt, und ist die Tabellenstruktur aussagekräftig?
  • Können die Daten in ein zweidimensionales Raster passen, wenn sich die Daten nicht in einem Tabellenformat befinden?
  • Umfassen Ihre Tabellen mehrere Seiten? Wenn ja, müssen Sie nicht alle Seiten beschriften, indem Sie die PDF-Datei in Seiten aufteilen, bevor Sie sie an Dokumentintelligenz senden. Nach der Analyse verarbeiten Sie die Seiten in eine einzige Tabelle.
  • Siehe Tabellarische Felder , wenn Sie benutzerdefinierte Modelle erstellen. Dynamische Tabellen weisen eine variable Anzahl von Zeilen für jede Spalte auf. Feste Tabellen weisen eine konstante Anzahl von Zeilen für jede Spalte auf.

Hinweis

Die Tabellenanalyse wird nicht unterstützt, wenn die Eingabedatei XLSX ist. Document Intelligence v4.0 2024-11-30 (GA) unterstützt Begrenzungsbereiche für Abbildungen und Tabellen, die nur den Kerninhalt abdecken und die zugeordneten Beschriftungen und Fußnoten ausschließen.

{
    "tables": [
        {
            "rowCount": 9,
            "columnCount": 4,
            "cells": [
                {
                    "kind": "columnHeader",
                    "rowIndex": 0,
                    "columnIndex": 0,
                    "columnSpan": 4,
                    "content": "(In millions, except earnings per share)",
                    "boundingRegions": [],
                    "spans": []
                    },
            ]
        }
    ]
}

# Analyze tables.
for table_idx, table in enumerate(result.tables):
    print(
        f"Table # {table_idx} has {table.row_count} rows and "
        f"{table.column_count} columns"
    )
    for region in table.bounding_regions:
        print(
            f"Table # {table_idx} location on page: {region.page_number} is {format_polygon(region.polygon)}"
        )
    for cell in table.cells:
        print(
            f"...Cell[{cell.row_index}][{cell.column_index}] has text '{cell.content}'"
        )
        for region in cell.bounding_regions:
            print(
                f"...content on page {region.page_number} is within bounding polygon '{format_polygon(region.polygon)}'"
            )

Anmerkungen

Das Layoutmodell extrahiert Anmerkungen in Dokumenten, wie z. B. Häkchen und Kreuze. Die Antwort enthält die Art der Anmerkung, zusammen mit einer Konfidenzbewertung und einem Begrenzungspolygon.

    {
    "pages": [
    {
        "annotations": [
        {
            "kind": "cross",
            "polygon": [...],
            "confidence": 1
        }
        ]
    }
    ]
}

Ausgabe der natürlichen Leserichtung (nur lateinische Sprachen)

Sie können die Reihenfolge angeben, in der die Textzeilen mit dem readingOrder Abfrageparameter ausgegeben werden. Verwenden Sie natural für eine nutzerfreundlichere Ausgabe der Lesereihenfolge, wie im folgenden Beispiel gezeigt. Dieses Feature wird nur für lateinische Sprachen unterstützt.

Screenshot der Verarbeitung der Lesereihenfolge des Layoutmodells.

Auswählen der Seitenzahl oder des Bereichs für die Textextraktion

Verwenden Sie für große mehrseitige Dokumente den pages Abfrageparameter, um bestimmte Seitenzahlen oder Seitenbereiche für die Textextraktion anzugeben. Das folgende Beispiel zeigt ein Dokument mit 10 Seiten, wobei Text für beide Fälle extrahiert wurde, alle Seiten (1-10) und ausgewählte Seiten (3-6).

Screenshot, der die Ausgabe des Layoutmodells für ausgewählte Seiten zeigt.

Der Vorgang "Ergebnis der Layout-Analyse abrufen"

Der zweite Schritt besteht darin, den Get Analyze Layout Result Vorgang aufzurufen. Dieser Vorgang verwendet als Eingabe der Ergebnis-ID, die der Analyze Layout Vorgang erstellt hat. Sie gibt eine JSON-Antwort zurück, die ein Statusfeld mit den folgenden möglichen Werten enthält.

Feld Typ Mögliche Werte
Status Schnur notStarted: Der Analysevorgang wird nicht gestartet.

running: Der Analysevorgang ist in Bearbeitung.

failed: Der Analysevorgang ist fehlgeschlagen.

succeeded: Der Analysevorgang war erfolgreich.

Rufen Sie diesen Vorgang iterativ auf, bis er den succeeded Wert zurückgibt. Um eine Überschreitung der Anfragen pro Sekunde zu vermeiden, verwenden Sie ein Intervall von drei bis fünf Sekunden.

Wenn das Statusfeld den succeeded Wert aufweist, enthält die JSON-Antwort das extrahierte Layout, Text, Tabellen und Auswahlzeichen. Die extrahierten Daten enthalten die extrahierten Textzeilen und Wörter, Begrenzungsrahmen, die handschriftliche Anzeige von Textdarstellung, Tabellen und Auswahlmarkierungen mit der Angabe „ausgewählt“ oder „nicht ausgewählt“.

Handschriftliche Klassifizierung für Textzeilen (nur Lateinisch)

Die Antwort enthält die Klassifizierung, ob jede Textzeile einen handschriftlichen Stil aufweist oder nicht, zusammen mit einem Konfidenzwert. Dieses Feature wird nur für lateinische Sprachen unterstützt. Das folgende Beispiel zeigt die handschriftliche Klassifizierung für den Text in der Abbildung.

Screenshot: Handschriftklassifizierungsprozess des Layoutmodells

Beispielausgabe für JSON

Die Antwort auf den Get Analyze Layout Result Vorgang ist eine strukturierte Darstellung des Dokuments mit allen extrahierten Informationen. Siehe eine Beispiel-Dokumentdatei und deren strukturierte Ausgabe Beispiel-Layoutausgabe.

Die JSON-Ausgabe umfasst zwei Teile:

  • Der readResults Knoten enthält alle erkannten Text- und Auswahlzeichen. Die Textpräsentationshierarchie ist Seite, Zeile und dann einzelne Wörter.
  • Der Knoten pageResults enthält die Tabellen und Zellen, die mit ihren Begrenzungsrahmen, Konfidenz und einem Verweis auf die Zeilen und Wörter im Feld readResults extrahiert wurden.

Beispielausgabe

Text

Die Layout-API extrahiert Text aus Dokumenten und Bildern mit mehreren Textwinkeln und Farben. Es akzeptiert Fotos von Dokumenten, Faxen, gedruckten und/oder handschriftlichen Text (nur englisch) und gemischten Modi. Text wird mit Informationen zu Zeilen, Wörtern, Begrenzungsrahmen, Konfidenzbewertungen und Stil (handschriftlich oder anderer) extrahiert. Alle Textinformationen sind im readResults Abschnitt der JSON-Ausgabe enthalten.

Tabellen mit Kopfzeilen

Die Layout-API extrahiert Tabellen im pageResults Abschnitt der JSON-Ausgabe. Sie können Dokumente scannen, fotografieren oder digitalisieren. Tabellen können mit verbundenen Zellen oder Spalten, mit oder ohne Rahmen und mit ungeraden Winkeln komplex sein.

Extrahierte Tabelleninformationen umfassen die Anzahl der Spalten und Zeilen, die Zeilenspanne und die Spaltenspanne. Jede Zelle mit ihrem Begrenzungsrahmen wird zusammen mit Informationen ausgegeben, unabhängig davon, ob der Bereich als Teil einer Kopfzeile erkannt werden oder nicht. Die vom Modell vorhergesagten Kopfzeilen-Zellen können mehrere Zeilen umfassen und sind nicht unbedingt die ersten Zeilen in einer Tabelle. Sie arbeiten auch mit gedrehten Tabellen. Jede Tabellenzelle enthält auch den vollständigen Text mit Verweisen auf die einzelnen Wörter im readResults Abschnitt.

Abbildung, die ein Beispiel für Tabellen zeigt.

Auswahlzeichen (Dokumente)

Die Layout-API extrahiert auch Auswahlmarkierungen aus Dokumenten. Extrahierte Auswahlmarkierungen enthalten den Begrenzungsrahmen, die Konfidenz (Zuverlässigkeit) und den Status („ausgewählt“ oder „nicht ausgewählt“). Auswahlzeicheninformationen werden im readResults Abschnitt der JSON-Ausgabe extrahiert.

Migrationshandbuch