Was ist das Dokumentintelligenz-Layoutmodell?

Dieser Inhalt gilt für:v4.0 (GA) | Frühere Versionen:v3.1 (GA)v3.0 (wird eingestellt)v2.1 (wird eingestellt)

Das Layoutmodell Azure Document Intelligence in Foundry Tools ist eine erweiterte Dokumentanalyse-API basierend auf maschinellem Lernen. Das Modell ist in der Document Intelligence-Cloud verfügbar. Sie können es verwenden, um Dokumente in verschiedenen Formaten zu übernehmen und strukturierte Datendarstellungen der Dokumente zurückzugeben. Das Modell kombiniert eine verbesserte Version der leistungsstarken Funktionen für die optische Zeichenerkennung (OCR) mit Deep Learning-Modellen zum Extrahieren von Text, Tabellen, Auswahlzeichen und Dokumentstruktur.

Layoutanalyse der Dokumentstruktur

Die Layoutanalyse der Dokumentstruktur ist der Prozess der Analyse eines Dokuments, um interessante Bereiche und ihre Beziehungen zu extrahieren. Ziel ist es, Text- und Strukturelemente von der Seite zu extrahieren, um bessere Semantikverständnismodelle zu erstellen. Es gibt zwei Arten von Rollen in einem Dokumentlayout:

Geometrische Rollen: Text, Tabellen, Abbildungen und Auswahlzeichen sind Beispiele für geometrische Rollen.
Logische Rollen: Titel, Überschriften und Fußzeilen sind Beispiele für logische Rollen von Texten.

Die folgende Abbildung zeigt die typischen Komponenten in einer Abbildung einer Beispielseite.

Abbildung, die ein Beispiel für ein Dokumentlayout zeigt.

Entwicklungsoptionen

Document Intelligence v4.0: 2024-11-30 (GA) unterstützt die folgenden Tools, Anwendungen und Bibliotheken.

Feature	Ressourcen	Modell-ID
Layoutmodell	• Document Intelligence Studio • REST-API • C#SDK • Python SDK • Java SDK • JavaScript SDK	`prebuilt-layout`

Unterstützte Sprachen

Eine vollständige Liste der unterstützten Sprachen finden Sie unter Sprachunterstützung: Dokumentanalysemodelle.

Unterstützte Dateitypen

Document Intelligence v4.0: 2024-11-30 (GA)-Layoutmodell unterstützt die folgenden Dateiformate:

Modell	PDF	Bild: JPEG/JPG, PNG, BMP, TIFF, HEIF	Office: Word (DOCX), Excel (XLS), PowerPoint (PPTX), HTML
Gestaltung	✔	✔	✔

Eingabeanforderungen

Fotos und Scans: Um optimale Ergebnisse zu erzielen, stellen Sie ein klares Foto oder eine qualitativ hochwertige Überprüfung pro Dokument bereit.
PDFs und TIFFs: Für PDFs und TIFFs können bis zu 2.000 Seiten verarbeitet werden. (Bei einem kostenlosen Abonnement werden nur die ersten beiden Seiten verarbeitet.)
Kennwortsperrungen: Wenn Ihre PDF-Dateien kennwortgesperrt sind, müssen Sie die Sperre vor der Übermittlung entfernen.
Dateigröße: Die Dateigröße für die Analyse von Dokumenten beträgt 500 MB für die kostenpflichtige Stufe (S0) und 4 MB für die kostenlose Stufe (F0).
Bildabmessungen: Die Bildabmessungen müssen zwischen 50 Pixel x 50 Pixel und 10.000 Pixel x 10.000 Pixel betragen.
Texthöhe: Die minimale Höhe des zu extrahierenden Texts beträgt 12 Pixel für ein Bild von 1024 x 768 Pixeln. Diese Dimension entspricht einem 8-Punkt-Text bei 150 Punkten pro Zoll.
Schulung für benutzerdefinierte Modelle: Die maximale Anzahl von Seiten für Schulungsdaten beträgt 500 für das benutzerdefinierte Vorlagenmodell und 50.000 für das benutzerdefinierte neurale Modell.
Schulung des benutzerdefinierten Extraktionsmodells: Die Gesamtgröße der Schulungsdaten beträgt 50 MB für das Vorlagenmodell und 1 GB für das neurale Modell.
Schulung des benutzerdefinierten Klassifizierungsmodells: Die Gesamtgröße der Schulungsdaten beträgt 1 GB mit maximal 10.000 Seiten. Für 2024-11-30 (GA) beträgt die Gesamtgröße der Schulungsdaten 2 GB mit maximal 10.000 Seiten.
Office-Dateitypen (DOCX, XLSX, PPTX):Die maximale Zeichenfolgenlängenbeschränkung beträgt 8 Millionen Zeichen.

Weitere Informationen zur Modellnutzung, zu Kontingenten und Dienstgrenzwerten finden Sie unter Dienstgrenzwerte.

Erste Schritte mit dem Layoutmodell

Erfahren Sie, wie Daten, einschließlich Text, Tabellen, Tabellenüberschriften, Auswahlzeichen und Strukturinformationen, mithilfe von Dokumentintelligenz aus Dokumenten extrahiert werden. Sie benötigen die folgenden Ressourcen:

Ein Azure-Abonnement. Sie können eine kostenlos erstellen.
Eine Document Intelligence-Instanz im Azure-Portal. Sie können das kostenlose Preisniveau (F0) verwenden, um den Dienst zu testen. Nachdem Ihre Ressource bereitgestellt wurde, wählen Sie "Zur Ressource wechseln " aus, um Ihren Schlüssel und Endpunkt abzurufen.

Nachdem Sie Ihren Schlüssel und Endpunkt abgerufen haben, verwenden Sie die folgenden Entwicklungsoptionen, um Ihre Document Intelligence-Anwendungen zu erstellen und bereitzustellen.

Datenextraktion

Das Layoutmodell extrahiert Strukturelemente aus Ihren Dokumenten. Die folgenden Strukturelemente werden im restlichen Teil dieses Artikels beschrieben, zusammen mit Anleitungen zum Extrahieren dieser Elemente aus der Dokumenteingabe:

Seiten
Absätze
Text, Zeilen und Wörter
Auswahlzeichen
Tabellen
Antwortausgabe in Markdown
Figuren
Abschnitte

Führen Sie die Beispiellayoutdokumentanalyse in Document Intelligence Studio aus. Wechseln Sie dann zur Registerkarte "Ergebnisse", und greifen Sie auf die vollständige JSON-Ausgabe zu.

Screenshot: Ergebnisse auf der Registerkarte „JSON-Ausgabe“ in Dokument Intelligenz Studio

Seiten

Die pages Auflistung ist eine Liste von Seiten innerhalb des Dokuments. Jede Seite wird sequenziell innerhalb des Dokuments dargestellt und enthält den Ausrichtungswinkel, der angibt, ob die Seite gedreht wird, und die Breite und Höhe (Dimensionen in Pixeln). Die Seiteneinheiten in der Modellausgabe werden berechnet, wie in der folgenden Tabelle dargestellt.

Dateiformat	Berechnete Seiteneinheit	Gesamtseiten
Bilder (JPEG/JPG, PNG, BMP, HEIF)	Jedes Bild = 1 Seiteneinheit.	Gesamtanzahl der Bilder
PDF	Jede Seite in der PDF = 1 Seiteneinheit.	Gesamtanzahl der Seiten in der PDF-Datei
TIFF	Jedes Bild in der TIFF = 1 Seiteneinheit.	Gesamtbilder im TIFF
Word-Dokument (DOCX)	Bis zu 3.000 Zeichen = 1 Seiteneinheit. Eingebettete oder verknüpfte Bilder werden nicht unterstützt.	Gesamtseiten mit bis zu 3.000 Zeichen pro Seite
Excel (XLSX)	Jedes Arbeitsblatt = 1 Seiteneinheit. Eingebettete oder verknüpfte Bilder werden nicht unterstützt.	Gesamtanzahl der Arbeitsblätter
PowerPoint (PPTX)	Jede Folie = 1 Seiteneinheit. Eingebettete oder verknüpfte Bilder werden nicht unterstützt.	Gesamtanzahl der Folien
HTML	Bis zu 3.000 Zeichen = 1 Seiteneinheit. Eingebettete oder verknüpfte Bilder werden nicht unterstützt.	Gesamtseiten mit bis zu 3.000 Zeichen pro Seite

Beispielcode
Ausgabe

# Analyze pages.
for page in result.pages:
print(f"----Analyzing layout from page #{page.page_number}----")
print(f"Page has width: {page.width} and height: {page.height}, measured with unit: {page.unit}")

View-Beispiele für GitHub.

"pages": [
    {
        "pageNumber": 1,
        "angle": 0,
        "width": 915,
        "height": 1190,
        "unit": "pixel",
        "words": [],
        "lines": [],
        "spans": []
    }
]

Extrahieren ausgewählter Seiten

Verwenden Sie für große mehrseitige Dokumente den pages Abfrageparameter, um bestimmte Seitenzahlen oder Seitenbereiche für die Textextraktion anzugeben.

Absätze

Das Layoutmodell extrahiert alle identifizierten Textblöcke in der paragraphs Auflistung als Objekt der obersten Ebene unter analyzeResults. Jeder Eintrag in dieser Sammlung stellt einen Textblock dar und enthält den extrahierten Text als content und die begrenzenden Koordinaten polygon. Die spans Informationen weisen auf das Textfragment innerhalb der Eigenschaft der obersten Ebene content hin, die den vollständigen Text aus dem Dokument enthält.


"paragraphs": [
    {
        "spans": [],
        "boundingRegions": [],
        "content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
    }
]

Absatzrollen

Es ist am besten, Absatzrollen mit unstrukturierten Dokumenten zu verwenden, um das Layout des extrahierten Inhalts für eine umfangreichere semantische Analyse zu verstehen. Die folgenden Absatzrollen werden unterstützt.

Vorhergesagte Rolle	Beschreibung	Unterstützte Dateitypen
`title`	Die Hauptüberschriften auf der Seite	PDF, Bild, DOCX, PPTX, XLSX, HTML
`sectionHeading`	Eine oder mehrere Unterüberschriften auf der Seite	PDF, Bild, DOCX, XLSX, HTML
`footnote`	Text am unteren Rand der Seite	PDF, Bild
`pageHeader`	Text am oberen Rand der Seite	PDF, Bild, DOCX
`pageFooter`	Text am unteren Rand der Seite	PDF, Bild, DOCX, PPTX, HTML
`pageNumber`	Seitenzahl	PDF, Bild

{
    "paragraphs": [
                {
                    "spans": [],
                    "boundingRegions": [],
                    "role": "title",
                    "content": "NEWS TODAY"
                },
                {
                    "spans": [],
                    "boundingRegions": [],
                    "role": "sectionHeading",
                    "content": "Mirjam Nilsson"
                }
    ]
}

Text, Zeilen und Wörter

Das Dokumentlayoutmodell in Document Intelligence extrahiert Druck- und handschriftlichen Text als lines und words. Die styles-Sammlung enthält alle handschriftlichen Formatvorlagen für Zeilen (sofern erkannt) sowie die Spannen, die auf den zugeordneten Text verweisen. Dieses Feature gilt für unterstützte handschriftliche Sprachen.

Für Microsoft Word, Excel, PowerPoint und HTML extrahiert das Layoutmodell Document Intelligence v4.0 2024-11-30 (GA) den gesamten eingebetteten Text wie folgt. Texte werden als Wörter und Absätze extrahiert. Eingebettete Bilder werden nicht unterstützt.

Beispielcode
Ausgabe

# Analyze lines.
if page.lines:
    for line_idx, line in enumerate(page.lines):
    words = get_words(page, line)
    print(
        f"...Line # {line_idx} has word count {len(words)} and text '{line.content}' "
        f"within bounding polygon '{line.polygon}'"
    )

    # Analyze words.
    for word in words:
        print(f"......Word '{word.content}' has a confidence of {word.confidence}")

View-Beispiele für GitHub.

"words": [
    {
        "content": "While",
        "polygon": [],
        "confidence": 0.997,
        "span": {}
    },
],
"lines": [
    {
        "content": "While healthcare is still in the early stages of its Al journey, we",
        "polygon": [],
        "spans": [],
    }
]

Handschriftlicher Stil für Textzeilen

Die Antwort enthält, ob sich jede Textzeile in einem handschriftlichen Stil befindet oder nicht, zusammen mit einem Konfidenzwert. Weitere Informationen finden Sie unter Unterstützung von handschriftlichen Sprachen. Das folgende Beispiel zeigt einen Beispiel-JSON-Codeausschnitt.

"styles": [
{
    "confidence": 0.95,
    "spans": [
    {
        "offset": 509,
        "length": 24
    }
    "isHandwritten": true
    ]
}

Wenn Sie die Add-On-Funktion "Schriftart/Formatvorlage" aktivieren, erhalten Sie auch das Schriftart-/Formatvorlagenergebnis als Teil des styles Objekts.

Auswahlmarkierungen

Das Layoutmodell extrahiert auch Auswahlzeichen aus Dokumenten. Extrahierte Auswahlmarkierungen werden in der pages Auflistung für jede Seite angezeigt. Sie enthalten das Begrenzungs-polygon, confidence und den Auswahl-state (selected/unselected). Die Textdarstellung (d. h. :selected: und :unselected) wird ebenfalls als Teil des Startindexes (offset) eingeschlossen, und length verweist auf die oberste Eigenschaft content, die den Volltext des Dokuments enthält.

Beispielcode
Ausgabe

# Analyze selection marks.
if page.selection_marks:
    for selection_mark in page.selection_marks:
        print(
            f"Selection mark is '{selection_mark.state}' within bounding polygon "
            f"'{selection_mark.polygon}' and has a confidence of {selection_mark.confidence}"
        )

View-Beispiele für GitHub.

{
    "selectionMarks": [
        {
            "state": "unselected",
            "polygon": [],
            "confidence": 0.995,
            "span": {
                "offset": 1421,
                "length": 12
            }
        }
    ]
}

Tabellen

Das Extrahieren von Tabellen ist eine wichtige Voraussetzung für die Verarbeitung von Dokumenten, die große Datenmengen enthalten, die in der Regel als Tabellen formatiert sind. Das Layoutmodell extrahiert Tabellen im pageResults Abschnitt der JSON-Ausgabe. Extrahierte Tabelleninformationen umfassen die Anzahl der Spalten und Zeilen, die Zeilenspanne und die Spaltenspanne.

Jede Zelle mit ihrem Begrenzungspolygon wird zusammen mit der Information ausgegeben, ob der Bereich als columnHeader erkannt wurde oder nicht. Das Modell unterstützt das Extrahieren von Tabellen, die gedreht werden. Jede Tabellenzelle enthält die Zeilen- und Spaltenindizes sowie die Begrenzungspolygonkoordinaten. Für den Zellentext gibt das Modell die span-Informationen aus, die den Startindex (offset) enthalten. Das Modell gibt auch den length innerhalb des übergeordneten Inhalts aus, der den Volltext aus dem Dokument enthält.

Folgende Faktoren sollten Sie bei der Verwendung der Extraktionsfunktion von Dokument Intelligenz berücksichtigen:

Sind die Daten, die Sie extrahieren möchten, als Tabelle dargestellt, und ist die Tabellenstruktur aussagekräftig?
Können die Daten in ein zweidimensionales Raster passen, wenn sich die Daten nicht in einem Tabellenformat befinden?
Umfassen Ihre Tabellen mehrere Seiten? Wenn ja, müssen Sie nicht alle Seiten beschriften, indem Sie die PDF-Datei in Seiten aufteilen, bevor Sie sie an Dokumentintelligenz senden. Nach der Analyse verarbeiten Sie die Seiten in eine einzige Tabelle.
Siehe Tabellarische Felder , wenn Sie benutzerdefinierte Modelle erstellen. Dynamische Tabellen weisen eine variable Anzahl von Zeilen für jede Spalte auf. Feste Tabellen weisen eine konstante Anzahl von Zeilen für jede Spalte auf.

Hinweis

Die Tabellenanalyse wird nicht unterstützt, wenn die Eingabedatei XLSX ist. Für 2024-11-30 (GA) decken die Begrenzungsregionen für Abbildungen und Tabellen nur den Kerninhalt ab und schließen die zugeordneten Beschriftungen und Fußnoten aus.

Beispielcode
Ausgabe

if result.tables:
    for table_idx, table in enumerate(result.tables):
        print(f"Table # {table_idx} has {table.row_count} rows and " f"{table.column_count} columns")
        if table.bounding_regions:
            for region in table.bounding_regions:
                print(f"Table # {table_idx} location on page: {region.page_number} is {region.polygon}")
        # Analyze cells.
        for cell in table.cells:
            print(f"...Cell[{cell.row_index}][{cell.column_index}] has text '{cell.content}'")
            if cell.bounding_regions:
                for region in cell.bounding_regions:
                print(f"...content on page {region.page_number} is within bounding polygon '{region.polygon}'")

View-Beispiele für GitHub.

{
    "tables": [
        {
            "rowCount": 9,
            "columnCount": 4,
            "cells": [
                {
                    "kind": "columnHeader",
                    "rowIndex": 0,
                    "columnIndex": 0,
                    "columnSpan": 4,
                    "content": "(In millions, except earnings per share)",
                    "boundingRegions": [],
                    "spans": []
                    },
            ]
        }
    ]
}

Ausgabeantwort in Markdown-Format

Die Layout-API kann den extrahierten Text im Markdown-Format ausgeben. outputContentFormat=markdown Geben Sie das Ausgabeformat in Markdown an. Der Markdown-Inhalt wird als Teil des content Abschnitts ausgegeben.

Hinweis

Bei v4.0 2024-11-30 (GA) wird die Darstellung von Tabellen in HTML-Tabellen geändert, um das Rendern von Elementen wie zusammengeführten Zellen und Multirow-Headern zu ermöglichen. Eine weitere verwandte Änderung besteht darin, die Unicode-Kontrollkästchenzeichen ☒ und ☐ für Auswahlzeichen anstelle und :selected::unselected:zu verwenden. Dieses Update bedeutet, dass der Inhalt von Auswahlmarkierungsfeldern :selected: enthält, obwohl sich ihre Spannen auf Unicode-Zeichen in der Spanne der obersten Ebene beziehen. Eine vollständige Definition von Markdown-Elementen finden Sie im Markdown-Ausgabeformat.

Beispielcode
Ausgabe

document_intelligence_client = DocumentIntelligenceClient(endpoint=endpoint, credential=AzureKeyCredential(key))
poller = document_intelligence_client.begin_analyze_document(
    "prebuilt-layout",
    AnalyzeDocumentRequest(url_source=url),
    output_content_format=ContentFormat.MARKDOWN,
)

View-Beispiele für GitHub.

PageHeader="This is the header of the document."

This is title
===
# 1\. Text
Latin refers to an ancient Italic language originating in the region of Latium in ancient Rome.
# 2\. Page Objects
## 2.1 Table
Here's a sample table below, designed to be simple for easy understand and quick reference.
| Name | Corp | Remark |
| - | - | - |
| Foo | | |
| Bar | Microsoft | Dummy |
Table 1: This is a dummy table
## 2.2. Figure
<figure>
<figcaption>

Figure 1: Here is a figure with text
</figcaption>

![](figures/0)
FigureContent="500 450 400 400 350 250 200 200 200- Feb"
</figure>

# 3\. Others
Al Document Intelligence is an Al service that applies advanced machine learning to extract text, key-value pairs, tables, and structures from documents automatically and accurately:
    :selected:
clear
    :selected:
precise
    :unselected:
vague
    :selected:
coherent
    :unselected:
Incomprehensible
Turn documents into usable data and shift your focus to acting on information rather than compiling it. Start with prebuilt models or create custom models tailored to your documents both on premises and in the cloud with the Al Document Intelligence studio or SDK.
Learn how to accelerate your business processes by automating text extraction with Al Document Intelligence. This webinar features hands-on demos for key use cases such as document processing, knowledge mining, and industry-specific Al model customization.
PageFooter="This is the footer of the document."
PageFooter="1 | Page"

Zahlen

Abbildungen (Diagramme und Bilder) in Dokumenten spielen eine entscheidende Rolle bei der Ergänzung und Verbesserung des Textinhalts. Sie bieten visuelle Darstellungen, die das Verständnis komplexer Informationen unterstützen. Das figures vom Layoutmodell erkannte Objekt weist wichtige Eigenschaften auf:

boundingRegions: Die räumlichen Positionen der Abbildung auf den Dokumentseiten, einschließlich der Seitenzahl und der Polygonkoordinaten, die die Begrenzung der Abbildung umrissen.
spans: Die Text-Spans, die sich auf die Abbildung beziehen und deren Offsets und Längen innerhalb des Textes des Dokuments angeben. Diese Verbindung hilft bei der Zuordnung der Figur zu ihrem relevanten textbezogenen Kontext.
elements: Die Bezeichner für Textelemente oder Absätze im Dokument, die mit der Abbildung zusammenhängen oder beschreiben.
caption: Die Beschreibung, falls vorhanden.

Wenn output=figures während des anfänglichen Analysevorgangs angegeben wird, generiert der Dienst zugeschnittene Bilder für alle erkannten Abbildungen, auf die über /analyeResults/{resultId}/figures/{figureId} zugegriffen werden kann. Der FigureId Wert ist die ID, die in jedem Abbildungsobjekt enthalten ist und folgt einer nicht dokumentierten Konvention von {pageNumber}.{figureIndex}, wobei figureIndex auf jeder Seite auf eins zurückgesetzt wird.

Für v4.0 2024-11-30 (GA) decken die Begrenzungsregionen für Abbildungen und Tabellen nur den Kerninhalt ab und schließen die zugeordneten Beschriftungen und Fußnoten aus.

Beispielcode
Ausgabe

# Analyze figures.
if result.figures:
    for figures_idx,figures in enumerate(result.figures):
        print(f"Figure # {figures_idx} has the following spans:{figures.spans}")
        for region in figures.bounding_regions:
            print(f"Figure # {figures_idx} location on page:{region.page_number} is within bounding polygon '{region.polygon}'")

View-Beispiele für GitHub.

{
    "figures": [
        {
        "id": "{figureId}",
        "boundingRegions": [],
        "spans": [],
        "elements": [
            "/paragraphs/15",
            ...
        ],
        "caption": {
            "content": "Here is a figure with some text",
            "boundingRegions": [],
            "spans": [],
            "elements": [
            "/paragraphs/15"
            ]
        }
        }
    ]
}

Screenshot von Beispielen für Dokumentenzahlen.

Abschnitte

Die hierarchische Dokumentstrukturanalyse ist entscheidend bei der Organisation, Verständnis und Verarbeitung umfangreicher Dokumente. Dieser Ansatz ist entscheidend für die semantische Segmentierung langer Dokumente, um das Verständnis zu steigern, die Navigation zu erleichtern und den Abruf von Informationen zu verbessern. Das Aufkommen der abrufverstärkten Generation (RAG) in der dokumentgenerativen KI unterstreicht die Bedeutung der hierarchischen Dokumentstrukturanalyse.

Das Layoutmodell unterstützt Abschnitte und Unterabschnitte in der Ausgabe, die die Beziehung von Abschnitten und Objekten innerhalb jedes Abschnitts identifiziert. Die hierarchische Struktur wird in elements für jeden Abschnitt beibehalten. Sie können die Ausgabeantwort auf das Markdown-Format verwenden, um die Abschnitte und Unterabschnitte in Markdown auf einfache Weise abzurufen.

Beispielcode
Ausgabe

document_intelligence_client = DocumentIntelligenceClient(endpoint=endpoint, credential=AzureKeyCredential(key))
poller = document_intelligence_client.begin_analyze_document(
    "prebuilt-layout",
    AnalyzeDocumentRequest(url_source=url),
    output_content_format=ContentFormat.MARKDOWN,
)

View-Beispiele für GitHub.

{
    "sections": [
        {
        "spans": [],
        "elements": [
            "/paragraphs/0",
            "/sections/1",
            "/sections/2",
            "/sections/5"
        ]
        },
...
}

Screenshot, der Beispiele für Dokumentabschnitte zeigt.

Dieser Inhalt gilt für:v3.1 (GA) | Neueste Version:v4.0 (GA) | Frühere Versionen:v3.0v2.1

Dieser Inhalt gilt für:v3.0 (wird eingestellt) | Neueste Versionen:v4.0 (GA)v3.1 | Vorherige Version:v2.1 (wird eingestellt)

Important

Azure Document Intelligence v3.0-API (2022-08-31) endet am 30. März 2029. Um Produktionsunterbrechungen zu vermeiden, verwenden Sie Azure Document Intelligence 2024-11-30 v4.0 für alle neuen Entwicklungen, und migrieren Sie vorhandene Workloads vor diesem Datum zu Azure Document Intelligence 2024-11-30 v4.0. Anleitungen zur Migration finden Sie im Dokumentintelligenzmigrationshandbuch.

Dieser Inhalt gilt für:v2.1 | Neueste Version:v4.0 (GA)

Das Dokumentintelligenz-Layoutmodell ist eine erweiterte Dokumentanalyse-API. Das Modell basiert auf maschinellem Lernen und ist in der Document Intelligence-Cloud verfügbar. Sie können es verwenden, um Dokumente in verschiedenen Formaten zu übernehmen und strukturierte Datendarstellungen der Dokumente zurückzugeben. Es kombiniert eine verbesserte Version der leistungsstarken OCR-Funktionen mit Deep Learning-Modellen. Sie können ihn verwenden, um Text, Tabellen, Auswahlzeichen und Dokumentstruktur zu extrahieren.

Dokumentlayoutanalyse

Geometrische Rollen: Text, Tabellen, Abbildungen und Auswahlzeichen sind Beispiele für geometrische Rollen.
Logische Rollen: Titel, Überschriften und Fußzeilen sind Beispiele für logische Rollen von Texten.

Die folgende Abbildung zeigt die typischen Komponenten in einer Abbildung einer Beispielseite.

Abbildung, die ein Beispiel für ein Dokumentlayout zeigt.

Unterstützte Sprachen und Gebietsschemas

Eine vollständige Liste der unterstützten Sprachen finden Sie unter Sprachunterstützung: Dokumentanalysemodelle.

Document Intelligence v2.1 unterstützt die folgenden Tools, Anwendungen und Bibliotheken.

Feature	Ressourcen
Layoutmodell	• Tool zur Etikettierung von Document Intelligence• • SDK der Clientbibliothek • Docker-Container für Document Intelligence

Eingabeleitfaden

Unterstützte Dateiformate:

Modell	PDF	Bild: JPEG/JPG, PNG, BMP, TIFF, HEIF	Office: Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML
Lesen	✔	✔	✔
Gestaltung	✔	✔
Allgemeines Dokument	✔	✔
Vorkonfiguriert	✔	✔
Benutzerdefinierte Extraktion	✔	✔
Benutzerdefinierte Klassifizierung	✔	✔	✔

Fotos und Scans: Um optimale Ergebnisse zu erzielen, stellen Sie ein klares Foto oder eine qualitativ hochwertige Überprüfung pro Dokument bereit.
PDFs und TIFFs: Für PDFs und TIFFs können bis zu 2.000 Seiten mit einem kostenlosen Abonnement verarbeitet werden. Nur die ersten beiden Seiten werden verarbeitet.
Dateigröße: Die Dateigröße für die Analyse von Dokumenten beträgt 500 MB für die kostenpflichtige Stufe (S0) und 4 MB für die kostenlose Stufe (F0).
Bildabmessungen: Die Bildabmessungen müssen zwischen 50 Pixel x 50 Pixel und 10.000 Pixel x 10.000 Pixel betragen.
Kennwortsperrungen: Wenn Ihre PDF-Dateien kennwortgesperrt sind, müssen Sie die Sperre vor der Übermittlung entfernen.
Texthöhe: Die minimale Höhe des zu extrahierenden Texts beträgt 12 Pixel für ein Bild von 1024 x 768 Pixeln. Diese Dimension entspricht einem 8-Punkt-Text bei 150 Punkten pro Zoll.
Schulung für benutzerdefinierte Modelle: Die maximale Anzahl von Seiten für Schulungsdaten beträgt 500 für das benutzerdefinierte Vorlagenmodell und 50.000 für das benutzerdefinierte neurale Modell.
Schulung des benutzerdefinierten Extraktionsmodells: Die Gesamtgröße der Schulungsdaten beträgt 50 MB für das Vorlagenmodell und 1 GB für das neurale Modell.
Schulung des benutzerdefinierten Klassifizierungsmodells: Die Gesamtgröße der Schulungsdaten beträgt 1 GB mit maximal 10.000 Seiten. Für 2024-11-30 (GA) beträgt die Gesamtgröße der Schulungsdaten 2 GB mit maximal 10.000 Seiten.
Office-Dateitypen (DOCX, XLSX, PPTX):Die maximale Zeichenfolgenlängenbeschränkung beträgt 8 Millionen Zeichen.

Eingabeleitfaden

Unterstützte Dateiformate: JPEG, PNG, PDF und TIFF.
Unterstützte Seitenanzahl: Für PDF und TIFF werden bis zu 2.000 Seiten verarbeitet. Für Abonnenten der kostenlosen Ebene werden nur die ersten beiden Seiten verarbeitet.
Unterstützte Dateigröße: Die Dateigröße muss kleiner als 50 MB sein, und die Abmessungen müssen mindestens 50 x 50 Pixel und höchstens 10.000 x 10.000 Pixel betragen.

Beginnen

Mithilfe der Dokumentintelligenz können Sie Daten wie Text, Tabellen, Tabellenüberschriften, Auswahlzeichen und Strukturinformationen aus Dokumenten extrahieren. Sie benötigen die folgenden Ressourcen:

Ein Azure-Abonnement. Sie können eine kostenlos erstellen.
Eine Document Intelligence-Instanz im Azure-Portal. Sie können das kostenlose Preisniveau (F0) verwenden, um den Dienst zu testen. Nachdem Ihre Ressource bereitgestellt wurde, wählen Sie "Zur Ressource wechseln " aus, um Ihren Schlüssel und Endpunkt abzurufen.

Screenshot, der die Schlüssel und den Endpunktspeicherort im Azure-Portal zeigt.

Nachdem Sie Ihren Schlüssel und Endpunkt abgerufen haben, können Sie die folgenden Entwicklungsoptionen verwenden, um Ihre Document Intelligence-Anwendungen zu erstellen und bereitzustellen.

Hinweis

Document Intelligence Studio ist mit v3.0-APIs und höheren Versionen verfügbar.

REST-API

Document Intelligence v2.1 (Formularerkennung)

Dokument Intelligenz-Tool für die Beschriftung von Beispielen

Wechseln Sie zum Dokumentintelligenz-Beispielbezeichnungstool.
Wählen Sie auf der Startseite des Beispieltools " Layout verwenden" aus, um Text, Tabellen und Auswahlzeichen abzurufen.
Fügen Sie im Feld "Document Intelligence-Dienstendpunkt " den Endpunkt ein, den Sie mit Ihrem Document Intelligence-Abonnement erhalten haben.
Fügen Sie im Schlüsselfeld den Schlüssel ein, den Sie aus Ihrer Document Intelligence-Ressource abgerufen haben.
Wählen Sie im Feld "Quelle " im Dropdownmenü die URL aus. Sie können das Beispieldokument verwenden:
- Sample-Dokument.
- Wählen Sie "Abrufen" aus.
Wählen Sie "Layout ausführen" aus. Das "Document Intelligence Sample Labeling Tool" ruft die Analyze-Layout-API auf, um das Dokument zu analysieren.
Zeigen Sie die Ergebnisse an. Sehen Sie sich den hervorgehobenen extrahierten Text, erkannte Auswahlzeichen und erkannte Tabellen an.

Document Intelligence v2.1 unterstützt die folgenden Tools, Anwendungen und Bibliotheken.

Feature	Ressourcen
Layout-API	• Tool zur Etikettierung von Document Intelligence• • SDK der Clientbibliothek • Docker-Container für Document Intelligence

Extrahieren von Daten

Das Layoutmodell extrahiert Strukturelemente aus Ihren Dokumenten. Die Strukturelemente werden hier beschrieben, und die folgenden Anleitungen zeigen Ihnen, wie Sie sie aus der Dokumenteingabe extrahieren.

Seite
Absatz
Text, Zeile und Wort
Auswahlzeichen
Tabelle
Anmerkungen

Seite

Die pages Auflistung ist eine Liste von Seiten innerhalb des Dokuments. Jede Seite wird sequenziell innerhalb des Dokuments dargestellt und enthält den Ausrichtungswinkel, der angibt, ob die Seite gedreht wird, sowie die Breite und Höhe (Abmessungen in Pixeln). Die Seiteneinheiten in der Modellausgabe werden berechnet, wie in der folgenden Tabelle dargestellt.

Dateiformat	Berechnete Seiteneinheit	Gesamtseiten
Bilder (JPEG/JPG, PNG, BMP, HEIF)	Jedes Bild = 1 Seiteneinheit.	Gesamtanzahl der Bilder
PDF	Jede Seite in der PDF = 1 Seiteneinheit.	Gesamtanzahl der Seiten in der PDF-Datei
TIFF	Jedes Bild in der TIFF = 1 Seiteneinheit.	Gesamtbilder im TIFF
Word-Dokument (DOCX)	Bis zu 3.000 Zeichen = 1 Seiteneinheit. Eingebettete oder verknüpfte Bilder werden nicht unterstützt.	Gesamtseiten mit bis zu 3.000 Zeichen pro Seite
Excel (XLSX)	Jedes Arbeitsblatt = 1 Seiteneinheit. Eingebettete oder verknüpfte Bilder werden nicht unterstützt.	Gesamtanzahl der Arbeitsblätter
PowerPoint (PPTX)	Jede Folie = 1 Seiteneinheit. Eingebettete oder verknüpfte Bilder werden nicht unterstützt.	Gesamtanzahl der Folien
HTML	Bis zu 3.000 Zeichen = 1 Seiteneinheit. Eingebettete oder verknüpfte Bilder werden nicht unterstützt.	Gesamtseiten mit bis zu 3.000 Zeichen pro Seite

"pages": [
    {
        "pageNumber": 1,
        "angle": 0,
        "width": 915,
        "height": 1190,
        "unit": "pixel",
        "words": [],
        "lines": [],
        "spans": []
    }
]

Beispielcode
Ausgabe

# Analyze pages.
for page in result.pages:
    print(f"----Analyzing layout from page #{page.page_number}----")
    print(
        f"Page has width: {page.width} and height: {page.height}, measured with unit: {page.unit}"
    )

View-Beispiele für GitHub.

"pages": [
    {
        "pageNumber": 1,
        "angle": 0,
        "width": 915,
        "height": 1190,
        "unit": "pixel",
        "words": [],
        "lines": [],
        "spans": []
    }
]

Extrahieren ausgewählter Seiten aus Dokumenten

Verwenden Sie für große mehrseitige Dokumente den pages Abfrageparameter, um bestimmte Seitenzahlen oder Seitenbereiche für die Textextraktion anzugeben.

Absatz

Das Layoutmodell extrahiert alle identifizierten Textblöcke in der paragraphs Auflistung als Objekt der obersten Ebene unter analyzeResults. Jeder Eintrag in dieser Sammlung stellt einen Textblock dar und enthält den extrahierten Text als content sowie die Koordinaten des Begrenzungspolygons (polygon). Die span Informationen weisen auf das Textfragment innerhalb der Eigenschaft der obersten Ebene content hin, die den vollständigen Text aus dem Dokument enthält.


"paragraphs": [
    {
        "spans": [],
        "boundingRegions": [],
        "content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
    }
]

Absatzrolle

Die neue Seitenobjekterkennung basierend auf maschinellem Lernen extrahiert logische Rollen wie Titel, Abschnittsüberschriften, Seitenkopfzeilen, Seitenfußzeilen und vieles mehr. Das Dokumentintelligenz-Layoutmodell weist bestimmten Textblöcken in der paragraphs-Sammlung ihre jeweilige, vom Modell vorhergesagte Rolle oder Typ zu. Es ist am besten, Absatzrollen mit unstrukturierten Dokumenten zu verwenden, um das Layout des extrahierten Inhalts für eine umfangreichere semantische Analyse zu verstehen. Die folgenden Absatzrollen werden unterstützt.

Vorhergesagte Rolle	Beschreibung	Unterstützte Dateitypen
`title`	Die Hauptüberschriften auf der Seite	PDF, Bild, DOCX, PPTX, XLSX, HTML
`sectionHeading`	Eine oder mehrere Unterüberschriften auf der Seite	PDF, Bild, DOCX, XLSX, HTML
`footnote`	Text am unteren Rand der Seite	PDF, Bild
`pageHeader`	Text am oberen Rand der Seite	PDF, Bild, DOCX
`pageFooter`	Text am unteren Rand der Seite	PDF, Bild, DOCX, PPTX, HTML
`pageNumber`	Seitenzahl	PDF, Bild

{
    "paragraphs": [
                {
                    "spans": [],
                    "boundingRegions": [],
                    "role": "title",
                    "content": "NEWS TODAY"
                },
                {
                    "spans": [],
                    "boundingRegions": [],
                    "role": "sectionHeading",
                    "content": "Mirjam Nilsson"
                }
    ]
}

Text, Zeile und Wort

Das Dokumentlayoutmodell in Document Intelligence extrahiert Druck- und handschriftlichen Text als Zeilen und Wörter. Die styles Sammlung umfasst jeden handschriftlichen Stil für Zeilen, falls dieser zusammen mit den zugehörigen Spannen erkannt wird, die auf den zugeordneten Text verweisen. Dieses Feature gilt für unterstützte handschriftliche Sprachen.

Für Word, Excel, PowerPoint und HTML extrahiert das Layoutmodell Document Intelligence v4.0 2024-11-30 (GA) den gesamten eingebetteten Text wie folgt. Texte werden als Wörter und Absätze extrahiert. Eingebettete Bilder werden nicht unterstützt.

"words": [
    {
        "content": "While",
        "polygon": [],
        "confidence": 0.997,
        "span": {}
    },
],
"lines": [
    {
        "content": "While healthcare is still in the early stages of its Al journey, we",
        "polygon": [],
        "spans": [],
    }
]

Beispielcode
Ausgabe

# Analyze lines.
for line_idx, line in enumerate(page.lines):
    words = line.get_words()
    print(
        f"...Line # {line_idx} has word count {len(words)} and text '{line.content}' "
        f"within bounding polygon '{format_polygon(line.polygon)}'"
    )

    # Analyze words.
    for word in words:
        print(
            f"......Word '{word.content}' has a confidence of {word.confidence}"
        )

View-Beispiele für GitHub.

"words": [
    {
        "content": "While",
        "polygon": [],
        "confidence": 0.997,
        "span": {}
    },
],
"lines": [
    {
        "content": "While healthcare is still in the early stages of its Al journey, we",
        "polygon": [],
        "spans": [],
    }
]

Handschriftlicher Stil

Die Antwort enthält die Klassifizierung, ob jede Textzeile handschriftlich formatiert ist oder nicht, zusammen mit einer Konfidenzbewertung. Weitere Informationen finden Sie unter Unterstützung von handschriftlichen Sprachen. Das folgende Beispiel zeigt einen Beispiel-JSON-Codeausschnitt.

"styles": [
{
    "confidence": 0.95,
    "spans": [
    {
        "offset": 509,
        "length": 24
    }
    "isHandwritten": true
    ]
}

Wenn Sie die Add-On-Funktion "Schriftart/Formatvorlage" aktivieren, erhalten Sie auch das Schriftart-/Formatvorlagenergebnis als Teil des styles Objekts.

Auswahlzeichen

{
    "selectionMarks": [
        {
            "state": "unselected",
            "polygon": [],
            "confidence": 0.995,
            "span": {
                "offset": 1421,
                "length": 12
            }
        }
    ]
}

Beispielcode
Ausgabe

# Analyze selection marks.
for selection_mark in page.selection_marks:
    print(
        f"Selection mark is '{selection_mark.state}' within bounding polygon "
        f"'{format_polygon(selection_mark.polygon)}' and has a confidence of {selection_mark.confidence}"
    )

View-Beispiele für GitHub.

{
    "selectionMarks": [
        {
            "state": "unselected",
            "polygon": [],
            "confidence": 0.995,
            "span": {
                "offset": 1421,
                "length": 12
            }
        }
    ]
}

Tabelle

Das Modell unterstützt das Extrahieren von Tabellen, die gedreht werden. Jede Tabellenzelle enthält die Zeilen- und Spaltenindizes sowie die Begrenzungspolygonkoordinaten. Für den Zellentext gibt das Modell die span-Informationen aus, die den Startindex (offset) enthalten. Das Modell gibt auch den length innerhalb des übergeordneten Inhalts aus, der den Volltext aus dem Dokument enthält.

Folgende Faktoren sollten Sie bei der Verwendung der Extraktionsfunktion von Dokument Intelligenz berücksichtigen:

Sind die Daten, die Sie extrahieren möchten, als Tabelle dargestellt, und ist die Tabellenstruktur aussagekräftig?
Können die Daten in ein zweidimensionales Raster passen, wenn sich die Daten nicht in einem Tabellenformat befinden?
Umfassen Ihre Tabellen mehrere Seiten? Wenn ja, müssen Sie nicht alle Seiten beschriften, indem Sie die PDF-Datei in Seiten aufteilen, bevor Sie sie an Dokumentintelligenz senden. Nach der Analyse verarbeiten Sie die Seiten in eine einzige Tabelle.
Siehe Tabellarische Felder , wenn Sie benutzerdefinierte Modelle erstellen. Dynamische Tabellen weisen eine variable Anzahl von Zeilen für jede Spalte auf. Feste Tabellen weisen eine konstante Anzahl von Zeilen für jede Spalte auf.

Hinweis

Die Tabellenanalyse wird nicht unterstützt, wenn die Eingabedatei XLSX ist. Document Intelligence v4.0 2024-11-30 (GA) unterstützt Begrenzungsbereiche für Abbildungen und Tabellen, die nur den Kerninhalt abdecken und die zugeordneten Beschriftungen und Fußnoten ausschließen.

{
    "tables": [
        {
            "rowCount": 9,
            "columnCount": 4,
            "cells": [
                {
                    "kind": "columnHeader",
                    "rowIndex": 0,
                    "columnIndex": 0,
                    "columnSpan": 4,
                    "content": "(In millions, except earnings per share)",
                    "boundingRegions": [],
                    "spans": []
                    },
            ]
        }
    ]
}

Beispielcode
Ausgabe

# Analyze tables.
for table_idx, table in enumerate(result.tables):
    print(
        f"Table # {table_idx} has {table.row_count} rows and "
        f"{table.column_count} columns"
    )
    for region in table.bounding_regions:
        print(
            f"Table # {table_idx} location on page: {region.page_number} is {format_polygon(region.polygon)}"
        )
    for cell in table.cells:
        print(
            f"...Cell[{cell.row_index}][{cell.column_index}] has text '{cell.content}'"
        )
        for region in cell.bounding_regions:
            print(
                f"...content on page {region.page_number} is within bounding polygon '{format_polygon(region.polygon)}'"
            )

View-Beispiele für GitHub.

{
    "tables": [
        {
            "rowCount": 9,
            "columnCount": 4,
            "cells": [
                {
                    "kind": "columnHeader",
                    "rowIndex": 0,
                    "columnIndex": 0,
                    "columnSpan": 4,
                    "content": "(In millions, except earnings per share)",
                    "boundingRegions": [],
                    "spans": []
                    },
            ]
        }
    ]
}

Anmerkungen

Das Layoutmodell extrahiert Anmerkungen in Dokumenten, wie z. B. Häkchen und Kreuze. Die Antwort enthält die Art der Anmerkung, zusammen mit einer Konfidenzbewertung und einem Begrenzungspolygon.

    {
    "pages": [
    {
        "annotations": [
        {
            "kind": "cross",
            "polygon": [...],
            "confidence": 1
        }
        ]
    }
    ]
}

Ausgabe der natürlichen Leserichtung (nur lateinische Sprachen)

Sie können die Reihenfolge angeben, in der die Textzeilen mit dem readingOrder Abfrageparameter ausgegeben werden. Verwenden Sie natural für eine nutzerfreundlichere Ausgabe der Lesereihenfolge, wie im folgenden Beispiel gezeigt. Dieses Feature wird nur für lateinische Sprachen unterstützt.

Auswählen der Seitenzahl oder des Bereichs für die Textextraktion

Verwenden Sie für große mehrseitige Dokumente den pages Abfrageparameter, um bestimmte Seitenzahlen oder Seitenbereiche für die Textextraktion anzugeben. Das folgende Beispiel zeigt ein Dokument mit 10 Seiten, wobei Text für beide Fälle extrahiert wurde, alle Seiten (1-10) und ausgewählte Seiten (3-6).

Screenshot, der die Ausgabe des Layoutmodells für ausgewählte Seiten zeigt.

Der Vorgang "Ergebnis der Layout-Analyse abrufen"

Der zweite Schritt besteht darin, den Get Analyze Layout Result Vorgang aufzurufen. Dieser Vorgang verwendet als Eingabe der Ergebnis-ID, die der Analyze Layout Vorgang erstellt hat. Sie gibt eine JSON-Antwort zurück, die ein Statusfeld mit den folgenden möglichen Werten enthält.

Feld	Typ	Mögliche Werte
Status	Schnur	`notStarted`: Der Analysevorgang wird nicht gestartet. `running`: Der Analysevorgang ist in Bearbeitung. `failed`: Der Analysevorgang ist fehlgeschlagen. `succeeded`: Der Analysevorgang war erfolgreich.

Rufen Sie diesen Vorgang iterativ auf, bis er den succeeded Wert zurückgibt. Um eine Überschreitung der Anfragen pro Sekunde zu vermeiden, verwenden Sie ein Intervall von drei bis fünf Sekunden.

Wenn das Statusfeld den succeeded Wert aufweist, enthält die JSON-Antwort das extrahierte Layout, Text, Tabellen und Auswahlzeichen. Die extrahierten Daten enthalten die extrahierten Textzeilen und Wörter, Begrenzungsrahmen, die handschriftliche Anzeige von Textdarstellung, Tabellen und Auswahlmarkierungen mit der Angabe „ausgewählt“ oder „nicht ausgewählt“.

Handschriftliche Klassifizierung für Textzeilen (nur Lateinisch)

Die Antwort enthält die Klassifizierung, ob jede Textzeile einen handschriftlichen Stil aufweist oder nicht, zusammen mit einem Konfidenzwert. Dieses Feature wird nur für lateinische Sprachen unterstützt. Das folgende Beispiel zeigt die handschriftliche Klassifizierung für den Text in der Abbildung.

Screenshot: Handschriftklassifizierungsprozess des Layoutmodells

Beispielausgabe für JSON

Die Antwort auf den Get Analyze Layout Result Vorgang ist eine strukturierte Darstellung des Dokuments mit allen extrahierten Informationen. Siehe eine Beispiel-Dokumentdatei und deren strukturierte Ausgabe Beispiel-Layoutausgabe.

Die JSON-Ausgabe umfasst zwei Teile:

Der readResults Knoten enthält alle erkannten Text- und Auswahlzeichen. Die Textpräsentationshierarchie ist Seite, Zeile und dann einzelne Wörter.
Der Knoten pageResults enthält die Tabellen und Zellen, die mit ihren Begrenzungsrahmen, Konfidenz und einem Verweis auf die Zeilen und Wörter im Feld readResults extrahiert wurden.

Beispielausgabe

Text

Die Layout-API extrahiert Text aus Dokumenten und Bildern mit mehreren Textwinkeln und Farben. Es akzeptiert Fotos von Dokumenten, Faxen, gedruckten und/oder handschriftlichen Text (nur englisch) und gemischten Modi. Text wird mit Informationen zu Zeilen, Wörtern, Begrenzungsrahmen, Konfidenzbewertungen und Stil (handschriftlich oder anderer) extrahiert. Alle Textinformationen sind im readResults Abschnitt der JSON-Ausgabe enthalten.

Tabellen mit Kopfzeilen

Die Layout-API extrahiert Tabellen im pageResults Abschnitt der JSON-Ausgabe. Sie können Dokumente scannen, fotografieren oder digitalisieren. Tabellen können mit verbundenen Zellen oder Spalten, mit oder ohne Rahmen und mit ungeraden Winkeln komplex sein.

Extrahierte Tabelleninformationen umfassen die Anzahl der Spalten und Zeilen, die Zeilenspanne und die Spaltenspanne. Jede Zelle mit ihrem Begrenzungsrahmen wird zusammen mit Informationen ausgegeben, unabhängig davon, ob der Bereich als Teil einer Kopfzeile erkannt werden oder nicht. Die vom Modell vorhergesagten Kopfzeilen-Zellen können mehrere Zeilen umfassen und sind nicht unbedingt die ersten Zeilen in einer Tabelle. Sie arbeiten auch mit gedrehten Tabellen. Jede Tabellenzelle enthält auch den vollständigen Text mit Verweisen auf die einzelnen Wörter im readResults Abschnitt.

Abbildung, die ein Beispiel für Tabellen zeigt.

Auswahlzeichen (Dokumente)

Die Layout-API extrahiert auch Auswahlmarkierungen aus Dokumenten. Extrahierte Auswahlmarkierungen enthalten den Begrenzungsrahmen, die Konfidenz (Zuverlässigkeit) und den Status („ausgewählt“ oder „nicht ausgewählt“). Auswahlzeicheninformationen werden im readResults Abschnitt der JSON-Ausgabe extrahiert.

Migrationshandbuch

Wenn Sie erfahren möchten, wie Sie die Version v3.1 in Ihren Anwendungen und Workflows verwenden, führen Sie die Schritte im Migrationshandbuch zur Dokumentintelligenz v3.1 aus.
Wenn Sie v3.0 verwenden, migrieren Sie vor dem 30. März 2029 zu v4.0. Verwenden Sie das Dokumentintelligenzmigrationshandbuch und die v4.0-Schnellstartanleitung.

Erfahren Sie, wie Sie Ihre eigenen Formulare und Dokumente mit Document Intelligence Studio verarbeiten.
Schließen Sie eine Dokumentintelligenz-Schnellstartanleitung ab, und erstellen Sie eine Dokumentverarbeitungs-App in der Entwicklungssprache Ihrer Wahl.

Finden Sie weitere Beispiele zu GitHub.

Finden Sie weitere Beispiele zu GitHub.

Erfahren Sie, wie Sie Ihre eigenen Formulare und Dokumente mit dem Dokumentintelligenz-Beispielbezeichnungstool verarbeiten.
Schließen Sie eine Dokumentintelligenz-Schnellstartanleitung ab, und erstellen Sie eine Dokumentverarbeitungs-App in der Entwicklungssprache Ihrer Wahl.

Feedback

War diese Seite hilfreich?

Last updated on 2026-05-12

Was ist das Dokumentintelligenz-Layoutmodell?

Layoutanalyse der Dokumentstruktur

Entwicklungsoptionen

Unterstützte Sprachen

Unterstützte Dateitypen

Eingabeanforderungen

Erste Schritte mit dem Layoutmodell

Datenextraktion

Seiten

Extrahieren ausgewählter Seiten

Absätze

Absatzrollen

Text, Zeilen und Wörter

Handschriftlicher Stil für Textzeilen

Auswahlmarkierungen

Tabellen

Ausgabeantwort in Markdown-Format

Zahlen

Abschnitte

Dokumentlayoutanalyse

Unterstützte Sprachen und Gebietsschemas

Eingabeleitfaden

Eingabeleitfaden

Beginnen

REST-API

Dokument Intelligenz-Tool für die Beschriftung von Beispielen

Extrahieren von Daten

Extrahieren von Daten

Seite

Extrahieren ausgewählter Seiten aus Dokumenten

Absatz

Absatzrolle

Text, Zeile und Wort

Handschriftlicher Stil

Auswahlzeichen

Tabelle

Anmerkungen

Ausgabe der natürlichen Leserichtung (nur lateinische Sprachen)

Auswählen der Seitenzahl oder des Bereichs für die Textextraktion

Der Vorgang "Ergebnis der Layout-Analyse abrufen"

Handschriftliche Klassifizierung für Textzeilen (nur Lateinisch)

Beispielausgabe für JSON

Beispielausgabe

Text

Tabellen mit Kopfzeilen

Auswahlzeichen (Dokumente)

Migrationshandbuch

Verwandte Inhalte

Feedback

Zusätzliche Ressourcen