Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Dieser Inhalt gilt für:
v4.0 (GA) | Frühere Versionen:
v3.1 (GA)
v3.0 (wird eingestellt)
v2.1 (wird eingestellt)
Das Layoutmodell Azure Document Intelligence in Foundry Tools ist eine erweiterte Dokumentanalyse-API basierend auf maschinellem Lernen. Das Modell ist in der Document Intelligence-Cloud verfügbar. Sie können es verwenden, um Dokumente in verschiedenen Formaten zu übernehmen und strukturierte Datendarstellungen der Dokumente zurückzugeben. Das Modell kombiniert eine verbesserte Version der leistungsstarken Funktionen für die optische Zeichenerkennung (OCR) mit Deep Learning-Modellen zum Extrahieren von Text, Tabellen, Auswahlzeichen und Dokumentstruktur.
Layoutanalyse der Dokumentstruktur
Die Layoutanalyse der Dokumentstruktur ist der Prozess der Analyse eines Dokuments, um interessante Bereiche und ihre Beziehungen zu extrahieren. Ziel ist es, Text- und Strukturelemente von der Seite zu extrahieren, um bessere Semantikverständnismodelle zu erstellen. Es gibt zwei Arten von Rollen in einem Dokumentlayout:
- Geometrische Rollen: Text, Tabellen, Abbildungen und Auswahlzeichen sind Beispiele für geometrische Rollen.
- Logische Rollen: Titel, Überschriften und Fußzeilen sind Beispiele für logische Rollen von Texten.
Die folgende Abbildung zeigt die typischen Komponenten in einer Abbildung einer Beispielseite.
Entwicklungsoptionen
Document Intelligence v4.0: 2024-11-30 (GA) unterstützt die folgenden Tools, Anwendungen und Bibliotheken.
| Feature | Ressourcen | Modell-ID |
|---|---|---|
| Layoutmodell | • Document Intelligence Studio • REST-API • C#SDK • Python SDK • Java SDK • JavaScript SDK |
prebuilt-layout |
Unterstützte Sprachen
Eine vollständige Liste der unterstützten Sprachen finden Sie unter Sprachunterstützung: Dokumentanalysemodelle.
Unterstützte Dateitypen
Document Intelligence v4.0: 2024-11-30 (GA)-Layoutmodell unterstützt die folgenden Dateiformate:
| Modell | Bild: JPEG/JPG, PNG, BMP, TIFF, HEIF |
Office: Word (DOCX), Excel (XLS), PowerPoint (PPTX), HTML |
|
|---|---|---|---|
| Gestaltung | ✔ | ✔ | ✔ |
Eingabeanforderungen
- Fotos und Scans: Um optimale Ergebnisse zu erzielen, stellen Sie ein klares Foto oder eine qualitativ hochwertige Überprüfung pro Dokument bereit.
- PDFs und TIFFs: Für PDFs und TIFFs können bis zu 2.000 Seiten verarbeitet werden. (Bei einem kostenlosen Abonnement werden nur die ersten beiden Seiten verarbeitet.)
- Kennwortsperrungen: Wenn Ihre PDF-Dateien kennwortgesperrt sind, müssen Sie die Sperre vor der Übermittlung entfernen.
- Dateigröße: Die Dateigröße für die Analyse von Dokumenten beträgt 500 MB für die kostenpflichtige Stufe (S0) und 4 MB für die kostenlose Stufe (F0).
- Bildabmessungen: Die Bildabmessungen müssen zwischen 50 Pixel x 50 Pixel und 10.000 Pixel x 10.000 Pixel betragen.
- Texthöhe: Die minimale Höhe des zu extrahierenden Texts beträgt 12 Pixel für ein Bild von 1024 x 768 Pixeln. Diese Dimension entspricht einem 8-Punkt-Text bei 150 Punkten pro Zoll.
- Schulung für benutzerdefinierte Modelle: Die maximale Anzahl von Seiten für Schulungsdaten beträgt 500 für das benutzerdefinierte Vorlagenmodell und 50.000 für das benutzerdefinierte neurale Modell.
- Schulung des benutzerdefinierten Extraktionsmodells: Die Gesamtgröße der Schulungsdaten beträgt 50 MB für das Vorlagenmodell und 1 GB für das neurale Modell.
- Schulung des benutzerdefinierten Klassifizierungsmodells: Die Gesamtgröße der Schulungsdaten beträgt 1 GB mit maximal 10.000 Seiten. Für 2024-11-30 (GA) beträgt die Gesamtgröße der Schulungsdaten 2 GB mit maximal 10.000 Seiten.
- Office-Dateitypen (DOCX, XLSX, PPTX):Die maximale Zeichenfolgenlängenbeschränkung beträgt 8 Millionen Zeichen.
Weitere Informationen zur Modellnutzung, zu Kontingenten und Dienstgrenzwerten finden Sie unter Dienstgrenzwerte.
Erste Schritte mit dem Layoutmodell
Erfahren Sie, wie Daten, einschließlich Text, Tabellen, Tabellenüberschriften, Auswahlzeichen und Strukturinformationen, mithilfe von Dokumentintelligenz aus Dokumenten extrahiert werden. Sie benötigen die folgenden Ressourcen:
Ein Azure-Abonnement. Sie können eine kostenlos erstellen.
Eine Document Intelligence-Instanz im Azure-Portal. Sie können das kostenlose Preisniveau (F0) verwenden, um den Dienst zu testen. Nachdem Ihre Ressource bereitgestellt wurde, wählen Sie "Zur Ressource wechseln " aus, um Ihren Schlüssel und Endpunkt abzurufen.
Nachdem Sie Ihren Schlüssel und Endpunkt abgerufen haben, verwenden Sie die folgenden Entwicklungsoptionen, um Ihre Document Intelligence-Anwendungen zu erstellen und bereitzustellen.
Datenextraktion
Das Layoutmodell extrahiert Strukturelemente aus Ihren Dokumenten. Die folgenden Strukturelemente werden im restlichen Teil dieses Artikels beschrieben, zusammen mit Anleitungen zum Extrahieren dieser Elemente aus der Dokumenteingabe:
- Seiten
- Absätze
- Text, Zeilen und Wörter
- Auswahlzeichen
- Tabellen
- Antwortausgabe in Markdown
- Figuren
- Abschnitte
Führen Sie die Beispiellayoutdokumentanalyse in Document Intelligence Studio aus. Wechseln Sie dann zur Registerkarte "Ergebnisse", und greifen Sie auf die vollständige JSON-Ausgabe zu.
Seiten
Die pages Auflistung ist eine Liste von Seiten innerhalb des Dokuments. Jede Seite wird sequenziell innerhalb des Dokuments dargestellt und enthält den Ausrichtungswinkel, der angibt, ob die Seite gedreht wird, und die Breite und Höhe (Dimensionen in Pixeln). Die Seiteneinheiten in der Modellausgabe werden berechnet, wie in der folgenden Tabelle dargestellt.
| Dateiformat | Berechnete Seiteneinheit | Gesamtseiten |
|---|---|---|
| Bilder (JPEG/JPG, PNG, BMP, HEIF) | Jedes Bild = 1 Seiteneinheit. | Gesamtanzahl der Bilder |
| Jede Seite in der PDF = 1 Seiteneinheit. | Gesamtanzahl der Seiten in der PDF-Datei | |
| TIFF | Jedes Bild in der TIFF = 1 Seiteneinheit. | Gesamtbilder im TIFF |
| Word-Dokument (DOCX) | Bis zu 3.000 Zeichen = 1 Seiteneinheit. Eingebettete oder verknüpfte Bilder werden nicht unterstützt. | Gesamtseiten mit bis zu 3.000 Zeichen pro Seite |
| Excel (XLSX) | Jedes Arbeitsblatt = 1 Seiteneinheit. Eingebettete oder verknüpfte Bilder werden nicht unterstützt. | Gesamtanzahl der Arbeitsblätter |
| PowerPoint (PPTX) | Jede Folie = 1 Seiteneinheit. Eingebettete oder verknüpfte Bilder werden nicht unterstützt. | Gesamtanzahl der Folien |
| HTML | Bis zu 3.000 Zeichen = 1 Seiteneinheit. Eingebettete oder verknüpfte Bilder werden nicht unterstützt. | Gesamtseiten mit bis zu 3.000 Zeichen pro Seite |
# Analyze pages.
for page in result.pages:
print(f"----Analyzing layout from page #{page.page_number}----")
print(f"Page has width: {page.width} and height: {page.height}, measured with unit: {page.unit}")
Extrahieren ausgewählter Seiten
Verwenden Sie für große mehrseitige Dokumente den pages Abfrageparameter, um bestimmte Seitenzahlen oder Seitenbereiche für die Textextraktion anzugeben.
Absätze
Das Layoutmodell extrahiert alle identifizierten Textblöcke in der paragraphs Auflistung als Objekt der obersten Ebene unter analyzeResults. Jeder Eintrag in dieser Sammlung stellt einen Textblock dar und enthält den extrahierten Text als content und die begrenzenden Koordinaten polygon. Die spans Informationen weisen auf das Textfragment innerhalb der Eigenschaft der obersten Ebene content hin, die den vollständigen Text aus dem Dokument enthält.
"paragraphs": [
{
"spans": [],
"boundingRegions": [],
"content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
}
]
Absatzrollen
Die neue Seitenobjekterkennung basierend auf maschinellem Lernen extrahiert logische Rollen wie Titel, Abschnittsüberschriften, Seitenkopfzeilen, Seitenfußzeilen und vieles mehr. Das Dokumentintelligenz-Layoutmodell weist bestimmten Textblöcken in der paragraphs-Sammlung ihre jeweilige, vom Modell vorhergesagte Rolle oder Typ zu.
Es ist am besten, Absatzrollen mit unstrukturierten Dokumenten zu verwenden, um das Layout des extrahierten Inhalts für eine umfangreichere semantische Analyse zu verstehen. Die folgenden Absatzrollen werden unterstützt.
| Vorhergesagte Rolle | Beschreibung | Unterstützte Dateitypen |
|---|---|---|
title |
Die Hauptüberschriften auf der Seite | PDF, Bild, DOCX, PPTX, XLSX, HTML |
sectionHeading |
Eine oder mehrere Unterüberschriften auf der Seite | PDF, Bild, DOCX, XLSX, HTML |
footnote |
Text am unteren Rand der Seite | PDF, Bild |
pageHeader |
Text am oberen Rand der Seite | PDF, Bild, DOCX |
pageFooter |
Text am unteren Rand der Seite | PDF, Bild, DOCX, PPTX, HTML |
pageNumber |
Seitenzahl | PDF, Bild |
{
"paragraphs": [
{
"spans": [],
"boundingRegions": [],
"role": "title",
"content": "NEWS TODAY"
},
{
"spans": [],
"boundingRegions": [],
"role": "sectionHeading",
"content": "Mirjam Nilsson"
}
]
}
Text, Zeilen und Wörter
Das Dokumentlayoutmodell in Document Intelligence extrahiert Druck- und handschriftlichen Text als lines und words. Die styles-Sammlung enthält alle handschriftlichen Formatvorlagen für Zeilen (sofern erkannt) sowie die Spannen, die auf den zugeordneten Text verweisen. Dieses Feature gilt für unterstützte handschriftliche Sprachen.
Für Microsoft Word, Excel, PowerPoint und HTML extrahiert das Layoutmodell Document Intelligence v4.0 2024-11-30 (GA) den gesamten eingebetteten Text wie folgt. Texte werden als Wörter und Absätze extrahiert. Eingebettete Bilder werden nicht unterstützt.
# Analyze lines.
if page.lines:
for line_idx, line in enumerate(page.lines):
words = get_words(page, line)
print(
f"...Line # {line_idx} has word count {len(words)} and text '{line.content}' "
f"within bounding polygon '{line.polygon}'"
)
# Analyze words.
for word in words:
print(f"......Word '{word.content}' has a confidence of {word.confidence}")
Handschriftlicher Stil für Textzeilen
Die Antwort enthält, ob sich jede Textzeile in einem handschriftlichen Stil befindet oder nicht, zusammen mit einem Konfidenzwert. Weitere Informationen finden Sie unter Unterstützung von handschriftlichen Sprachen. Das folgende Beispiel zeigt einen Beispiel-JSON-Codeausschnitt.
"styles": [
{
"confidence": 0.95,
"spans": [
{
"offset": 509,
"length": 24
}
"isHandwritten": true
]
}
Wenn Sie die Add-On-Funktion "Schriftart/Formatvorlage" aktivieren, erhalten Sie auch das Schriftart-/Formatvorlagenergebnis als Teil des styles Objekts.
Auswahlmarkierungen
Das Layoutmodell extrahiert auch Auswahlzeichen aus Dokumenten. Extrahierte Auswahlmarkierungen werden in der pages Auflistung für jede Seite angezeigt. Sie enthalten das Begrenzungs-polygon, confidence und den Auswahl-state (selected/unselected). Die Textdarstellung (d. h. :selected: und :unselected) wird ebenfalls als Teil des Startindexes (offset) eingeschlossen, und length verweist auf die oberste Eigenschaft content, die den Volltext des Dokuments enthält.
# Analyze selection marks.
if page.selection_marks:
for selection_mark in page.selection_marks:
print(
f"Selection mark is '{selection_mark.state}' within bounding polygon "
f"'{selection_mark.polygon}' and has a confidence of {selection_mark.confidence}"
)
Tabellen
Das Extrahieren von Tabellen ist eine wichtige Voraussetzung für die Verarbeitung von Dokumenten, die große Datenmengen enthalten, die in der Regel als Tabellen formatiert sind. Das Layoutmodell extrahiert Tabellen im pageResults Abschnitt der JSON-Ausgabe. Extrahierte Tabelleninformationen umfassen die Anzahl der Spalten und Zeilen, die Zeilenspanne und die Spaltenspanne.
Jede Zelle mit ihrem Begrenzungspolygon wird zusammen mit der Information ausgegeben, ob der Bereich als columnHeader erkannt wurde oder nicht. Das Modell unterstützt das Extrahieren von Tabellen, die gedreht werden. Jede Tabellenzelle enthält die Zeilen- und Spaltenindizes sowie die Begrenzungspolygonkoordinaten. Für den Zellentext gibt das Modell die span-Informationen aus, die den Startindex (offset) enthalten. Das Modell gibt auch den length innerhalb des übergeordneten Inhalts aus, der den Volltext aus dem Dokument enthält.
Folgende Faktoren sollten Sie bei der Verwendung der Extraktionsfunktion von Dokument Intelligenz berücksichtigen:
- Sind die Daten, die Sie extrahieren möchten, als Tabelle dargestellt, und ist die Tabellenstruktur aussagekräftig?
- Können die Daten in ein zweidimensionales Raster passen, wenn sich die Daten nicht in einem Tabellenformat befinden?
- Umfassen Ihre Tabellen mehrere Seiten? Wenn ja, müssen Sie nicht alle Seiten beschriften, indem Sie die PDF-Datei in Seiten aufteilen, bevor Sie sie an Dokumentintelligenz senden. Nach der Analyse verarbeiten Sie die Seiten in eine einzige Tabelle.
- Siehe Tabellarische Felder , wenn Sie benutzerdefinierte Modelle erstellen. Dynamische Tabellen weisen eine variable Anzahl von Zeilen für jede Spalte auf. Feste Tabellen weisen eine konstante Anzahl von Zeilen für jede Spalte auf.
Hinweis
Die Tabellenanalyse wird nicht unterstützt, wenn die Eingabedatei XLSX ist. Für 2024-11-30 (GA) decken die Begrenzungsregionen für Abbildungen und Tabellen nur den Kerninhalt ab und schließen die zugeordneten Beschriftungen und Fußnoten aus.
if result.tables:
for table_idx, table in enumerate(result.tables):
print(f"Table # {table_idx} has {table.row_count} rows and " f"{table.column_count} columns")
if table.bounding_regions:
for region in table.bounding_regions:
print(f"Table # {table_idx} location on page: {region.page_number} is {region.polygon}")
# Analyze cells.
for cell in table.cells:
print(f"...Cell[{cell.row_index}][{cell.column_index}] has text '{cell.content}'")
if cell.bounding_regions:
for region in cell.bounding_regions:
print(f"...content on page {region.page_number} is within bounding polygon '{region.polygon}'")
Ausgabeantwort in Markdown-Format
Die Layout-API kann den extrahierten Text im Markdown-Format ausgeben.
outputContentFormat=markdown Geben Sie das Ausgabeformat in Markdown an. Der Markdown-Inhalt wird als Teil des content Abschnitts ausgegeben.
Hinweis
Bei v4.0 2024-11-30 (GA) wird die Darstellung von Tabellen in HTML-Tabellen geändert, um das Rendern von Elementen wie zusammengeführten Zellen und Multirow-Headern zu ermöglichen. Eine weitere verwandte Änderung besteht darin, die Unicode-Kontrollkästchenzeichen ☒ und ☐ für Auswahlzeichen anstelle und :selected::unselected:zu verwenden. Dieses Update bedeutet, dass der Inhalt von Auswahlmarkierungsfeldern :selected: enthält, obwohl sich ihre Spannen auf Unicode-Zeichen in der Spanne der obersten Ebene beziehen. Eine vollständige Definition von Markdown-Elementen finden Sie im Markdown-Ausgabeformat.
document_intelligence_client = DocumentIntelligenceClient(endpoint=endpoint, credential=AzureKeyCredential(key))
poller = document_intelligence_client.begin_analyze_document(
"prebuilt-layout",
AnalyzeDocumentRequest(url_source=url),
output_content_format=ContentFormat.MARKDOWN,
)
Zahlen
Abbildungen (Diagramme und Bilder) in Dokumenten spielen eine entscheidende Rolle bei der Ergänzung und Verbesserung des Textinhalts. Sie bieten visuelle Darstellungen, die das Verständnis komplexer Informationen unterstützen. Das figures vom Layoutmodell erkannte Objekt weist wichtige Eigenschaften auf:
-
boundingRegions: Die räumlichen Positionen der Abbildung auf den Dokumentseiten, einschließlich der Seitenzahl und der Polygonkoordinaten, die die Begrenzung der Abbildung umrissen. -
spans: Die Text-Spans, die sich auf die Abbildung beziehen und deren Offsets und Längen innerhalb des Textes des Dokuments angeben. Diese Verbindung hilft bei der Zuordnung der Figur zu ihrem relevanten textbezogenen Kontext. -
elements: Die Bezeichner für Textelemente oder Absätze im Dokument, die mit der Abbildung zusammenhängen oder beschreiben. -
caption: Die Beschreibung, falls vorhanden.
Wenn output=figures während des anfänglichen Analysevorgangs angegeben wird, generiert der Dienst zugeschnittene Bilder für alle erkannten Abbildungen, auf die über /analyeResults/{resultId}/figures/{figureId} zugegriffen werden kann. Der FigureId Wert ist die ID, die in jedem Abbildungsobjekt enthalten ist und folgt einer nicht dokumentierten Konvention von {pageNumber}.{figureIndex}, wobei figureIndex auf jeder Seite auf eins zurückgesetzt wird.
Für v4.0 2024-11-30 (GA) decken die Begrenzungsregionen für Abbildungen und Tabellen nur den Kerninhalt ab und schließen die zugeordneten Beschriftungen und Fußnoten aus.
# Analyze figures.
if result.figures:
for figures_idx,figures in enumerate(result.figures):
print(f"Figure # {figures_idx} has the following spans:{figures.spans}")
for region in figures.bounding_regions:
print(f"Figure # {figures_idx} location on page:{region.page_number} is within bounding polygon '{region.polygon}'")
Abschnitte
Die hierarchische Dokumentstrukturanalyse ist entscheidend bei der Organisation, Verständnis und Verarbeitung umfangreicher Dokumente. Dieser Ansatz ist entscheidend für die semantische Segmentierung langer Dokumente, um das Verständnis zu steigern, die Navigation zu erleichtern und den Abruf von Informationen zu verbessern. Das Aufkommen der abrufverstärkten Generation (RAG) in der dokumentgenerativen KI unterstreicht die Bedeutung der hierarchischen Dokumentstrukturanalyse.
Das Layoutmodell unterstützt Abschnitte und Unterabschnitte in der Ausgabe, die die Beziehung von Abschnitten und Objekten innerhalb jedes Abschnitts identifiziert. Die hierarchische Struktur wird in elements für jeden Abschnitt beibehalten. Sie können die Ausgabeantwort auf das Markdown-Format verwenden, um die Abschnitte und Unterabschnitte in Markdown auf einfache Weise abzurufen.
document_intelligence_client = DocumentIntelligenceClient(endpoint=endpoint, credential=AzureKeyCredential(key))
poller = document_intelligence_client.begin_analyze_document(
"prebuilt-layout",
AnalyzeDocumentRequest(url_source=url),
output_content_format=ContentFormat.MARKDOWN,
)
Dieser Inhalt gilt für:
v3.0 (wird eingestellt) | Neueste Versionen:
v4.0 (GA)
v3.1 | Vorherige Version:
v2.1 (wird eingestellt)
Important
Azure Document Intelligence v3.0-API (2022-08-31) endet am 30. März 2029. Um Produktionsunterbrechungen zu vermeiden, verwenden Sie Azure Document Intelligence 2024-11-30 v4.0 für alle neuen Entwicklungen, und migrieren Sie vorhandene Workloads vor diesem Datum zu Azure Document Intelligence 2024-11-30 v4.0. Anleitungen zur Migration finden Sie im Dokumentintelligenzmigrationshandbuch.
Dieser Inhalt gilt für:
v2.1 | Neueste Version:
v4.0 (GA)
Das Dokumentintelligenz-Layoutmodell ist eine erweiterte Dokumentanalyse-API. Das Modell basiert auf maschinellem Lernen und ist in der Document Intelligence-Cloud verfügbar. Sie können es verwenden, um Dokumente in verschiedenen Formaten zu übernehmen und strukturierte Datendarstellungen der Dokumente zurückzugeben. Es kombiniert eine verbesserte Version der leistungsstarken OCR-Funktionen mit Deep Learning-Modellen. Sie können ihn verwenden, um Text, Tabellen, Auswahlzeichen und Dokumentstruktur zu extrahieren.
Dokumentlayoutanalyse
Die Layoutanalyse der Dokumentstruktur ist der Prozess der Analyse eines Dokuments, um interessante Bereiche und ihre Beziehungen zu extrahieren. Ziel ist es, Text- und Strukturelemente von der Seite zu extrahieren, um bessere Semantikverständnismodelle zu erstellen. Es gibt zwei Arten von Rollen in einem Dokumentlayout:
- Geometrische Rollen: Text, Tabellen, Abbildungen und Auswahlzeichen sind Beispiele für geometrische Rollen.
- Logische Rollen: Titel, Überschriften und Fußzeilen sind Beispiele für logische Rollen von Texten.
Die folgende Abbildung zeigt die typischen Komponenten in einer Abbildung einer Beispielseite.
Unterstützte Sprachen und Gebietsschemas
Eine vollständige Liste der unterstützten Sprachen finden Sie unter Sprachunterstützung: Dokumentanalysemodelle.
Document Intelligence v2.1 unterstützt die folgenden Tools, Anwendungen und Bibliotheken.
| Feature | Ressourcen |
|---|---|
| Layoutmodell | • Tool zur Etikettierung von Document Intelligence• • SDK der Clientbibliothek • Docker-Container für Document Intelligence |
Eingabeleitfaden
Unterstützte Dateiformate:
| Modell | Bild: JPEG/JPG, PNG, BMP, TIFF, HEIF |
Office: Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML |
|
|---|---|---|---|
| Lesen | ✔ | ✔ | ✔ |
| Gestaltung | ✔ | ✔ | |
| Allgemeines Dokument | ✔ | ✔ | |
| Vorkonfiguriert | ✔ | ✔ | |
| Benutzerdefinierte Extraktion | ✔ | ✔ | |
| Benutzerdefinierte Klassifizierung | ✔ | ✔ | ✔ |
- Fotos und Scans: Um optimale Ergebnisse zu erzielen, stellen Sie ein klares Foto oder eine qualitativ hochwertige Überprüfung pro Dokument bereit.
- PDFs und TIFFs: Für PDFs und TIFFs können bis zu 2.000 Seiten mit einem kostenlosen Abonnement verarbeitet werden. Nur die ersten beiden Seiten werden verarbeitet.
- Dateigröße: Die Dateigröße für die Analyse von Dokumenten beträgt 500 MB für die kostenpflichtige Stufe (S0) und 4 MB für die kostenlose Stufe (F0).
- Bildabmessungen: Die Bildabmessungen müssen zwischen 50 Pixel x 50 Pixel und 10.000 Pixel x 10.000 Pixel betragen.
- Kennwortsperrungen: Wenn Ihre PDF-Dateien kennwortgesperrt sind, müssen Sie die Sperre vor der Übermittlung entfernen.
- Texthöhe: Die minimale Höhe des zu extrahierenden Texts beträgt 12 Pixel für ein Bild von 1024 x 768 Pixeln. Diese Dimension entspricht einem 8-Punkt-Text bei 150 Punkten pro Zoll.
- Schulung für benutzerdefinierte Modelle: Die maximale Anzahl von Seiten für Schulungsdaten beträgt 500 für das benutzerdefinierte Vorlagenmodell und 50.000 für das benutzerdefinierte neurale Modell.
- Schulung des benutzerdefinierten Extraktionsmodells: Die Gesamtgröße der Schulungsdaten beträgt 50 MB für das Vorlagenmodell und 1 GB für das neurale Modell.
- Schulung des benutzerdefinierten Klassifizierungsmodells: Die Gesamtgröße der Schulungsdaten beträgt 1 GB mit maximal 10.000 Seiten. Für 2024-11-30 (GA) beträgt die Gesamtgröße der Schulungsdaten 2 GB mit maximal 10.000 Seiten.
- Office-Dateitypen (DOCX, XLSX, PPTX):Die maximale Zeichenfolgenlängenbeschränkung beträgt 8 Millionen Zeichen.
Eingabeleitfaden
- Unterstützte Dateiformate: JPEG, PNG, PDF und TIFF.
- Unterstützte Seitenanzahl: Für PDF und TIFF werden bis zu 2.000 Seiten verarbeitet. Für Abonnenten der kostenlosen Ebene werden nur die ersten beiden Seiten verarbeitet.
- Unterstützte Dateigröße: Die Dateigröße muss kleiner als 50 MB sein, und die Abmessungen müssen mindestens 50 x 50 Pixel und höchstens 10.000 x 10.000 Pixel betragen.
Beginnen
Mithilfe der Dokumentintelligenz können Sie Daten wie Text, Tabellen, Tabellenüberschriften, Auswahlzeichen und Strukturinformationen aus Dokumenten extrahieren. Sie benötigen die folgenden Ressourcen:
- Ein Azure-Abonnement. Sie können eine kostenlos erstellen.
- Eine Document Intelligence-Instanz im Azure-Portal. Sie können das kostenlose Preisniveau (F0) verwenden, um den Dienst zu testen. Nachdem Ihre Ressource bereitgestellt wurde, wählen Sie "Zur Ressource wechseln " aus, um Ihren Schlüssel und Endpunkt abzurufen.
Nachdem Sie Ihren Schlüssel und Endpunkt abgerufen haben, können Sie die folgenden Entwicklungsoptionen verwenden, um Ihre Document Intelligence-Anwendungen zu erstellen und bereitzustellen.
Hinweis
Document Intelligence Studio ist mit v3.0-APIs und höheren Versionen verfügbar.
REST-API
Dokument Intelligenz-Tool für die Beschriftung von Beispielen
Wechseln Sie zum Dokumentintelligenz-Beispielbezeichnungstool.
Wählen Sie auf der Startseite des Beispieltools " Layout verwenden" aus, um Text, Tabellen und Auswahlzeichen abzurufen.
Fügen Sie im Feld "Document Intelligence-Dienstendpunkt " den Endpunkt ein, den Sie mit Ihrem Document Intelligence-Abonnement erhalten haben.
Fügen Sie im Schlüsselfeld den Schlüssel ein, den Sie aus Ihrer Document Intelligence-Ressource abgerufen haben.
Wählen Sie im Feld "Quelle " im Dropdownmenü die URL aus. Sie können das Beispieldokument verwenden:
Wählen Sie "Abrufen" aus.
Wählen Sie "Layout ausführen" aus. Das "Document Intelligence Sample Labeling Tool" ruft die Analyze-Layout-API auf, um das Dokument zu analysieren.
Zeigen Sie die Ergebnisse an. Sehen Sie sich den hervorgehobenen extrahierten Text, erkannte Auswahlzeichen und erkannte Tabellen an.
Document Intelligence v2.1 unterstützt die folgenden Tools, Anwendungen und Bibliotheken.
| Feature | Ressourcen |
|---|---|
| Layout-API | • Tool zur Etikettierung von Document Intelligence• • SDK der Clientbibliothek • Docker-Container für Document Intelligence |
Extrahieren von Daten
Das Layoutmodell extrahiert Strukturelemente aus Ihren Dokumenten. Die Strukturelemente werden hier beschrieben, und die folgenden Anleitungen zeigen Ihnen, wie Sie sie aus der Dokumenteingabe extrahieren.
Extrahieren von Daten
Das Layoutmodell extrahiert Strukturelemente aus Ihren Dokumenten. Die Strukturelemente werden hier beschrieben, und die folgenden Anleitungen zeigen Ihnen, wie Sie sie aus der Dokumenteingabe extrahieren.
Seite
Die pages Auflistung ist eine Liste von Seiten innerhalb des Dokuments. Jede Seite wird sequenziell innerhalb des Dokuments dargestellt und enthält den Ausrichtungswinkel, der angibt, ob die Seite gedreht wird, sowie die Breite und Höhe (Abmessungen in Pixeln). Die Seiteneinheiten in der Modellausgabe werden berechnet, wie in der folgenden Tabelle dargestellt.
| Dateiformat | Berechnete Seiteneinheit | Gesamtseiten |
|---|---|---|
| Bilder (JPEG/JPG, PNG, BMP, HEIF) | Jedes Bild = 1 Seiteneinheit. | Gesamtanzahl der Bilder |
| Jede Seite in der PDF = 1 Seiteneinheit. | Gesamtanzahl der Seiten in der PDF-Datei | |
| TIFF | Jedes Bild in der TIFF = 1 Seiteneinheit. | Gesamtbilder im TIFF |
| Word-Dokument (DOCX) | Bis zu 3.000 Zeichen = 1 Seiteneinheit. Eingebettete oder verknüpfte Bilder werden nicht unterstützt. | Gesamtseiten mit bis zu 3.000 Zeichen pro Seite |
| Excel (XLSX) | Jedes Arbeitsblatt = 1 Seiteneinheit. Eingebettete oder verknüpfte Bilder werden nicht unterstützt. | Gesamtanzahl der Arbeitsblätter |
| PowerPoint (PPTX) | Jede Folie = 1 Seiteneinheit. Eingebettete oder verknüpfte Bilder werden nicht unterstützt. | Gesamtanzahl der Folien |
| HTML | Bis zu 3.000 Zeichen = 1 Seiteneinheit. Eingebettete oder verknüpfte Bilder werden nicht unterstützt. | Gesamtseiten mit bis zu 3.000 Zeichen pro Seite |
"pages": [
{
"pageNumber": 1,
"angle": 0,
"width": 915,
"height": 1190,
"unit": "pixel",
"words": [],
"lines": [],
"spans": []
}
]
# Analyze pages.
for page in result.pages:
print(f"----Analyzing layout from page #{page.page_number}----")
print(
f"Page has width: {page.width} and height: {page.height}, measured with unit: {page.unit}"
)
Extrahieren ausgewählter Seiten aus Dokumenten
Verwenden Sie für große mehrseitige Dokumente den pages Abfrageparameter, um bestimmte Seitenzahlen oder Seitenbereiche für die Textextraktion anzugeben.
Absatz
Das Layoutmodell extrahiert alle identifizierten Textblöcke in der paragraphs Auflistung als Objekt der obersten Ebene unter analyzeResults. Jeder Eintrag in dieser Sammlung stellt einen Textblock dar und enthält den extrahierten Text als content sowie die Koordinaten des Begrenzungspolygons (polygon). Die span Informationen weisen auf das Textfragment innerhalb der Eigenschaft der obersten Ebene content hin, die den vollständigen Text aus dem Dokument enthält.
"paragraphs": [
{
"spans": [],
"boundingRegions": [],
"content": "While healthcare is still in the early stages of its Al journey, we are seeing pharmaceutical and other life sciences organizations making major investments in Al and related technologies.\" TOM LAWRY | National Director for Al, Health and Life Sciences | Microsoft"
}
]
Absatzrolle
Die neue Seitenobjekterkennung basierend auf maschinellem Lernen extrahiert logische Rollen wie Titel, Abschnittsüberschriften, Seitenkopfzeilen, Seitenfußzeilen und vieles mehr. Das Dokumentintelligenz-Layoutmodell weist bestimmten Textblöcken in der paragraphs-Sammlung ihre jeweilige, vom Modell vorhergesagte Rolle oder Typ zu. Es ist am besten, Absatzrollen mit unstrukturierten Dokumenten zu verwenden, um das Layout des extrahierten Inhalts für eine umfangreichere semantische Analyse zu verstehen. Die folgenden Absatzrollen werden unterstützt.
| Vorhergesagte Rolle | Beschreibung | Unterstützte Dateitypen |
|---|---|---|
title |
Die Hauptüberschriften auf der Seite | PDF, Bild, DOCX, PPTX, XLSX, HTML |
sectionHeading |
Eine oder mehrere Unterüberschriften auf der Seite | PDF, Bild, DOCX, XLSX, HTML |
footnote |
Text am unteren Rand der Seite | PDF, Bild |
pageHeader |
Text am oberen Rand der Seite | PDF, Bild, DOCX |
pageFooter |
Text am unteren Rand der Seite | PDF, Bild, DOCX, PPTX, HTML |
pageNumber |
Seitenzahl | PDF, Bild |
{
"paragraphs": [
{
"spans": [],
"boundingRegions": [],
"role": "title",
"content": "NEWS TODAY"
},
{
"spans": [],
"boundingRegions": [],
"role": "sectionHeading",
"content": "Mirjam Nilsson"
}
]
}
Text, Zeile und Wort
Das Dokumentlayoutmodell in Document Intelligence extrahiert Druck- und handschriftlichen Text als Zeilen und Wörter. Die styles Sammlung umfasst jeden handschriftlichen Stil für Zeilen, falls dieser zusammen mit den zugehörigen Spannen erkannt wird, die auf den zugeordneten Text verweisen. Dieses Feature gilt für unterstützte handschriftliche Sprachen.
Für Word, Excel, PowerPoint und HTML extrahiert das Layoutmodell Document Intelligence v4.0 2024-11-30 (GA) den gesamten eingebetteten Text wie folgt. Texte werden als Wörter und Absätze extrahiert. Eingebettete Bilder werden nicht unterstützt.
"words": [
{
"content": "While",
"polygon": [],
"confidence": 0.997,
"span": {}
},
],
"lines": [
{
"content": "While healthcare is still in the early stages of its Al journey, we",
"polygon": [],
"spans": [],
}
]
# Analyze lines.
for line_idx, line in enumerate(page.lines):
words = line.get_words()
print(
f"...Line # {line_idx} has word count {len(words)} and text '{line.content}' "
f"within bounding polygon '{format_polygon(line.polygon)}'"
)
# Analyze words.
for word in words:
print(
f"......Word '{word.content}' has a confidence of {word.confidence}"
)
Handschriftlicher Stil
Die Antwort enthält die Klassifizierung, ob jede Textzeile handschriftlich formatiert ist oder nicht, zusammen mit einer Konfidenzbewertung. Weitere Informationen finden Sie unter Unterstützung von handschriftlichen Sprachen. Das folgende Beispiel zeigt einen Beispiel-JSON-Codeausschnitt.
"styles": [
{
"confidence": 0.95,
"spans": [
{
"offset": 509,
"length": 24
}
"isHandwritten": true
]
}
Wenn Sie die Add-On-Funktion "Schriftart/Formatvorlage" aktivieren, erhalten Sie auch das Schriftart-/Formatvorlagenergebnis als Teil des styles Objekts.
Auswahlzeichen
Das Layoutmodell extrahiert auch Auswahlzeichen aus Dokumenten. Extrahierte Auswahlmarkierungen werden in der pages Auflistung für jede Seite angezeigt. Sie enthalten das Begrenzungs-polygon, confidence und den Auswahl-state (selected/unselected). Die Textdarstellung (d. h. :selected: und :unselected) wird ebenfalls als Teil des Startindexes (offset) eingeschlossen, und length verweist auf die oberste Eigenschaft content, die den Volltext des Dokuments enthält.
{
"selectionMarks": [
{
"state": "unselected",
"polygon": [],
"confidence": 0.995,
"span": {
"offset": 1421,
"length": 12
}
}
]
}
# Analyze selection marks.
for selection_mark in page.selection_marks:
print(
f"Selection mark is '{selection_mark.state}' within bounding polygon "
f"'{format_polygon(selection_mark.polygon)}' and has a confidence of {selection_mark.confidence}"
)
Tabelle
Das Extrahieren von Tabellen ist eine wichtige Voraussetzung für die Verarbeitung von Dokumenten, die große Datenmengen enthalten, die in der Regel als Tabellen formatiert sind. Das Layoutmodell extrahiert Tabellen im pageResults Abschnitt der JSON-Ausgabe. Extrahierte Tabelleninformationen umfassen die Anzahl der Spalten und Zeilen, die Zeilenspanne und die Spaltenspanne. Jede Zelle mit ihrem Begrenzungspolygon wird zusammen mit der Information ausgegeben, ob der Bereich als columnHeader erkannt wurde oder nicht.
Das Modell unterstützt das Extrahieren von Tabellen, die gedreht werden. Jede Tabellenzelle enthält die Zeilen- und Spaltenindizes sowie die Begrenzungspolygonkoordinaten. Für den Zellentext gibt das Modell die span-Informationen aus, die den Startindex (offset) enthalten. Das Modell gibt auch den length innerhalb des übergeordneten Inhalts aus, der den Volltext aus dem Dokument enthält.
Folgende Faktoren sollten Sie bei der Verwendung der Extraktionsfunktion von Dokument Intelligenz berücksichtigen:
- Sind die Daten, die Sie extrahieren möchten, als Tabelle dargestellt, und ist die Tabellenstruktur aussagekräftig?
- Können die Daten in ein zweidimensionales Raster passen, wenn sich die Daten nicht in einem Tabellenformat befinden?
- Umfassen Ihre Tabellen mehrere Seiten? Wenn ja, müssen Sie nicht alle Seiten beschriften, indem Sie die PDF-Datei in Seiten aufteilen, bevor Sie sie an Dokumentintelligenz senden. Nach der Analyse verarbeiten Sie die Seiten in eine einzige Tabelle.
- Siehe Tabellarische Felder , wenn Sie benutzerdefinierte Modelle erstellen. Dynamische Tabellen weisen eine variable Anzahl von Zeilen für jede Spalte auf. Feste Tabellen weisen eine konstante Anzahl von Zeilen für jede Spalte auf.
Hinweis
Die Tabellenanalyse wird nicht unterstützt, wenn die Eingabedatei XLSX ist. Document Intelligence v4.0 2024-11-30 (GA) unterstützt Begrenzungsbereiche für Abbildungen und Tabellen, die nur den Kerninhalt abdecken und die zugeordneten Beschriftungen und Fußnoten ausschließen.
{
"tables": [
{
"rowCount": 9,
"columnCount": 4,
"cells": [
{
"kind": "columnHeader",
"rowIndex": 0,
"columnIndex": 0,
"columnSpan": 4,
"content": "(In millions, except earnings per share)",
"boundingRegions": [],
"spans": []
},
]
}
]
}
# Analyze tables.
for table_idx, table in enumerate(result.tables):
print(
f"Table # {table_idx} has {table.row_count} rows and "
f"{table.column_count} columns"
)
for region in table.bounding_regions:
print(
f"Table # {table_idx} location on page: {region.page_number} is {format_polygon(region.polygon)}"
)
for cell in table.cells:
print(
f"...Cell[{cell.row_index}][{cell.column_index}] has text '{cell.content}'"
)
for region in cell.bounding_regions:
print(
f"...content on page {region.page_number} is within bounding polygon '{format_polygon(region.polygon)}'"
)
Anmerkungen
Das Layoutmodell extrahiert Anmerkungen in Dokumenten, wie z. B. Häkchen und Kreuze. Die Antwort enthält die Art der Anmerkung, zusammen mit einer Konfidenzbewertung und einem Begrenzungspolygon.
{
"pages": [
{
"annotations": [
{
"kind": "cross",
"polygon": [...],
"confidence": 1
}
]
}
]
}
Ausgabe der natürlichen Leserichtung (nur lateinische Sprachen)
Sie können die Reihenfolge angeben, in der die Textzeilen mit dem readingOrder Abfrageparameter ausgegeben werden. Verwenden Sie natural für eine nutzerfreundlichere Ausgabe der Lesereihenfolge, wie im folgenden Beispiel gezeigt. Dieses Feature wird nur für lateinische Sprachen unterstützt.
Auswählen der Seitenzahl oder des Bereichs für die Textextraktion
Verwenden Sie für große mehrseitige Dokumente den pages Abfrageparameter, um bestimmte Seitenzahlen oder Seitenbereiche für die Textextraktion anzugeben. Das folgende Beispiel zeigt ein Dokument mit 10 Seiten, wobei Text für beide Fälle extrahiert wurde, alle Seiten (1-10) und ausgewählte Seiten (3-6).
Der Vorgang "Ergebnis der Layout-Analyse abrufen"
Der zweite Schritt besteht darin, den Get Analyze Layout Result Vorgang aufzurufen. Dieser Vorgang verwendet als Eingabe der Ergebnis-ID, die der Analyze Layout Vorgang erstellt hat. Sie gibt eine JSON-Antwort zurück, die ein Statusfeld mit den folgenden möglichen Werten enthält.
| Feld | Typ | Mögliche Werte |
|---|---|---|
| Status | Schnur |
notStarted: Der Analysevorgang wird nicht gestartet.running: Der Analysevorgang ist in Bearbeitung.failed: Der Analysevorgang ist fehlgeschlagen.succeeded: Der Analysevorgang war erfolgreich. |
Rufen Sie diesen Vorgang iterativ auf, bis er den succeeded Wert zurückgibt. Um eine Überschreitung der Anfragen pro Sekunde zu vermeiden, verwenden Sie ein Intervall von drei bis fünf Sekunden.
Wenn das Statusfeld den succeeded Wert aufweist, enthält die JSON-Antwort das extrahierte Layout, Text, Tabellen und Auswahlzeichen. Die extrahierten Daten enthalten die extrahierten Textzeilen und Wörter, Begrenzungsrahmen, die handschriftliche Anzeige von Textdarstellung, Tabellen und Auswahlmarkierungen mit der Angabe „ausgewählt“ oder „nicht ausgewählt“.
Handschriftliche Klassifizierung für Textzeilen (nur Lateinisch)
Die Antwort enthält die Klassifizierung, ob jede Textzeile einen handschriftlichen Stil aufweist oder nicht, zusammen mit einem Konfidenzwert. Dieses Feature wird nur für lateinische Sprachen unterstützt. Das folgende Beispiel zeigt die handschriftliche Klassifizierung für den Text in der Abbildung.
Beispielausgabe für JSON
Die Antwort auf den Get Analyze Layout Result Vorgang ist eine strukturierte Darstellung des Dokuments mit allen extrahierten Informationen.
Siehe eine Beispiel-Dokumentdatei und deren strukturierte Ausgabe Beispiel-Layoutausgabe.
Die JSON-Ausgabe umfasst zwei Teile:
- Der
readResultsKnoten enthält alle erkannten Text- und Auswahlzeichen. Die Textpräsentationshierarchie ist Seite, Zeile und dann einzelne Wörter. - Der Knoten
pageResultsenthält die Tabellen und Zellen, die mit ihren Begrenzungsrahmen, Konfidenz und einem Verweis auf die Zeilen und Wörter im FeldreadResultsextrahiert wurden.
Beispielausgabe
Text
Die Layout-API extrahiert Text aus Dokumenten und Bildern mit mehreren Textwinkeln und Farben. Es akzeptiert Fotos von Dokumenten, Faxen, gedruckten und/oder handschriftlichen Text (nur englisch) und gemischten Modi. Text wird mit Informationen zu Zeilen, Wörtern, Begrenzungsrahmen, Konfidenzbewertungen und Stil (handschriftlich oder anderer) extrahiert. Alle Textinformationen sind im readResults Abschnitt der JSON-Ausgabe enthalten.
Tabellen mit Kopfzeilen
Die Layout-API extrahiert Tabellen im pageResults Abschnitt der JSON-Ausgabe. Sie können Dokumente scannen, fotografieren oder digitalisieren. Tabellen können mit verbundenen Zellen oder Spalten, mit oder ohne Rahmen und mit ungeraden Winkeln komplex sein.
Extrahierte Tabelleninformationen umfassen die Anzahl der Spalten und Zeilen, die Zeilenspanne und die Spaltenspanne. Jede Zelle mit ihrem Begrenzungsrahmen wird zusammen mit Informationen ausgegeben, unabhängig davon, ob der Bereich als Teil einer Kopfzeile erkannt werden oder nicht. Die vom Modell vorhergesagten Kopfzeilen-Zellen können mehrere Zeilen umfassen und sind nicht unbedingt die ersten Zeilen in einer Tabelle. Sie arbeiten auch mit gedrehten Tabellen. Jede Tabellenzelle enthält auch den vollständigen Text mit Verweisen auf die einzelnen Wörter im readResults Abschnitt.
Auswahlzeichen (Dokumente)
Die Layout-API extrahiert auch Auswahlmarkierungen aus Dokumenten. Extrahierte Auswahlmarkierungen enthalten den Begrenzungsrahmen, die Konfidenz (Zuverlässigkeit) und den Status („ausgewählt“ oder „nicht ausgewählt“). Auswahlzeicheninformationen werden im readResults Abschnitt der JSON-Ausgabe extrahiert.
Migrationshandbuch
- Wenn Sie erfahren möchten, wie Sie die Version v3.1 in Ihren Anwendungen und Workflows verwenden, führen Sie die Schritte im Migrationshandbuch zur Dokumentintelligenz v3.1 aus.
- Wenn Sie v3.0 verwenden, migrieren Sie vor dem 30. März 2029 zu v4.0. Verwenden Sie das Dokumentintelligenzmigrationshandbuch und die v4.0-Schnellstartanleitung.
Verwandte Inhalte
- Erfahren Sie, wie Sie Ihre eigenen Formulare und Dokumente mit Document Intelligence Studio verarbeiten.
- Schließen Sie eine Dokumentintelligenz-Schnellstartanleitung ab, und erstellen Sie eine Dokumentverarbeitungs-App in der Entwicklungssprache Ihrer Wahl.
- Erfahren Sie, wie Sie Ihre eigenen Formulare und Dokumente mit dem Dokumentintelligenz-Beispielbezeichnungstool verarbeiten.
- Schließen Sie eine Dokumentintelligenz-Schnellstartanleitung ab, und erstellen Sie eine Dokumentverarbeitungs-App in der Entwicklungssprache Ihrer Wahl.