Dokumentbasierte PII-Übersicht

Document-basierte PII ist eine Vorschaufunktion in der Azure KI Language Erkennung personenbezogener Informationen (Personally Identifiable Information, PII). Es hilft Ihnen, vertrauliche Daten direkt in systemeigenen Dokumentdateien zu erkennen und zu redigieren, einschließlich Microsoft Word- und PDF-Dateien, ohne Ihre eigene Textextraktions- und Wiederaufbaupipeline zu erstellen.

Dieses Feature verwendet einen asynchronen API-Workflow und gibt eine redigierte Ausgabe zurück, die die Dokumentstruktur und -formatierung beibehält. Sie können sie verwenden, wenn die Dokumenttreue für Complianceüberprüfungen, Freigaben, Analysen und nachgeschaltete KI-Workflows wichtig ist.

Wichtig

Dokumentbasierte PII befindet sich derzeit in einer Vorschauversion und kann sich vor der allgemeinen Verfügbarkeit (GA) ändern.

Auf einen Blick

Dokumentbasierte PII bietet die folgenden Funktionen:

Systemeigene Dokumentredaktion für .pdf, .docx und .txt Dateien.
Beibehaltenes Layout in Ausgabedokumenten, einschließlich Schriftart, Abstand und Farbe.
Ein einzelner asynchroner API-Workflow für Extraktion, Erkennung und Redaction.
Unternehmensbereite Ergebnisse: ein redigiertes Dokument und ein strukturiertes JSON-Ergebnis.

Videodemonstration

In diesem Video stellen wir den PII-Erkennungsdienst vor und zeigen Ihnen, wie vertrauliche Daten direkt aus systemeigenen Dokumenten erkannt und redigiert werden, während die Dateistruktur und Formatierung beibehalten wird. Darüber hinaus behandeln wir gängige Anwendungsfälle, unterstützte Formate und erste Schritte mit dokumentbasierten piI in Azure KI Language:

Untertitel sind für dieses Video verfügbar.

Warum dokumentbasierte PII verwenden?

Viele benutzerdefinierte Pipelines erfordern mehrere Schritte zum Extrahieren von Text, Ausführen der Erkennung und Rekonstruieren der Dokumentausgabe. Dokumentbasierte PII vereinfacht diesen Fluss mit einem einzigen asynchronen API-Muster und Ausgabeartefakten, die für Dokumentverarbeitungssysteme entwickelt wurden.

Dokumentbasierte PII ist besonders nützlich, wenn Sie Folgendes benötigen:

Redact PII in .pdf, .docx, und .txt Dateien.
Dokumentlayout für nachgeschaltete Geschäftsprozesse beibehalten.
Generieren Sie strukturierte JSON-Ausgabe für Überwachung und Integration.

Dokumentbasierte PII verwendet dieselben vordefinierten PII-Kategorien wie Text-PII, einschließlich Entitäten wie Adressen, Telefonnummern und Kreditkartennummern.

Was es zurückgibt

Wenn ein Auftrag erfolgreich ist, erhalten Sie Folgendes:

Ein redigiertes Dokument in Ihrem Ziel-Speichercontainer.
Eine JSON-Ergebnisdatei mit erkannten Entitäten, Kategorien, Konfidenzbewertungen und Verarbeitungsmetadaten.

Funktionsweise

Dokumentbasierte PII verwendet einen asynchronen Workflow:

Senden Sie einen Auftrag mit Quell- und Zielspeicherorten.
Abfragen des Auftragsstatus mithilfe des Operationsorts.
Abrufen von Ausgabedateien vom Zielspeicherort.

Diagramm, das den asynchronen Workflow für die dokumentbasierte PII-Erkennung zeigt.

Implementierungsdetails und Anforderungsbeispiele finden Sie unter Erkennen und Schwärzen von persönlich identifizierbaren Informationen in nativen Dokumenten.

Wie es sich von anderen PII-Featuretypen unterscheidet

Alle PII-Featuretypen verwenden vordefinierte Entitätskategorien, optimieren aber für unterschiedliche Eingabetypen:

Dokumentbasierte PII ist für Workflows mit systemeigener Datei redaction und Dateiausgabetreue optimiert.
Text-PII ist für die direkte Zeichenfolgenbasierte Eingabe und App-Integration optimiert.
Gesprächs-PII ist für interaktive und transkriptorientierte Eingaben in Gesprächsform optimiert.

Häufige Anwendungsfälle

Dokumentbasierte PII wurde für Unternehmens- und regulierte Branchenworkflows entwickelt, bei denen Teams Dateien vor Speicher, Analyse, externer Freigabe oder nachgelagerter KI-Verarbeitung anonymisiert müssen.

Typische Beispiele sind:

Gerichtsunterlagen und Rechtsunterlagen.
Behördenformulare und interne Datensätze.
Finanzdokumente.
Interne Unternehmensdokumentationsworkflows.

Unterstützte Formate und Grenzwerte

Dokumentbasierte PII akzeptiert systemeigene Dateiformate direkt, ohne dass textvorverarbeitet werden muss. In der folgenden Tabelle sind die unterstützten Formate aufgeführt:

Dateityp	Dateierweiterung	Beschreibung
Text	`.txt`	Ein unformatiertes Textdokument.
Adobe PDF	`.pdf`	Ein portables Dokument, das formatiert ist.
Microsoft Word	`.docx`	Eine Microsoft Word Dokumentdatei.

Die folgenden Eingabeeinschränkungen gelten:

Attribut	Grenzwert
Gesamtanzahl der Dokumente pro Anforderung	<= 20
Gesamtinhaltsgröße pro Anforderung	<= 10 MB

Die folgenden Inhaltstypen werden nicht unterstützt:

Typ	Einschränkung
Vollständig gescannte PDF-Dateien	Nicht unterstützt.
Bilder mit eingebetteten Text	Digitale Bilder mit eingebetteten Text werden nicht unterstützt.
Tabellen in gescannten Dokumenten	Nicht unterstützt.

Weitere Informationen finden Sie unter Sprachunterstützung und Kontingente und Grenzwerte für aktuelle Sprachabdeckung und Dienstgrenzwerte.

Preise

Dokumentbasierte PII-Schwärzung verwendet das Azure KI Language Preismodell. Aktuelle Preisdetails finden Sie unter Azure KI Language Pricing.

Nächste Schritte

Verwenden Sie die folgenden Verweise, um die Implementierung fortzusetzen:

Feedback

War diese Seite hilfreich?

Last updated on 2026-04-29