Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Document-basierte PII ist eine Vorschaufunktion in der Azure KI Language Erkennung personenbezogener Informationen (Personally Identifiable Information, PII). Es hilft Ihnen, vertrauliche Daten direkt in systemeigenen Dokumentdateien zu erkennen und zu redigieren, einschließlich Microsoft Word- und PDF-Dateien, ohne Ihre eigene Textextraktions- und Wiederaufbaupipeline zu erstellen.
Dieses Feature verwendet einen asynchronen API-Workflow und gibt eine redigierte Ausgabe zurück, die die Dokumentstruktur und -formatierung beibehält. Sie können sie verwenden, wenn die Dokumenttreue für Complianceüberprüfungen, Freigaben, Analysen und nachgeschaltete KI-Workflows wichtig ist.
Wichtig
Dokumentbasierte PII befindet sich derzeit in einer Vorschauversion und kann sich vor der allgemeinen Verfügbarkeit (GA) ändern.
Auf einen Blick
Dokumentbasierte PII bietet die folgenden Funktionen:
- Systemeigene Dokumentredaktion für
.pdf,.docxund.txtDateien. - Beibehaltenes Layout in Ausgabedokumenten, einschließlich Schriftart, Abstand und Farbe.
- Ein einzelner asynchroner API-Workflow für Extraktion, Erkennung und Redaction.
- Unternehmensbereite Ergebnisse: ein redigiertes Dokument und ein strukturiertes JSON-Ergebnis.
Videodemonstration
In diesem Video stellen wir den PII-Erkennungsdienst vor und zeigen Ihnen, wie vertrauliche Daten direkt aus systemeigenen Dokumenten erkannt und redigiert werden, während die Dateistruktur und Formatierung beibehalten wird. Darüber hinaus behandeln wir gängige Anwendungsfälle, unterstützte Formate und erste Schritte mit dokumentbasierten piI in Azure KI Language:
Untertitel sind für dieses Video verfügbar.
Warum dokumentbasierte PII verwenden?
Viele benutzerdefinierte Pipelines erfordern mehrere Schritte zum Extrahieren von Text, Ausführen der Erkennung und Rekonstruieren der Dokumentausgabe. Dokumentbasierte PII vereinfacht diesen Fluss mit einem einzigen asynchronen API-Muster und Ausgabeartefakten, die für Dokumentverarbeitungssysteme entwickelt wurden.
Dokumentbasierte PII ist besonders nützlich, wenn Sie Folgendes benötigen:
- Redact PII in
.pdf,.docx, und.txtDateien. - Dokumentlayout für nachgeschaltete Geschäftsprozesse beibehalten.
- Generieren Sie strukturierte JSON-Ausgabe für Überwachung und Integration.
Dokumentbasierte PII verwendet dieselben vordefinierten PII-Kategorien wie Text-PII, einschließlich Entitäten wie Adressen, Telefonnummern und Kreditkartennummern.
Was es zurückgibt
Wenn ein Auftrag erfolgreich ist, erhalten Sie Folgendes:
- Ein redigiertes Dokument in Ihrem Ziel-Speichercontainer.
- Eine JSON-Ergebnisdatei mit erkannten Entitäten, Kategorien, Konfidenzbewertungen und Verarbeitungsmetadaten.
Funktionsweise
Dokumentbasierte PII verwendet einen asynchronen Workflow:
- Senden Sie einen Auftrag mit Quell- und Zielspeicherorten.
- Abfragen des Auftragsstatus mithilfe des Operationsorts.
- Abrufen von Ausgabedateien vom Zielspeicherort.
Implementierungsdetails und Anforderungsbeispiele finden Sie unter Erkennen und Schwärzen von persönlich identifizierbaren Informationen in nativen Dokumenten.
Wie es sich von anderen PII-Featuretypen unterscheidet
Alle PII-Featuretypen verwenden vordefinierte Entitätskategorien, optimieren aber für unterschiedliche Eingabetypen:
- Dokumentbasierte PII ist für Workflows mit systemeigener Datei redaction und Dateiausgabetreue optimiert.
- Text-PII ist für die direkte Zeichenfolgenbasierte Eingabe und App-Integration optimiert.
- Gesprächs-PII ist für interaktive und transkriptorientierte Eingaben in Gesprächsform optimiert.
Häufige Anwendungsfälle
Dokumentbasierte PII wurde für Unternehmens- und regulierte Branchenworkflows entwickelt, bei denen Teams Dateien vor Speicher, Analyse, externer Freigabe oder nachgelagerter KI-Verarbeitung anonymisiert müssen.
Typische Beispiele sind:
- Gerichtsunterlagen und Rechtsunterlagen.
- Behördenformulare und interne Datensätze.
- Finanzdokumente.
- Interne Unternehmensdokumentationsworkflows.
Unterstützte Formate und Grenzwerte
Dokumentbasierte PII akzeptiert systemeigene Dateiformate direkt, ohne dass textvorverarbeitet werden muss. In der folgenden Tabelle sind die unterstützten Formate aufgeführt:
| Dateityp | Dateierweiterung | Beschreibung |
|---|---|---|
| Text | .txt |
Ein unformatiertes Textdokument. |
| Adobe PDF | .pdf |
Ein portables Dokument, das formatiert ist. |
| Microsoft Word | .docx |
Eine Microsoft Word Dokumentdatei. |
Die folgenden Eingabeeinschränkungen gelten:
| Attribut | Grenzwert |
|---|---|
| Gesamtanzahl der Dokumente pro Anforderung | <= 20 |
| Gesamtinhaltsgröße pro Anforderung | <= 10 MB |
Die folgenden Inhaltstypen werden nicht unterstützt:
| Typ | Einschränkung |
|---|---|
| Vollständig gescannte PDF-Dateien | Nicht unterstützt. |
| Bilder mit eingebetteten Text | Digitale Bilder mit eingebetteten Text werden nicht unterstützt. |
| Tabellen in gescannten Dokumenten | Nicht unterstützt. |
Weitere Informationen finden Sie unter Sprachunterstützung und Kontingente und Grenzwerte für aktuelle Sprachabdeckung und Dienstgrenzwerte.
Preise
Dokumentbasierte PII-Schwärzung verwendet das Azure KI Language Preismodell. Aktuelle Preisdetails finden Sie unter Azure KI Language Pricing.
Nächste Schritte
Verwenden Sie die folgenden Verweise, um die Implementierung fortzusetzen: