문서 기반 PII는 Azure AI 언어 PII(개인 식별 정보) 검색의 미리 보기 기능입니다. 고유한 텍스트 추출 및 재구성 파이프라인을 빌드하지 않고도 Microsoft Word 및 PDF 파일을 비롯한 네이티브 문서 파일에서 직접 중요한 데이터를 감지하고 수정할 수 있습니다.
이 기능은 비동기 API 워크플로를 사용하고 문서 구조 및 서식을 유지하는 수정된 출력을 반환합니다. 규정 준수 검토, 공유, 분석 및 다운스트림 AI 워크플로에 문서 충실도가 중요한 경우 이를 사용할 수 있습니다.
중요
문서 기반 PII는 현재 미리 보기로 제공되며 GA(일반 공급) 전에 변경 될 수 있습니다.
한눈에 보기
문서 기반 PII는 다음과 같은 기능을 제공합니다.
-
.pdf,.docx, 및.txt파일에 대한 네이티브 문서 수정입니다. - 글꼴, 간격 및 색을 포함하여 출력 문서의 레이아웃이 유지됩니다.
- 추출, 검색 및 편집을 위한 단일 비동기 API 워크플로입니다.
- 엔터프라이즈 지원 출력: 수정된 문서 및 구조화된 JSON 결과입니다.
비디오 데모
이 비디오에서는 PII 검색 서비스를 소개하고 파일 구조 및 서식을 유지하면서 네이티브 문서에서 직접 중요한 데이터를 검색하고 수정하는 방법을 보여 줍니다. 또한 일반적인 사용 사례, 지원되는 형식 및 Azure AI 언어 문서 기반 PII를 시작하는 방법도 다룹니다.
이 비디오에서는 닫힌 자막을 사용할 수 있습니다.
문서 기반 PII를 사용하는 이유는 무엇인가요?
많은 사용자 지정 파이프라인은 텍스트를 추출하고, 검색을 실행하고, 문서 출력을 재구성하는 여러 단계가 필요합니다. 문서 기반 PII는 문서 처리 시스템을 위해 설계된 단일 비동기 API 패턴 및 출력 아티팩트를 사용하여 이 흐름을 간소화합니다.
문서 기반 PII는 다음을 수행해야 하는 경우에 특히 유용합니다.
-
.pdf,.docx, 및.txt파일에서 PII를 수정합니다. - 다운스트림 비즈니스 프로세스에 대한 문서 레이아웃을 유지합니다.
- 감사 및 통합을 위한 구조적 JSON 출력을 생성합니다.
문서 기반 PII는 주소, 전화 번호 및 신용 카드 번호와 같은 엔터티를 포함하여 텍스트 PII와 동일한 미리 정의된 PII 범주를 사용합니다.
반환되는 내용
작업이 성공하면 다음을 받게 됩니다.
- 대상 스토리지 컨테이너의 수정된 문서입니다.
- 검색된 엔터티, 범주, 신뢰도 점수 및 처리 메타데이터가 있는 JSON 결과 파일입니다.
작동 방식
문서 기반 PII는 비동기 워크플로를 사용합니다.
- 원본 및 대상 스토리지 위치가 있는 작업을 제출합니다.
- 작업 위치를 사용하여 작업 상태를 조회합니다.
- 대상 스토리지 위치에서 출력 아티팩트 검색
구현 세부 정보 및 요청 샘플은 네이티브 문서에서 개인 식별 정보 검색 및 수정을 참조하세요.
다른 PII 기능 유형과 차이점
모든 PII 기능 형식은 미리 정의된 엔터티 범주를 사용하지만 다양한 입력 형식에 최적화됩니다.
- 문서 기반 PII는 네이티브 파일 편집 워크플로 및 파일 출력 충실도에 최적화되어 있습니다.
- 텍스트 PII는 직접 문자열 기반 입력 및 앱 통합에 최적화되어 있습니다.
- 턴 기반 및 대화록 지향 대화형 입력에 대화 PII가 최적화되어 있습니다.
일반적인 사용 사례
문서 기반 PII는 스토리지, 분석, 외부 공유 또는 다운스트림 AI 처리 전에 팀이 파일을 익명화해야 하는 엔터프라이즈 및 규제 산업 워크플로를 위해 설계되었습니다.
일반적인 예는 다음과 같습니다.
- 법원 기록 및 법률 문서.
- 정부 양식 및 내부 레코드.
- 재무 문서.
- 내부 기업 문서 워크플로우.
지원되는 형식 및 제한
문서 기반 PII는 텍스트 전처리 없이 네이티브 파일 형식을 직접 허용합니다. 다음 표에서는 지원되는 형식을 나열합니다.
| 파일 형식 | 파일 확장자 | 설명 |
|---|---|---|
| 텍스트 | .txt |
서식이 지정되지 않은 텍스트 문서입니다. |
| Adobe PDF | .pdf |
이식 가능한 문서 파일 형식의 문서입니다. |
| Microsoft Word | .docx |
Microsoft Word 문서 파일입니다. |
다음 입력 제약 조건이 적용됩니다.
| 특성 | 제한 |
|---|---|
| 요청당 총 문서 수 | <= 20 |
| 요청당 총 콘텐츠 크기 | <= 10MB |
지원되지 않는 콘텐츠 형식은 다음과 같습니다.
| 유형 | 제한 |
|---|---|
| 완전히 스캔된 PDF | 지원되지 않습니다. |
| 텍스트가 포함된 이미지 | 텍스트가 포함된 디지털 이미지는 지원되지 않습니다. |
| 스캔한 문서의 테이블 | 지원되지 않습니다. |
현재 언어 적용 범위 및 서비스 제한 세부 정보는 언어 지원및 할당량 및 제한을 참조하세요.
가격
문서 기반 PII 삭제는 Azure AI 언어 요금을 기준으로 합니다. 현재 가격 책정 세부 정보는 Azure AI 언어 가격 책정 참조하세요.
다음 단계
다음 참조를 사용하여 구현을 계속합니다.