미리 빌드된 모델 사용
Tip
자세한 내용은 텍스트 및 이미지 탭을 참조하세요.
Azure Document Intelligence의 미리 빌드된 모델을 사용하면 사용자 고유의 모델을 학습하지 않고도 일반적인 양식 형식에서 데이터를 추출할 수 있습니다. Microsoft는 이러한 모델을 많은 수의 샘플 문서로 학습하므로 표준 문서 형식에 대해 정확하고 신뢰할 수 있는 결과를 기대할 수 있습니다.
문서 분석 모델
도메인별 미리 빌드된 모델을 살펴보기 전에 이를 뒷받침하는 문서 분석 모델을 이해하는 것이 중요합니다.
읽기 모델
읽기 모델은 문서 및 이미지에서 인쇄 및 필기 텍스트를 추출합니다. 각 텍스트 줄의 언어를 검색하고 텍스트를 필기 또는 인쇄할지 여부를 분류합니다. 읽기 모델은 다른 모든 문서 인텔리전스 모델에서 텍스트 추출의 기초로 사용됩니다.
다중 페이지 PDF 또는 TIFF 파일의 경우 요청의 매개 변수를 pages 사용하여 분석할 페이지 범위를 지정할 수 있습니다.
읽기 모델은 고정되거나 예측 가능한 구조가 없는 문서에서 단어와 줄을 추출하려는 경우에 적합합니다.
레이아웃 모델
레이아웃 모델은 선택 표시, 테이블 및 문서 구조 정보를 검색하여 읽기 모델의 텍스트 추출을 확장합니다. 키-값 쌍을 추출하는 선택적 keyValuePairs 기능도 지원합니다.
문서를 디지털화할 때, 문서가 기울어질 수 있고 표에는 병합된 셀이나 행이 불완전하게 포함된 복잡한 구조가 있을 수 있습니다. 레이아웃 모델은 이러한 어려움을 처리할 수 있습니다. 각 테이블 셀은 내용, 경계 상자 위치 및 행/열 인덱스를 사용하여 추출됩니다.
선택 표시(확인란 및 라디오 버튼)는 경계 상자, 신뢰도 수준, 그리고 선택 상태를 포함하여 추출됩니다.
메모
일반 문서 모델은 이전 버전의 Document Intelligence에서 사용할 수 있었지만 릴리스에서는 2023-10-31-preview 더 이상 사용되지 않았습니다. 키-값 쌍 및 엔터티 추출에 대한 기능은 레이아웃 모델 및 기타 기능에 통합되었습니다.
특정 문서 형식에 대한 미리 빌드된 모델
Azure Document Intelligence에는 특정 문서 형식에 대해 학습된 미리 빌드된 모델이 포함됩니다. 다음과 같은 미리 빌드된 모델은 일반적인 비즈니스 문서에서 필드를 추출하는 데 사용할 수 있는 몇 가지 예입니다.
재무 및 법률 문서
| 모델 | 설명 |
|---|---|
| 청구서 | 고객 이름, 공급업체 세부 정보, 구매 주문 번호, 청구서 및 기한, 청구 및 배송 주소, 품목 및 합계를 추출합니다. |
| 영수증 | 가맹점 세부 정보, 트랜잭션 날짜 및 시간, 품목 및 합계를 추출합니다. 단일 페이지 호텔 영수증 처리를 지원합니다. |
| 은행 명세서 | 계정 정보, 시작 및 종료 잔액 및 트랜잭션 세부 정보를 추출합니다. |
| 확인 | 수취인, 금액, 날짜 및 기타 관련 정보를 추출합니다. |
| 급여 명세서 | 임금, 근무 시간, 추론액, 순급여 및 기타 일반적인 급여 명세서 필드를 추출합니다. |
| 신용 카드 | 결제 카드 정보를 추출합니다. |
| 계약 | 계약 및 당사자 세부 정보를 추출합니다. |
미국 세금 문서
| 모델 | 설명 |
|---|---|
| 미국 통합 세금 | 지원되는 모든 미국 세금 양식 유형에서 추출하는 단일 모델입니다. |
| W-2 | 과세 보상 세부 정보를 추출합니다. |
| 1098 및 변형 | 모기지 이자와 관련 세부 정보를 추출합니다. |
| 1099 및 변형 | 다양한 출처에서 수입을 추출합니다. |
| 1040 및 변형 | 개별 소득세 신고서 세부 정보를 추출합니다. |
미국 모기지 문서
| 모델 | 설명 |
|---|---|
| 1003(URLA) | 대출 신청 세부 정보를 추출합니다. |
| 1004(URAR) | 부동산 감정 평가에서 정보를 추출합니다. |
| 1005 | 고용 유효성 검사 정보를 추출합니다. |
| 1008 | 대출 전송 세부 정보를 추출합니다. |
| 공개 닫기 | 최종 마감 대출 조건을 추출합니다. |
개인 식별 문서
| 모델 | 설명 |
|---|---|
| ID 문서 | 미국 운전 면허증, 유럽 연합 ID 및 운전 면허증 및 국제 여권에서 세부 정보를 추출합니다. 이름, 생년월일, 문서 번호, 보증 또는 제한을 포함합니다. |
| 의료 보험 카드 | 미국 건강 보험 카드에서 공통 필드를 추출합니다. |
| 결혼 인증서 | 인증된 결혼 정보를 추출합니다. |
중요합니다
ID 문서 모델은 대부분의 관할 지역에서 데이터 보호법이 적용되는 개인 정보를 추출합니다. 개인에게 데이터를 저장할 수 있는 권한이 있고 적용 가능한 모든 법적 요구 사항을 준수하는지 확인합니다.
미리 빌드된 모델의 기능
미리 빌드된 모델은 문서에서 다양한 형식의 데이터를 추출하도록 설계되었습니다. 이러한 기능은 다음과 같습니다.
- 텍스트 추출: 미리 빌드된 모든 모델은 필기 및 인쇄 텍스트에서 선과 단어를 추출합니다.
- 키-값 쌍: 레이블 및 해당 응답을 식별하는 텍스트 범위입니다. 예를 들어 무게 와 31kg입니다.
- 선택 표시: 선택 여부를 포함하여 체크박스와 라디오 버튼입니다.
- 표: 열 및 행 수, 열 및 행 머리글, 병합된 셀을 포함한 셀의 데이터입니다.
-
필드: 특정 양식 형식에 대해 학습된 모델은 고정된 필드 집합을 식별합니다. 예를 들어 청구서 모델은
CustomerName와InvoiceTotal를 추출합니다.
미리 빌드된 모델과 사용자 지정 모델을 사용해야 하는 경우
미리 빌드된 모델은 가장 일반적인 문서 형식을 다룹니다. 산업별 또는 고유한 양식 유형이 있는 경우 사용자 지정 모델을 사용하여 보다 정확한 결과를 얻을 수 있습니다. 그러나 사용자 지정 모델에는 학습하는 데 시간과 샘플 데이터가 필요합니다. 사용자 지정 모델 개발에 투자하기 전에 시나리오에 미리 빌드된 모델이 있는지 항상 확인합니다.