이 콘텐츠는 :
v4.0(GA) | 이전 버전:
v3.1(GA)
v3.0(사용 중지)
v2.1(사용 중지)에 적용됩니다.
이 콘텐츠는 :
v3.0(사용 중지) | 최신 버전:
v4.0(GA)
v3.1 | 이전 버전:
v2.1(사용 중지)에 적용됩니다.
이 콘텐츠는 :
v2.1 | 최신 버전:
v4.0(GA)에 적용됩니다.
사용자 지정 서식 파일(이전의 사용자 지정 양식)은 문서에서 레이블이 지정된 키-값 쌍, 선택 표시, 테이블, 지역 및 서명을 정확하게 추출하는 학습하기 쉬운 문서 모델입니다. 템플릿 모델은 레이아웃 신호를 사용하여 문서에서 값을 추출하며 정의된 시각적 템플릿을 사용하여 고도로 구조화된 문서에서 필드를 추출하는 데 적합합니다.
사용자 지정 템플릿 모델은 사용자 지정 신경망 모델과 동일한 레이블 지정 형식 및 전략을 공유하며 더 많은 필드 형식 및 언어를 지원합니다.
모델의 역량
사용자 지정 템플릿 모델은 키-값 쌍, 선택 표시, 테이블, 서명 필드 및 선택한 지역을 지원합니다.
| 양식 필드 | 선택 표시 | 테이블 형식 필드(테이블) | 서명 | 선택한 지역 | 겹치는 필드 |
|---|---|---|---|---|---|
| 지원 | 지원 | 지원 | 지원 | 지원 | 지원되지 않음 |
테이블 형식 필드
API 버전 v3.0 이상이 릴리스되면 사용자 지정 템플릿 모델은 페이지 간 테이블 형식 필드(테이블)에 대한 지원을 추가합니다.
- 여러 페이지에 걸쳐 있는 테이블에 레이블을 지정하려면 테이블의 각 행에 단일 테이블의 여러 페이지에 레이블을 지정합니다.
- 모범 사례로, 데이터 세트에 예상된 변형의 몇 가지 샘플이 포함되어 있는지 확인합니다. 예를 들어 전체 테이블이 단일 페이지에 있고 문서에서 이러한 변형이 예상되는 경우 테이블이 두 개 이상의 페이지에 걸쳐 있는 샘플을 포함합니다.
테이블 형식 필드는 테이블로 인식되지 않는 문서 내에서 반복 정보를 추출할 때도 유용합니다. 예를 들어 이력서에서 작업 환경의 반복 섹션에 레이블을 지정하고 테이블 형식 필드로 추출할 수 있습니다.
변형 처리
템플릿 모델은 정의된 시각적 템플릿을 사용하며 템플릿을 변경하면 정확도가 낮아질 수 있습니다. 이러한 인스턴스에서 각 템플릿의 샘플을 5개 이상 포함하도록 학습 데이터 세트를 분할하고 각 변형에 대한 모델을 학습시킵니다. 그런 다음 모델을 단일 엔드포인트로 작성 할 수 있습니다. 디지털 PDF 문서 및 이미지와 같은 미묘한 변형의 경우 동일한 학습 데이터 세트에 각 형식의 예제를 5개 이상 포함하는 것이 가장 좋습니다.
입력 요구 사항
최상의 결과를 위해 문서당 하나의 명확한 사진 또는 고품질 스캔을 제공합니다.
지원되는 파일 형식:
모델 Pdf 이미지:
JPEG/JPG,PNG,BMP,TIFF,HEIFMicrosoft Office:
Word(DOCX), Excel(XLSX), PowerPoint(PPTX) 및 HTML읽기 ✔ ✔ ✔ 레이아웃 ✔ ✔ ✔ 일반 문서 ✔ ✔ 사전 구축된 ✔ ✔ 맞춤형 ✔ ✔ Microsoft Office 파일은 현재 다른 모델이나 버전에서 지원되지 않습니다.
PDF 및 TIFF의 경우 최대 2,000페이지를 처리할 수 있습니다(무료 계층 구독에서는 처음 두 페이지만 처리됨).
문서를 분석하기 위한 파일 크기는 유료(S0) 계층의 경우 500MB, 무료(F0) 계층의 경우 4MB입니다.
이미지 크기는 50 x 50 픽셀에서 10,000 px x 10,000 픽셀 사이여야 합니다.
PDF가 암호로 잠긴 경우 제출 전에 잠금을 제거해야 합니다.
추출할 텍스트의 최소 높이는 1024 x 768픽셀 이미지의 경우 12픽셀입니다. 이 크기는 인치당 150도트의 약
8포인트 텍스트에 해당합니다(DPI).사용자 지정 모델 학습의 경우 학습 데이터의 최대 페이지 수는 사용자 지정 템플릿 모델의 경우 500개, 사용자 지정 신경망 모델의 경우 50,000개입니다.
사용자 지정 추출 모델 학습의 경우 학습 데이터의 총 크기는 템플릿 모델의 경우 50MB, 신경망 모델의 경우 1G-MB입니다.
사용자 지정 분류 모델 학습의 경우 학습 데이터의 총 크기는 최대 10,000페이지입니다
1GB.
모델 학습
사용자 지정 템플릿 모델은 일반적으로 v2.0 API 이상 버전부터 사용할 수 있습니다. 새 프로젝트로 시작하거나 레이블이 지정된 기존 데이터 세트가 있는 경우 Document Intelligence Studio에서 v3.1 또는 v3.0 API를 사용하여 사용자 지정 템플릿 모델을 학습합니다.
| 모델 | REST API | SDK | 레이블 지정 및 테스트 모델 |
|---|---|---|---|
| 사용자 지정 템플릿 | v3.1 API | 문서 인텔리전스 SDK | Document Intelligence Studio |
v3.0 이상 API를 사용하면 모델 학습을 위한 빌드 작업에서 새로운 buildMode 속성을 지원합니다. 사용자 지정 템플릿 모델을 학습시키려면 buildMode을 template로 설정하세요.
https://{endpoint}/documentintelligence/documentModels:build?api-version=2024-11-30
{
"modelId": "string",
"description": "string",
"buildMode": "template",
"azureBlobSource":
{
"containerUrl": "string",
"prefix": "string"
}
}
사용자 지정 템플릿 모델은 일반적으로 v3.1 API에서 사용할 수 있습니다. 새 프로젝트로 시작하거나 레이블이 지정된 기존 데이터 세트가 있는 경우 Document Intelligence Studio에서 v3.1 또는 v3.0 API를 사용하여 사용자 지정 템플릿 모델을 학습합니다.
| 모델 | REST API | SDK | 레이블 지정 및 테스트 모델 |
|---|---|---|---|
| 사용자 지정 템플릿 | v3.1 API | 문서 인텔리전스 SDK | Document Intelligence Studio |
v3.0 이상 API에서는 모델을 학습시키는 빌드 작업에서 새로운 buildMode 속성을 지원합니다. 사용자 지정 템플릿 모델을 학습시키려면 buildMode을 template로 설정하세요.
https://{endpoint}/formrecognizer/documentModels:build?api-version=2023-07-31
{
"modelId": "string",
"description": "string",
"buildMode": "template",
"azureBlobSource":
{
"containerUrl": "string",
"prefix": "string"
}
}
지원되는 언어 및 로캘
지원되는 언어의 전체 목록은 언어 지원- 사용자 지정 모델 페이지를 참조하세요.
사용자 지정(템플릿) 모델은 일반적으로 v2.1 API에서 사용할 수 있습니다.
| 모델 | REST API | SDK | 레이블 지정 및 테스트 모델 |
|---|---|---|---|
| 사용자 지정 모델(템플릿) | 문서 인텔리전스 2.1 | 문서 인텔리전스 SDK | 문서 인텔리전스 샘플 레이블 지정 도구 |
다음 단계
사용자 지정 모델을 만들고 작성하는 방법을 알아봅니다.