이 콘텐츠는 :
v4.0(GA) | 이전 버전:
v3.1(GA)
v3.0(사용 중지)
v2.1(사용 중지)에 적용됩니다.
이 콘텐츠는 :
v3.0(사용 중지) | 최신 버전:
v4.0(GA)
v3.1 | 이전 버전:
v2.1(사용 중지)에 적용됩니다.
이 콘텐츠는 :
v2.1 | 최신 버전:
v4.0(GA)에 적용됩니다.
Document Intelligence는 고급 기계 학습 기술을 사용하여 문서를 식별하고, 양식 및 문서에서 정보를 검색 및 추출하고, 추출된 데이터를 구조화된 JSON 출력으로 반환합니다. 문서 인텔리전스를 사용하면 문서 분석 모델, 미리 빌드/미리 학습된 모델 또는 학습된 독립 실행형 사용자 지정 모델을 사용할 수 있습니다.
이제 사용자 지정 모델에는 추출 모델을 호출하기 전에 문서 형식을 식별해야 하는 시나리오에 대한 사용자 지정 분류 모델이 포함됩니다. 분류자 모델은 2023-07-31 (GA) API를 시작으로 사용할 수 있습니다. 분류 모델을 사용자 지정 추출 모델과 페어링하여 비즈니스와 관련된 양식 및 문서에서 필드를 분석하고 추출할 수 있습니다. 독립 실행형 사용자 지정 추출 모델을 결합하여 구성된 모델을 만들 수 있습니다.
사용자 지정 문서 모델 형식
사용자 지정 문서 모델은 사용자 지정 서식 파일 또는 사용자 지정 양식과 사용자 지정 신경망 또는 사용자 지정 문서 모델의 두 가지 유형 중 하나일 수 있습니다. 두 모델에 대한 레이블 지정 및 학습 프로세스는 동일하지만 모델은 다음과 같이 다릅니다.
사용자 지정 추출 모델
사용자 지정 추출 모델을 만들려면 추출하려는 값으로 문서의 데이터 세트에 레이블을 지정하고 레이블이 지정된 데이터 세트에서 모델을 학습시킵니다. 시작하려면 동일한 양식 또는 문서 형식의 5가지 예제만 있으면 됩니다.
사용자 지정 신경망 모델
중요
Document Intelligence v4.0 2024-11-30 (GA) API는 사용자 지정 신경망 모델 겹치는 필드, 서명 검색 및 테이블, 행 및 셀 수준 신뢰도를 지원합니다.
사용자 지정 신경망(사용자 지정 문서) 모델은 대규모 문서 컬렉션에서 학습된 딥 러닝 모델 및 기본 모델을 사용합니다. 그런 다음 레이블이 지정된 데이터 세트를 사용하여 모델을 학습할 때 이 모델을 미세 조정하거나 데이터에 맞게 조정합니다. 사용자 지정 신경망 모델은 구조적, 반구조적 및 비구조적 문서에서 키 데이터 필드 추출을 지원합니다. 두 모델 유형 중에서 선택하는 경우 신경망 모델로 시작하여 기능 요구 사항을 충족하는지 확인합니다. V4.0을 사용하면 사용자 지정 신경망 모델이 서명 검색, 테이블 신뢰도 및 겹치는 필드를 지원합니다. 사용자 지정 문서 모델에 대한 자세한 내용은 신경망 모델을 참조하세요.
사용자 지정 템플릿 모델
사용자 지정 템플릿 또는 사용자 지정 양식 모델은 일관된 시각적 템플릿을 사용하여 레이블이 지정된 데이터를 추출합니다. 문서의 시각적 구조에 있는 분산은 모델의 정확도에 영향을 줍니다. 설문지 또는 애플리케이션과 같은 구조화된 양식은 일관된 시각적 템플릿의 예입니다.
학습 집합은 서식 및 레이아웃이 정적이고 한 문서 인스턴스에서 다음 문서 인스턴스로 상수인 구조화된 문서로 구성됩니다. 사용자 지정 템플릿 모델은 키-값 쌍, 선택 표시, 테이블, 서명 필드 및 지역을 지원합니다. 템플릿 모델 및 지원되는 언어의 문서에 대해 학습할 수 있습니다. 자세한 내용은 사용자 지정 템플릿 모델을참조하세요.
문서 및 추출 시나리오의 언어가 사용자 지정 신경망 모델을 지원하는 경우 더 높은 정확도를 위해 템플릿 모델보다 사용자 지정 신경망 모델을 사용하는 것이 좋습니다.
팁
학습 문서가 일관된 시각적 템플릿을 제공하는지 확인하려면 집합의 각 양식에서 사용자가 입력한 모든 데이터를 제거합니다. 빈 폼의 모양이 같으면 일관된 시각적 템플릿을 나타냅니다.
자세한 내용은 사용자 지정 모델의 정확도 및 신뢰도 해석 및 향상을참조하세요.
입력 요구 사항
최상의 결과를 위해 문서당 하나의 명확한 사진 또는 고품질 스캔을 제공합니다.
지원되는 파일 형식:
모델 Pdf 이미지: jpeg/jpg,png,bmp,tiffheifMicrosoft Office:
Word(docx), Excel(xlsx), PowerPoint(pptx)읽기 ✔ ✔ ✔ 레이아웃 ✔ ✔ ✔ 일반 문서 ✔ ✔ 사전 구축된 ✔ ✔ 사용자 지정 추출 ✔ ✔ 사용자 지정 분류 ✔ ✔ ✔ Microsoft Office 파일은 현재 다른 모델이나 버전에서 지원되지 않습니다.
PDF 및 TIFF의 경우 최대 2,000페이지를 처리할 수 있습니다(무료 계층 구독에서는 처음 두 페이지만 처리됨).
문서 분석을 위한 파일 크기는
500 MB유료(S0) 계층 및4 MB무료(F0) 계층입니다.이미지 크기는 50 x 50픽셀에서 10,000픽셀 x 10,000픽셀 사이여야 합니다.
PDF가 암호로 잠긴 경우 제출 전에 잠금을 제거해야 합니다.
추출할 텍스트의 최소 높이는 1024 x 768픽셀 이미지의 경우 12픽셀입니다. 이 차원은 인치당
150개의 도트로 약8포인트 텍스트에 해당합니다.사용자 지정 모델 학습의 경우 학습 데이터의 최대 페이지 수는 사용자 지정 템플릿 모델의 경우 500개, 사용자 지정 신경망 모델의 경우 50,000개입니다.
사용자 지정 추출 모델 학습의 경우 학습 데이터의 총 크기는
50 MB템플릿 모델 및1 GB신경망 모델에 대한 것입니다.사용자 지정 분류 모델 학습의 경우 학습 데이터의 총 크기는 최대 10,000페이지입니다
1 GB.
최적의 학습 데이터
학습 입력 데이터는 모든 기계 학습 모델의 기초입니다. 모델의 품질, 정확도 및 성능을 결정합니다. 따라서 Document Intelligence 프로젝트에 사용할 수 있는 최상의 학습 입력 데이터를 만드는 것이 중요합니다. 문서 인텔리전스 사용자 지정 모델을 사용하는 경우 사용자 고유의 학습 데이터를 제공합니다. 다음은 모델을 효과적으로 학습시키는 데 도움이 되는 몇 가지 팁입니다.
가능하면 이미지 기반 PDF 대신 텍스트 기반을 사용합니다. 이미지*기반 PDF를 식별하는 한 가지 방법은 문서에서 특정 텍스트를 선택하는 것입니다. 텍스트의 전체 이미지만 선택할 수 있는 경우 문서는 텍스트 기반이 아니라 이미지 기반입니다.
각 형식(JPEG/JPG, PNG, BMP, PDF 또는 TIFF)에 대해 하위 폴더를 사용하여 학습 문서를 구성합니다.
사용 가능한 필드가 모두 완료된 양식을 사용합니다.
각 필드에 서로 다른 값이 있는 양식을 사용합니다.
이미지가 품질이 낮은 경우 더 큰 데이터 세트(5개 이상의 학습 문서)를 사용합니다.
단일 모델 또는 단일 모델로 구성된 여러 모델을 사용해야 하는지 확인합니다.
각 폴더가 고유한 템플릿인 폴더로 데이터 세트를 분할하는 것이 좋습니다. 폴더당 하나의 모델을 학습시키고 결과 모델을 단일 엔드포인트로 구성합니다. 모델 정확도는 단일 모델로 분석된 다른 형식이 있는 경우 감소할 수 있습니다.
양식에 서식 및 페이지 나누기를 사용하는 변형이 있는 경우 여러 모델을 학습하도록 데이터 세트를 분할하는 것이 좋습니다. 사용자 지정 양식은 일관된 시각적 템플릿을 사용합니다.
형식, 문서 형식 및 구조를 고려하여 균형 잡힌 데이터 세트가 있는지 확인합니다.
빌드 모드
이 build custom model 작업은 템플릿 및 신경망 사용자 지정 모델에 대한 지원을 추가합니다. 이전 버전의 REST API 및 클라이언트 라이브러리는 이제 템플릿 모드라고 하는 단일 빌드 모드만 지원했습니다.
템플릿 모델은 동일한 기본 페이지 구조(균일한 시각적 모양) 또는 문서 내 요소의 상대 위치가 동일한 문서만 허용합니다.
신경망 모델은 정보가 같지만 페이지 구조가 다른 문서를 지원합니다. 이러한 문서의 예로는 동일한 정보를 공유하지만 회사마다 모양이 다른 미국 W2 양식이 있습니다.
이 표에서는 GitHub 빌드 모드 프로그래밍 언어 SDK 참조 및 코드 샘플에 대한 링크를 제공합니다.
| 프로그래밍 언어 | SDK 참조 | 코드 샘플 |
|---|---|---|
| C#/.NET | DocumentBuildMode 구조체 | Sample_BuildCustomModelAsync |
| Java | DocumentBuildMode 클래스 | BuildDocumentModel |
| 자바 스크립트 | DocumentBuildMode 형식 | buildModel.js |
| Python | DocumentBuildMode 열거형 |
모델 기능 비교
다음 표에서는 사용자 지정 템플릿과 사용자 지정 신경망 기능을 비교합니다.
| 기능 | 사용자 지정 템플릿(양식) | 사용자 지정 신경망(문서) |
|---|---|---|
| 문서 구조 | 서식 파일, 양식 및 구조화된 형식 | 구조화, 반구조화 및 비정형 |
| 학습 시간 | 1-5분 | 30분~12시간* |
| 데이터 추출 | 키-값 쌍, 테이블, 선택 표시, 좌표 및 서명 | 키-값 쌍, 선택 표시 및 테이블 |
| 겹치는 필드 | 지원되지 않음 | 지원 |
| 문서 변형 | 각 변형당 모델 필요 | 모든 변형에 단일 모델 사용 |
| 언어 지원 | 언어 지원 사용자 지정 템플릿 | 사용자 정의 신경망 언어 지원 |
*-기본 학습 시간은 30분이며, 유료 학습을 통해 30분보다 긴 모델을 학습할 수 있습니다. 사용자 지정 신경망에 대한 교육 지원에서 자세한 정보 확인
사용자 지정 분류 모델
문서 분류는 Document Intelligence의 새로운 시나리오로, 2023-07-31 (v3.1 GA) API에서 지원합니다. 문서 분류자 API는 분류 및 분할 시나리오를 지원합니다. 분류 모델을 학습하여 애플리케이션에서 지원하는 다양한 유형의 문서를 식별합니다. 분류 모델에 대한 입력 파일은 여러 문서를 포함할 수 있으며 연결된 페이지 범위 내에서 각 문서를 분류합니다. 자세한 내용은 사용자 지정 분류 모델을 참조하세요.
참고
v4.0 2024-11-30 (GA) 문서 분류 모델은 분류를 위해 Office 문서 유형을 지원합니다. 이 API 버전에서는 분류 모델에 대한 증분 학습 도 도입했습니다.
사용자 지정 모델 도구
Document Intelligence v3.1 이상 모델은 다음 도구, 애플리케이션 및 라이브러리, 프로그램 및 라이브러리를 지원합니다.
| 기능 | 리소스 | 모델 ID |
|---|---|---|
| 사용자 지정 모델 | • Document Intelligence Studio • REST API C# SDK • Python SDK |
custom-model-id |
사용자 지정 모델 수명 주기
사용자 지정 모델의 수명 주기는 학습에 사용되는 API 버전에 따라 달라집니다. API 버전이 GA(일반 공급) 버전인 경우 사용자 지정 모델은 해당 버전과 동일한 수명 주기를 가집니다. API 버전이 더 이상 사용되지 않는 경우 사용자 지정 모델을 유추할 수 없습니다. API 버전이 미리 보기 버전인 경우 사용자 지정 모델은 API의 미리 보기 버전과 동일한 수명 주기를 가집니다.
Document Intelligence v2.1은 다음 도구, 애플리케이션 및 라이브러리를 지원합니다.
참고
사용자 지정 모델 유형 사용자 지정 신경망 및 사용자 지정 템플릿 은 문서 인텔리전스 버전 v3.1 및 v3.0 API에서 사용할 수 있습니다.
| 기능 | 리소스 |
|---|---|
| 사용자 지정 모델 | • 문서 인텔리전스 레이블 지정 도구 • REST API • 클라이언트 라이브러리 SDK • 문서 인텔리전스 Docker 컨테이너 |
사용자 지정 모델 빌드
사용자 지정 모델을 사용하여 특정 또는 고유 문서에서 데이터를 추출합니다. 다음 리소스가 필요합니다.
Azure 구독입니다. 무료로 만들 수 있습니다.
Azure 포털의 Document Intelligence 인스턴스. 무료 가격 책정 계층(
F0)을 사용하여 서비스를 사용해 볼 수 있습니다. 리소스가 배포된 후 리소스로 이동하여 키와 엔드포인트를 가져옵니다.
샘플 레이블링 도구
팁
- 향상된 환경과 고급 모델 품질을 위해 Document Intelligence v3.0 Studio를 사용해 보세요.
- v3.0 Studio는 v2.1 레이블이 지정된 데이터로 학습된 모든 모델을 지원합니다.
- v2.1에서 v3.0으로 마이그레이션하는 방법에 대한 자세한 내용은 API 마이그레이션 가이드를 참조할 수 있습니다.
- 다음REST API 또는 C#, Java, JavaScript 또는 Python SDK의 /quickstarts를 참조하여 v3.0 버전을 시작해 보세요.
문서 인텔리전스 샘플 레이블 지정 도구는 OCR(문서 인텔리전스 및 광학 문자 인식) 기능의 최신 기능을 테스트할 수 있는 오픈 소스 도구입니다.
샘플 레이블 지정 도구 빠른 시작을 사용하여 사용자 지정 모델 빌드 및 사용을 시작합니다.
Document Intelligence Studio
참고
Document Intelligence Studio는 v3.1 및 v3.0 API와 함께 사용할 수 있습니다.
Document Intelligence Studio 홈페이지에서 사용자 지정 추출 모델을 선택합니다.
내 프로젝트 아래에서 프로젝트 만들기를 선택합니다.
프로젝트 세부 정보 필드를 완료합니다.
스토리지 계정 및 Blob 컨테이너를 추가하여 학습 데이터 원본을 연결하여 서비스 리소스를 구성합니다.
프로젝트를 검토하고 만듭니다.
샘플 문서를 추가하여 사용자 지정 모델에 레이블을 지정하고, 빌드하고, 테스트합니다.
첫 번째 사용자 지정 추출 모델을 만드는 자세한 연습은 사용자 지정 추출 모델을 만드는 방법을참조하세요.
사용자 지정 모델 추출 요약
이 표에서는 지원되는 데이터 추출 영역을 비교합니다.
| 모델 | 양식 필드 | 선택 표시 | 구조적 필드(테이블) | 서명 | 지역 레이블 지정 | 겹치는 필드 |
|---|---|---|---|---|---|---|
| 사용자 지정 템플릿 | ✔ | ✔ | ✔ | ✔ | ✔ | n/a |
| 사용자 지정 신경망 | ✔ | ✔ | ✔ | ✔ | * | ✔ |
테이블 기호:
✔ -지원됨
**n/a- 현재 사용할 수 없음;
*-모델에 따라 다르게 동작합니다. 템플릿 모델을 사용하면 학습 시 가상 데이터가 생성됩니다. 신경망 모델을 사용하면 지역에서 인식되는 기존 텍스트가 선택됩니다.
팁
두 모델 유형 중에서 선택하려면 기능 요구 사항을 충족하는 경우 사용자 지정 신경망 모델로 시작합니다. 사용자 지정 신경망 모델에 대한 자세한 내용은 사용자 지정 신경망을 참조하세요.
사용자 지정 모델 개발 옵션
다음 표에서는 연결된 도구 및 클라이언트 라이브러리에서 사용할 수 있는 기능에 대해 설명합니다. 모범 사례로 여기에 나열된 호환되는 도구를 사용해야 합니다.
| 문서 유형 | REST API | SDK | 레이블 지정 및 테스트 모델 |
|---|---|---|---|
| 사용자 지정 템플릿 v 4.0 v3.1 v3.0 | 문서 인텔리전스 3.1 | 문서 인텔리전스 SDK | Document Intelligence Studio |
| 사용자 지정 신경망 v4.0 v3.1 v3.0 | 문서 인텔리전스 3.1 | 문서 인텔리전스 SDK | Document Intelligence Studio |
| 사용자 지정 양식 v2.1 | 문서 인텔리전스 2.1 GA API | 문서 인텔리전스 SDK | 샘플 레이블 지정 도구 |
참고
3.0 API를 사용하여 학습된 사용자 지정 템플릿 모델에는 OCR 엔진 개선에서 비롯되는 2.1 API에 비해 몇 가지 개선 사항이 있습니다. 2.1 API를 사용하여 사용자 지정 템플릿 모델을 학습하는 데 사용되는 데이터 세트는 여전히 3.0 API를 사용하여 새 모델을 학습시키는 데 사용할 수 있습니다.
최상의 결과를 위해 문서당 하나의 명확한 사진 또는 고품질 검사를 제공해야 합니다.
지원되는 파일 형식은 JPEG/JPG, PNG, BMP, TIFF 및 PDF(텍스트 포함 또는 스캔)입니다. 텍스트 포함 PDF는 문자 추출 및 위치에 오류가 발생할 가능성을 제거하는 데 가장 적합합니다.
PDF 및 TIFF 파일은 최대 2,000페이지까지 처리할 수 있습니다. 무료 계층 구독을 사용하면 처음 두 페이지만 처리됩니다.
파일 크기는 유료(S0) 계층의 경우 500MB, 무료(F0) 계층의 경우 4MB 미만이어야 합니다.
이미지 크기는 50 x 50 픽셀에서 10,000 x 10,000 픽셀 사이여야 합니다.
PDF 크기는 최대 17 x 17인치이며 Legal 또는 A3 용지 크기에 해당하거나 더 작습니다.
학습 데이터의 총 크기는 500페이지 이하입니다.
암호가 잠긴 PDF는 제출 전에 암호 잠금을 제거해야 합니다.
팁
학습 데이터:
- 가능하면 이미지 기반 문서 대신 텍스트 기반 PDF 문서를 사용합니다. 스캔한 PDF는 이미지로 처리됩니다.
- 문서당 하나의 양식 인스턴스만 제공합니다.
- 채워진 양식의 경우 모든 필드가 채워진 예제를 사용합니다.
- 각 필드에 서로 다른 값이 있는 양식을 사용합니다.
- 양식 이미지 품질이 낮은 경우 더 큰 데이터 세트를 사용합니다. 예를 들어 10~15개의 이미지를 사용합니다.
지원되는 언어 및 로캘
지원되는 언어의 전체 목록은 언어 지원- 사용자 지정 모델 페이지를 참조하세요.
다음 단계
문서 인텔리전스 샘플 레이블 지정 도구를 사용하여 사용자 고유의 양식 및 문서를 처리해 보세요.
Document Intelligence 빠른 시작을 완료하고 원하는 개발 언어로 문서 처리 앱을 만들기 시작합니다.
Document Intelligence Studio를 사용하여 사용자 고유의 양식 및 문서를 처리해 보세요.
Document Intelligence 빠른 시작을 완료하고 원하는 개발 언어로 문서 처리 앱을 만들기 시작합니다.