문서 구문 분석에서는 최신 연구 기법을 사용하여 PDF, 이미지, Word 문서(DOC/DOCX) 및 PowerPoint 파일(PPT/PPTX)을 비롯하여 광범위한 문서 형식에서 구조화된 데이터를 추출하고 시각화합니다. 테이블, 차트 및 혼합 텍스트 이미지 콘텐츠와 같은 복잡한 레이아웃을 처리하도록 설계되었습니다.
문서 구문 분석은 ai_parse_document 함수를 기반으로 구축되어 있으며, 서식이 지정된 텍스트 또는 구조화된 JSON 출력을 통해 문서를 구문 분석하고 그 구조를 즉시 검사할 수 있는 UI를 포함합니다.
Requirements
- 다음을 포함하는 작업 영역입니다.
- 서버리스 컴퓨팅을 사용하도록 설정했습니다. 서버리스 컴퓨팅 요구 사항을 참조하세요.
- Unity 카탈로그를 사용하도록 설정했습니다. Unity 카탈로그에 작업 영역 사용을 참조하세요.
- 0이 아닌 예산으로 서버리스 사용 정책에 액세스합니다.
- 이 함수는 일부 지역에서만 사용할 수 있습니다. AI 함수 가용성을 참조하세요.
- 이
ai_parse_document함수는 향상된 보안 및 규정 준수 추가 기능을 사용하여 작업 영역에서도 사용할 수 있습니다.
- 이
문서 구문 분석
문서 구문 분석을 사용하여 문서를 구문 분석하고 해당 구조를 시각화합니다.
-
작업 영역의 왼쪽 탐색 창에 있는 에이전트입니다.
- 에이전트 생성>문서 구문 분석을 클릭합니다.
- 원본 문서를 선택합니다. 파일을 업로드하거나 기존 Unity 카탈로그 카탈로그에서 파일을 선택하도록 선택할 수 있습니다. 지원되는 형식은 PDF, 이미지, DOC/DOCX 및 PPT/PPTX입니다.
- 문서 구문 분석을 클릭합니다.
문서를 구문 분석하는 데 몇 분 정도 걸릴 수 있습니다. 완료되면 문서 구문 분석에서 왼쪽의 원본 문서와 오른쪽에 구문 분석된 문서가 표시됩니다. 구문 분석된 문서를 서식 있는 텍스트 또는 원시 JSON으로 보도록 선택할 수 있습니다.
쿼리 결과 처리
쿼리를 ai_parse_document 보고 더 많은 문서에서 실행하려면 에이전트 사용을 클릭하고 SQL 편집기 또는 Notebook에서 쿼리를 실행하도록 선택합니다. 쿼리를 편집하여 문서가 있는 볼륨 또는 테이블을 가리킬 수 있습니다.
문서 구문 분석에서는 SQL 함수 ai_parse_document에 대한 UI 인터페이스를 제공합니다.
ai_parse_document 고급 예제 및 세부 정보는 참조 페이지를 참조하세요.
검색(RAG)을 위해 파싱된 출력을 준비하려면 다운스트림에서 ai_prep_search(베타)을 사용합니다.