정보 추출

중요합니다

이 기능은 공개 미리 보기 로 제공되며 HIPAA 규격입니다.

이 페이지에서는 새 버전의 정보 추출에 대해 설명합니다. 이전 버전에 대한 자세한 내용은 정보 추출 사용(레거시)을 참조하세요.

정보 추출은 정의된 스키마를 사용하여 구조화되지 않은 문서와 텍스트를 키로 구조화된 인사이트를 변환합니다. 이렇게 하면 구조화되지 않은 텍스트, PDF, 이미지 또는 테이블에 포함된 정보를 분석, 보고 또는 다운스트림 에이전트 및 애플리케이션에 직접 사용할 수 있습니다.

정보 추출의 예는 다음과 같습니다.

  • 계약에서 법적 당사자 및 약관 추출.
  • 청구서에서 품목 및 결제 조건 추출
  • 의료 기록 및 메모에서 주요 세부 정보를 가져옵니다.

정보 추출은 AI 함수 ai_extract를 기반으로 합니다. 정보 추출에는 추출을 위해 정의된 스키마를 사용하여 함수를 사용자 지정하고 최적화하는 시각적 UI가 있습니다.

정보 추출은 기본 스토리지 를 사용하여 각 에이전트에 전원을 공급하는 임시 데이터 변환, 모델 검사점 및 내부 메타데이터를 저장합니다. 에이전트를 삭제하면 에이전트와 연결된 모든 데이터가 기본 스토리지에서 제거됩니다.

요구 사항

정보 추출 에이전트 만들기

에이전트 아이콘으로 이동합니다. 작업 영역의 왼쪽 탐색 창에 있는 에이전트입니다. 에이전트>정보 추출 만들기를 클릭합니다.

1단계. 정보를 추출할 데이터 선택

  1. 정보를 추출할 파일 또는 데이터를 선택합니다. 파일을 업로드하거나, 지원되는 파일 형식의 Unity 카탈로그 볼륨 또는 텍스트 데이터가 포함된 테이블을 선택할 수 있습니다.

  2. 에이전트 만들기를 클릭합니다.

2단계. 추출 스키마 구성 및 구체화

정보 추출에서 데이터를 처리한 후 문서에서 추출할 데이터를 구성하고 구체화합니다.

  1. 구성에서 추출 스키마를 정의합니다. 이 작업을 수행하는 방법은 여러 가지입니다.

    • 추출하려는 정보를 설명하는 자연어를 입력하고 스키마 생성을 클릭합니다. 정보 추출은 필드 이름 및 정의를 사용하여 JSON 스키마를 지능적으로 자동으로 생성합니다. 필요에 따라 이러한 설명을 편집합니다.
    • 대신, 스키마를 수동으로 정의하려면 또는 수동으로 정의를 클릭하십시오.
      1. 필드 추가를 클릭합니다.
      2. 필드 이름, 형식 및 설명을 입력합니다.
      3. 확인을 클릭합니다.
      4. 추출하려는 각 필드에 대해 반복합니다.
      5. 저장 및 실행 추출을 클릭합니다.
    • JSON을 클릭하여 JSON 스키마를 직접 편집할 수도 있습니다. 완료되면 변경 내용 적용 을 클릭합니다.

    스키마를 업데이트하고 저장 및 추출을 실행할 때마다 정보 추출은 추출 에이전트를 업데이트하고 추출을 실행하며 각 입력에 대한 결과를 표시합니다.

  2. 왼쪽에서 구문 분석된 문서와 에이전트의 추출을 검토합니다. 두 가지 방법으로 추출 결과를 반복합니다. 먼저 하나 이상의 입력에 자연어 피드백을 제공합니다. 저장 및 실행 추출을 클릭하면 설명이 지능적으로 자동으로 조정됩니다. 둘째, 스키마 설명을 수동으로 수정합니다. 저장 및 실행 추출에 도달하면 적용됩니다.

  3. 버전을 사용하여 이전 구성을 비교하거나 되돌릴 수 있습니다. 버전을 클릭한 다음 비교를 클릭하여 이전 버전의 스키마 정의를 현재 버전과 비교합니다. 복원을 클릭하여 이전 버전을 복원합니다.

3단계. 추출제 사용

에이전트의 성능에 만족하면 에이전트를 사용하여 정보를 추출합니다.

오른쪽 위에서 에이전트 사용을 클릭합니다. 다음 중 하나를 선택할 수 있습니다.

  • SQL에서 실행 하여 에이전트를 사용하여 모든 데이터에서 정보를 추출합니다. 그러면 정의된 스키마를 사용하여 볼륨 또는 테이블에서 정보를 추출하는 데 사용하는 ai_extract SQL 쿼리가 열립니다. SQL 쿼리에서 사용하는 ai_extract 방법에 대한 자세한 내용은 함수를 참조ai_extract하세요.
  • 새로운 데이터에 대해 에이전트를 호출하도록 예약된 간격으로 실행될 ETL 파이프라인을 배포하는 Spark 선언적 파이프라인을 작성하십시오. 그러면 추출된 데이터로 스트리밍 테이블을 업데이트하는 Lakeflow Spark 선언적 파이프라인이 만들어집니다. 새 데이터가 도착할 때 실행되도록 파이프라인의 일정을 구성할 수 있습니다. Lakeflow Spark 선언적 파이프라인에 대한 자세한 내용은 Lakeflow Spark 선언적 파이프라인을 참조하세요.

제한점

  • 정보 추출 에이전트의 최대 컨텍스트 길이는 128k입니다.
  • 보안 및 규정 준수가 강화된 작업 영역은 지원되지 않습니다.
  • 공용 구조체 스키마 형식은 지원되지 않습니다.