Modelos personalizados de Inteligência de Documentos

Este conteúdo aplica-se a:checkmarkv4.0 (GA) | Versões anteriores:blue-checkmarkv3.1 (GA)red-checkmarkv3.0 (em retirada)red-checkmarkv2.1 (em retirada)

Este conteúdo aplica-se a:marca de verificaçãov3.1 (GA) | Última versão:marca de verificação roxav4.0 (GA) | Versões anteriores:marca de verificação azulv3.0marca de verificação azulv2.1

Este conteúdo aplica-se a:red-checkmarkv3.0 (em descontinuação) | Últimas versões:purple-checkmarkv4.0 (GA)purple-checkmarkv3.1 | Versão anterior:blue-checkmarkv2.1 (em descontinuação)

Este conteúdo aplica-se a:red-checkmarkv2.1 | Última versão:blue-checkmarkv4.0 (GA)

A Inteligência de Documentos utiliza tecnologia avançada de aprendizagem automática para identificar documentos, detetar e extrair informação de formulários e documentos, e devolver os dados extraídos numa saída JSON estruturada. Com a Inteligência de Documentos, pode usar modelos de análise de documentos, pré-desenvolvidos/pré-treinados, ou os seus modelos personalizados independentes treinados por si.

Os modelos personalizados agora incluem modelos de classificação personalizados para cenários onde é necessário identificar o tipo de documento antes de invocar o modelo de extração. Modelos de classificadores estão disponíveis a partir da 2023-07-31 (GA) API. Um modelo de classificação pode ser combinado com um modelo de extração personalizado para analisar e extrair campos de formulários e documentos específicos do seu negócio. Modelos de extração personalizados independentes podem ser combinados para criar modelos compostos.

Tipos personalizados de modelos de documentos

Os modelos de documentos personalizados podem ser de dois tipos: modelo personalizado ou formulário personalizado e modelos neurais ou de documentos personalizados. O processo de rotulagem e treino para ambos os modelos é idêntico, mas os modelos diferem da seguinte forma:

Modelos de extração personalizados

Para criar um modelo de extração personalizado, rotule um conjunto de dados de documentos com os valores que pretende extrair e treine o modelo no conjunto de dados rotulado. Só precisas de cinco exemplos do mesmo formulário ou tipo de documento para começar.

Modelo neural personalizado

Importante

A API Document Intelligence v4.0 2024-11-30 (GA) suporta modelos neurais personalizados que sobrepõem campos, deteção de assinaturas e confiança ao nível de tabelas, linhas e células.

O modelo neural personalizado (documento personalizado) utiliza modelos de deep learning e modelo base treinados numa grande coleção de documentos. Este modelo é então ajustado ou adaptado aos seus dados quando treina o modelo com um conjunto de dados rotulado. Modelos neurais personalizados suportam a extração de campos-chave de dados de documentos estruturados, semi-estruturados e não estruturados. Quando escolher entre os dois tipos de modelo, comece por um modelo neural para determinar se satisfaz as suas necessidades funcionais. Com a V4.0, o modelo neural personalizado suporta deteção de assinatura, nível de confiança na tabela e campos sobrepostos. Consulte modelos neurais para saber mais sobre modelos personalizados de documentos.

Modelo personalizado

O modelo personalizado ou modelo de formulário personalizado depende de um modelo visual consistente para extrair os dados rotulados. As variações na estrutura visual dos seus documentos afetam a precisão do seu modelo. Formulários estruturados, como questionários ou candidaturas, são exemplos de modelos visuais consistentes.

O teu conjunto de treino consiste em documentos estruturados onde a formatação e o layout são estáticos e constantes de uma instância de documento para outra. Modelos de templates personalizados suportam pares chave-valor, marcas de seleção, tabelas, campos de assinatura e regiões. Modelos template podem ser treinados em documentos em qualquer das linguagens suportadas. Para mais informações, consultemodelos personalizados de templates.

Se a linguagem dos seus documentos e cenários de extração suportar modelos neurais personalizados, recomendamos que utilize modelos neurais personalizados em vez de modelos template para maior precisão.

Dica

Para confirmar que os seus documentos de formação apresentam um modelo visual consistente, remova todos os dados introduzidos pelo utilizador de cada formulário do conjunto. Se os formulários em branco forem idênticos na aparência, representam um modelo visual consistente.

Para mais informações, consulteInterpretar e melhorar a precisão e a confiança em modelos personalizados.

Requisitos de entrada

  • Para melhores resultados, forneça uma fotografia clara ou uma digitalização de alta qualidade por documento.

  • Formatos de ficheiro suportados:

    Modelo PDF Imagem:
    jpeg/jpg, png, bmp, tiff, heif
    Microsoft Office:
    Word (docx), Excel (xlsx), PowerPoint (pptx)
    Leia
    Disposição
    Documento Geral
    Pré-fabricado
    Extração personalizada
    Classificação personalizada

    ✱ Os ficheiros do Microsoft Office atualmente não são suportados para outros modelos ou versões.

  • Para PDF e TIFF, podem ser processadas até 2.000 páginas (com uma subscrição gratuita, apenas as duas primeiras páginas são processadas).

  • O tamanho do ficheiro para análise de documentos é 500 MB para o nível pago (S0) e 4 MB para o nível gratuito (F0).

  • As dimensões da imagem devem estar entre 50 x 50 pixels e 10.000 pixels x 10.000 pixels.

  • Se os seus PDFs estiverem bloqueados por palavra-passe, deve remover o bloqueio antes de submeter.

  • A altura mínima do texto a extrair é de 12 píxeis para uma imagem de 1024 x 768 píxeis. Esta dimensão corresponde a um texto de cerca de 8 pontos a 150 pontos por polegada.

  • Para a formação de modelos personalizados, o número máximo de páginas para dados de treino é 500 para o modelo personalizado e 50.000 para o modelo neural personalizado.

  • Para o treino de modelos de extração personalizados, o tamanho total dos dados de treino é 50 MB para o modelo de template e 1 GB para o modelo neural.

  • Para o treinamento de modelos de classificação personalizados, o tamanho total dos dados de treino é 1 GB de um máximo de 10.000 páginas.

Dados de treino ótimos

Os dados de entrada de treino são a base de qualquer modelo de aprendizagem automática. Determina a qualidade, precisão e desempenho do modelo. Por isso, é crucial criar os melhores dados de entrada de treino possíveis para o seu projeto de Inteligência Documental. Quando utiliza o modelo personalizado de Document Intelligence, fornece os seus próprios dados de treino. Aqui ficam algumas dicas para ajudar a treinar os seus modelos de forma eficaz:

  • Use PDFs baseados em texto em vez de imagens sempre que possível. Uma forma de identificar um PDF baseado em imagem é tentar selecionar texto específico no documento. Se conseguires selecionar apenas a imagem completa do texto, o documento é baseado em imagens, não em texto.

  • Organize os seus documentos de formação usando uma subpasta para cada formato (JPEG/JPG, PNG, BMP, PDF ou TIFF).

  • Use formulários com todos os campos disponíveis preenchidos.

  • Use formulários com valores diferentes em cada campo.

  • Use um conjunto de dados maior (mais de cinco documentos de treino) se as suas imagens forem de baixa qualidade.

  • Determina se precisas de usar um único modelo ou vários modelos compostos num único modelo.

  • Considere segmentar o seu conjunto de dados em pastas, onde cada pasta é um modelo único. Treine um modelo por pasta e componha os modelos resultantes num único endpoint. A precisão dos modelos pode diminuir quando se analisam diferentes formatos com um único modelo.

  • Considere segmentar o seu conjunto de dados para treinar múltiplos modelos se o seu formulário tiver variações de formatos e quebras de página. Formulários personalizados dependem de um modelo visual consistente.

  • Certifique-se de que tem um conjunto de dados equilibrado, tendo em conta formatos, tipos de documentos e estrutura.

Modo de construção

A build custom model operação adiciona suporte para os modelos de template e neurais personalizados. As versões anteriores da API REST e das bibliotecas clientes suportavam apenas um único modo de compilação que agora é conhecido como modo template .

  • Os modelos modelo aceitam apenas documentos que tenham a mesma estrutura básica de página — uma aparência visual uniforme — ou a mesma posição relativa dos elementos dentro do documento.

  • Os modelos neurais suportam documentos que têm a mesma informação, mas estruturas de página diferentes. Exemplos destes documentos incluem os formulários W2 da Estados Unidos, que partilham a mesma informação, mas variam na aparência entre empresas.

Esta tabela fornece ligações para as referências do SDK da linguagem de programação em modo de desenvolvimento, bem como exemplos de código disponíveis no GitHub.

Linguagem de programação Referência do SDK Exemplo de código
C#/.NET DocumentBuildMode Struct Sample_BuildCustomModelAsync
Java Classe DocumentBuildMode BuildDocumentModel
JavaScript Tipo DocumentBuildMode buildModel.js
Python DocumentBuildMode Enum

Compare características do modelo

A tabela seguinte compara o modelo personalizado e as características neurais personalizadas:

Destaque Modelo personalizado (formulário) Neural personalizado (documento)
Estrutura do documento Modelo, formulário e estrutura Estruturado, semi-estruturado e não estruturado
Tempo de treino 1 a 5 minutos 30 minutos a 12 horas*
Extração de dados Pares-chave-valor, tabelas, marcas de seleção, coordenadas e assinaturas Pares chave-valor, marcadores de seleção e tabelas
Campos sobrepostos Não suportado Apoiado
Variações do documento Requer um modelo para cada variação Utiliza um único modelo para todas as variações
Suporte linguístico Modelo personalizável de suporte à língua Suporte de linguagem neural personalizado

*-O tempo de treino padrão é de 30 minutos. Ative o treino pago para treinar um modelo por mais de 30 minutos. Consulte mais detalhes na secção de suporte de treino para neural personalizado

Modelo de classificação personalizada

A classificação de documentos é um novo cenário suportado pelo Document Intelligence com a 2023-07-31 API (v3.1 GA). A API do classificador de documentos suporta cenários de classificação e divisão. Treine um modelo de classificação para identificar os diferentes tipos de documentos que a sua candidatura suporta. O ficheiro de entrada para o modelo de classificação pode conter múltiplos documentos e classifica cada documento dentro de um intervalo de páginas associado. Para saber mais, consulte modelos de classificação personalizados.

Nota

O v4.0 2024-11-30 (GA) modelo de classificação de documentos suporta tipos de documentos do Office para classificação. Esta versão da API também introduz treino incremental para o modelo de classificação.

Ferramentas personalizadas para modelos

O Document Intelligence v3.1 e modelos posteriores suportam as seguintes ferramentas, aplicações e bibliotecas, programas e bibliotecas:

Destaque Recursos ID do modelo
Modelo personalizado Document Intelligence Studio
REST API
C# SDK
Python SDK
custom-model-id

Ciclo de vida personalizado do modelo

O ciclo de vida de um modelo personalizado depende da versão da API utilizada para o treinar. Se a versão da API for uma versão de disponibilidade geral (GA), o modelo personalizado tem o mesmo ciclo de vida dessa versão. O modelo personalizado não está disponível para inferência quando a versão da API está obsoleta. Se a versão da API for uma versão de pré-visualização, o modelo personalizado tem o mesmo ciclo de vida que a versão de pré-visualização da API.

O Document Intelligence v2.1 suporta as seguintes ferramentas, aplicações e bibliotecas:

Nota

Tipos de modelos personalizados, neurais personalizados e modelos personalizados estão disponíveis com as APIs do Document Intelligence versões v3.1 e v3.0.

Destaque Recursos
Modelo personalizado • Ferramenta de rotulagem Document Intelligence • API REST • SDK de biblioteca cliente • Contentor Docker Document Intelligence

Construir um modelo personalizado

Extrai dados dos teus documentos específicos ou únicos usando modelos personalizados. Precisa dos seguintes recursos:

  • Uma subscrição do Azure. Podes criar um gratuitamente.

  • Uma instância Document Intelligence no portal Azure. Pode usar o escalão de preços gratuito (F0) para experimentar o serviço. Depois de o seu recurso ser implementado, selecione Ir para o recurso para obter a sua chave e endpoint.

    Captura de ecrã que mostra as chaves e a localização do endpoint no portal Azure.

Ferramenta de rotulagem de amostras

Dica

  • Para uma experiência melhorada e qualidade de modelo avançada, experimente o Document Intelligence v3.0 Studio.
  • O Studio v3.0 suporta qualquer modelo treinado com dados rotulados v2.1.
  • Pode consultar o guia de migração da API para informações detalhadas sobre a migração da v2.1 para a v3.0.
  • Veja a nossa API REST ou C#, Java, JavaScript, ou SDK Python .. /quickstarts para começar com a versão v3.0.
  • A ferramenta de Etiquetagem de Exemplo de Inteligência de Documentos é uma ferramenta open source que permite testar as funcionalidades mais recentes de Inteligência de Documentos e Reconhecimento Óptico de Caracteres (OCR).

  • Experimenta a ferramenta de rotulagem rápida de exemplo para começares a construir e usar um modelo personalizado.

Estúdio de Inteligência Documental

Nota

O Document Intelligence Studio está disponível com APIs v3.1 e v3.0.

  1. Na página inicial do Document Intelligence Studio , selecione Modelos de extração personalizados.

  2. Em Os Meus Projetos, selecione Criar um projeto.

  3. Preencha os campos de detalhes do projeto.

  4. Configure o recurso do serviço adicionando a sua conta de armazenamento e o contentor Blob para ligar a sua fonte de dados de treino.

  5. Revise e crie o seu projeto.

  6. Adicione os seus documentos de exemplo para etiquetar, construir e testar o seu modelo personalizado.

Para um guia detalhado para criar o seu primeiro modelo de extração personalizado, veja Como criar um modelo de extração personalizado.

Resumo da extração de modelos personalizados

Esta tabela compara as áreas de extração de dados suportadas:

Modelo Campos do formulário Marcas de seleção Campos estruturados (Tabelas) Assinatura Rotulagem de Regiões Campos sobrepostos
Modelo personalizado N/A
Rede Neural Personalizada *

Símbolos da tabela:
✔ —Apoiado
**n/a—Atualmente indisponível;
*-Comporta-se de forma diferente dependendo do modelo. Com modelos template, os dados sintéticos são gerados no momento do treino. Com modelos neurais, o texto existente reconhecido na região é selecionado.

Dica

Para escolher entre os dois tipos de modelo, comece com um modelo neural personalizado se este corresponder às suas necessidades funcionais. Consulte modelos de redes neurais personalizadas para saber mais sobre modelos neurais personalizados.

Opções de desenvolvimento de modelos personalizados

A tabela seguinte descreve as funcionalidades disponíveis com as ferramentas e bibliotecas de clientes associadas. Como boa prática, certifique-se de que utiliza as ferramentas compatíveis aqui listadas.

Tipo de documento API REST SDK Modelos de Etiqueta e Teste
Modelo personalizado v 4.0 v3.1 v3.0 Inteligência Documental 3.1 SDK de Inteligência Documental Estúdio de Inteligência Documental
Personalizado neural v4.0 v3.1 v3.0 Inteligência Documental 3.1 SDK de Inteligência Documental Estúdio de Inteligência Documental
Formulário personalizado v2.1 API GA de Inteligência de Documentos 2.1 SDK de Inteligência Documental Ferramenta de rotulagem de exemplos

Nota

Modelos personalizados treinados com a API 3.0 apresentam algumas melhorias em relação à API 2.1 resultantes de melhorias no motor OCR. Conjuntos de dados usados para treinar um modelo personalizado usando a API 2.1 ainda podem ser usados para treinar um novo modelo usando a API 3.0.

  • Deve ser fornecida uma fotografia clara ou uma digitalização de alta qualidade por documento para obter os melhores resultados.

  • Os formatos de ficheiro suportados são JPEG/JPG, PNG, BMP, TIFF e PDF (incorporados em texto ou digitalizados). PDFs incorporados em texto são melhores para eliminar a possibilidade de erro na extração e localização de caracteres.

  • Podem ser processados ficheiros PDF e TIFF, com até 2.000 páginas. Com uma subscrição de nível gratuito, apenas as duas primeiras páginas são processadas.

  • O tamanho do ficheiro deve ser inferior a 500 MB para o nível pago (S0) e 4 MB para o nível gratuito (F0).

  • As dimensões da imagem devem estar entre 50 x 50 pixels e 10.000 x 10.000 píxeis.

  • As dimensões do PDF são até 17 x 17 polegadas, correspondendo ao tamanho Legal ou A3, ou menos.

  • O tamanho total dos dados de treino é de 500 páginas ou menos.

  • Os PDFs que estejam bloqueados por palavra-passe devem ter o bloqueio removido antes da submissão.

    Dica

    Dados de treino:

    • Se possível, utilize documentos PDF baseados em texto em vez de documentos baseados em imagens. Os PDFs digitalizados são tratados como imagens.
    • Forneça apenas uma única instância do formulário por documento.
    • Para formulários preenchidos, use exemplos que tenham todos os seus campos preenchidos.
    • Use formulários com valores diferentes em cada campo.
    • Se as imagens do teu formulário forem de menor qualidade, usa um conjunto de dados maior. Por exemplo, use entre 10 a 15 imagens.

Línguas e locais suportados

Consulte a nossa página de Suporte a Linguagens — modelos personalizados para uma lista completa das línguas suportadas.

Próximos passos